正则表达式与有一定格式的文本

最近用aMule扒下来一堆cd。这些cd很神奇，是一堆iso，里面是一些flac文件……

这些flac都没有歌曲信息，于是我想办法提取歌曲信息存进去……

首先是文件名。文件名还算有点规律，都是###-(#) xxx _ xxx _ xxx _ xxx这样的。但是搞了没几张就发现，这个不太靠谱。首先是，有时候分隔用的是_，有时候是__…… 其次有时候一个域内部也会有_，例如标题里面时常出现…… 再次，看上去不少文件名最后被截断了…… 于是为了搞出靠谱的歌曲信息，还是用别的办法。

其次，每个cd还有个Vol ## xxx.txt的文件。打开一看，好歹比文件名有规律一点，第一行是专辑信息，之后有些# xxx : xxx / xxx = xxx这样的行，最后还有一些#-# xxx的表示录音时间的行。于是搞了个简单的python脚本，parse这些信息存进去……

既然是parse文本，那就正则表达式。一开始可简单了。再配合glob找文件，mutagen保存歌曲信息，看上去都很美好……

直到处理没几张专辑之后我发现：格式貌似不止一种…… 接下来就是各种麻烦的事情……

有时候，因为是一个作品的各个部分，除了第一部分那行外艺术家之类信息统统没有，只有一个小标题……

有时候，艺术家信息在下面录音时间那行的末尾……

有时候，录音时间那些行不是#-#或者#，而是#、#-#、#-#这样……

有时候，xxx : xxx表示作曲:标题，但有时候，xxx : xxx表示大标题:小标题…… 还有时候，xxx : xxx就完全是个小标题……

有时候，大标题和小标题之间用—分隔，但有时候，用:分隔……

有时候，:变成了;……

有时候，/不见了……

反正一开始一个没几行的python脚本膨胀到了超过两百行，有时候还需要手动处理…… 例如有一张里面艺术家跑到了第一行专辑信息里……

最后好歹算是差不多弄完了。虽说这还是有点格式的文本（我觉得肯定是人写的），正则表达式处理还是很麻烦。如果处理系统有音乐相关信息的话，估计能够更好地完成任务（例如知道作曲家都有那些这样）……

3 Comments

刚爷威武！

Reply to this comment

所以这种structured数据库都是各大音乐网站的宝贝啊，我之前研究过好久，结论是凡是公开的API没有一个全的靠谱的。semi-structure什么的最讨厌了。。。

Reply to this comment

henryhu

2013年1月30日 at pm8:59

不知道他们搞数据挖掘的有没有啥靠谱的办法

Reply to this comment

M	T	W	T	F	S	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Henry's Blog

Everything is possible…

正则表达式与有一定格式的文本

3 Comments

Leave a Reply Cancel reply