标题:
[问题求助]
Python用什么办法把歌曲的相关信息抓下来?
[打印本页]
作者:
netdzb
时间:
2020-6-12 17:39
标题:
Python用什么办法把歌曲的相关信息抓下来?
辛晓琪 - 忐忑.ape
辛晓琪 - 亲爱的你.ape
辛晓琪 阿杜 - 月光日记.ape
页面上一共有3首歌曲,这个页面是最后一页。前面一页15首,每个页面都是15首。
先挑简单的做吧,最后一个页面怎么提取歌曲名字。正则匹配最容易想到的,还有
别的办法吗?
以下是页面的信息
=====================
<tbody id="filemangelist">
<tr class="">
<td class="select-file"> <input id="fid" name="fid" value="1826394"
type="checkbox"></td>
<td class="file-title f14"><a class="music ico-type filename filelink" title="辛晓
琪 - 忐忑.ape" href="http://www.yimuhe.com/file-1826394.html" target="_blank">辛晓琪 - 忐
忑.ape</a></td>
<td class="tr sharestatus"><div id="rename" class="dn"><a href="javascript:;"
class="menudm bgs1 ico-delete-file1 r" style="width:25px;display: block;" title="删除"
onclick="del_file('1826394','3');"> </a><a class="menudm bgs1 ico-rename-file1 r"
style="width:25px;display: block;" href="javascript:;" title="重命名" onclick="edit_file
('1826394','辛晓琪 - 忐忑','');"> </a><a href="javascript:;" class="menudm bgs1 ico
-copy-file r" style="width:25px;display: block;" title="复制链接地址" onclick="copy_file
('1826394','www.ymhwp.com');"> </a></div></td>
<td class="tr">0</td>
<td class="tr">27.5MB</td>
<td class="tr">2013-12-09 18:23:37</td>
</tr>
<tr class="">
<td class="select-file"> <input id="fid" name="fid" value="1826393"
type="checkbox"></td>
<td class="file-title f14"><a class="music ico-type filename filelink" title="辛晓
琪 - 亲爱的你.ape" href="http://www.yimuhe.com/file-1826393.html" target="_blank">辛晓琪
- 亲爱的你.ape</a></td>
<td class="tr sharestatus"><div id="rename" class="dn"><a href="javascript:;"
class="menudm bgs1 ico-delete-file1 r" style="width:25px;display: block;" title="删除"
onclick="del_file('1826393','3');"> </a><a class="menudm bgs1 ico-rename-file1 r"
style="width:25px;display: block;" href="javascript:;" title="重命名" onclick="edit_file
('1826393','辛晓琪 - 亲爱的你','');"> </a><a href="javascript:;" class="menudm bgs1
ico-copy-file r" style="width:25px;display: block;" title="复制链接地址"
onclick="copy_file('1826393','www.ymhwp.com');"> </a></div></td>
<td class="tr">2</td>
<td class="tr">22.91MB</td>
<td class="tr">2013-12-09 18:21:51</td>
</tr>
<tr class="">
<td class="select-file"> <input id="fid" name="fid" value="1826392"
type="checkbox"></td>
<td class="file-title f14"><a class="music ico-type filename filelink" title="辛晓
琪 阿杜 - 月光日记.ape" href="http://www.yimuhe.com/file-1826392.html" target="_blank">辛
晓琪 阿杜 - 月光日记.ape</a></td>
<td class="tr sharestatus"><div id="rename" class="dn"><a href="javascript:;"
class="menudm bgs1 ico-delete-file1 r" style="width:25px;display: block;" title="删除"
onclick="del_file('1826392','3');"> </a><a class="menudm bgs1 ico-rename-file1 r"
style="width:25px;display: block;" href="javascript:;" title="重命名" onclick="edit_file
('1826392','辛晓琪 阿杜 - 月光日记','');"> </a><a href="javascript:;" class="menudm
bgs1 ico-copy-file r" style="width:25px;display: block;" title="复制链接地址"
onclick="copy_file('1826392','www.ymhwp.com');"> </a></div></td>
<td class="tr">1</td>
<td class="tr">28.25MB</td>
<td class="tr">2013-12-09 18:20:16</td>
</tr>
</tbody>
=========================
作者:
xp3000
时间:
2020-6-12 17:51
匹配文本
[^"]*\.ape
Python不会,你修改别人的爬虫看看
作者:
ivor
时间:
2020-6-12 18:22
[\w\s-]*\.ape
复制代码
作者:
netdzb
时间:
2020-6-12 18:57
回复
2#
xp3000
多谢,我去试试看。
作者:
netdzb
时间:
2020-6-12 19:55
回复
3#
ivor
onclick="edit_file('1826394','辛晓琪 - 忐忑','');
提取这个的表达式怎么写?
作者:
Gin_Q
时间:
2020-6-12 20:02
bs4 Beautiful Soup这个模块学学,html,xml随便弄!我爬网页都没有用过正则!
作者:
netdzb
时间:
2020-6-12 20:12
回复
6#
Gin_Q
谢谢,我去学学这个模块。
作者:
ivor
时间:
2020-6-13 08:31
回复
4#
netdzb
[\u4e00-\u9fa5\s-]+
复制代码
匹配 辛晓琪 - 忐忑
作者:
netdzb
时间:
2020-6-13 13:40
回复
8#
ivor
这个字段是可变的,可能是 辛晓琪 - 忐忑 可能是 辛晓琪 - 爱的回答, 也有可能是 邓丽君 - 甜蜜蜜。
欢迎光临 批处理之家 (http://www.bathome.net/)
Powered by Discuz! 7.2