标题: [文本处理] 批处理如何在TXT里提取视频链接? [打印本页]
作者: 6508as 时间: 2018-8-31 22:20 标题: 批处理如何在TXT里提取视频链接?
文件a: 【提取前】
<a titwww="电视剧01"href="http://www.www.com/ptv/vplay/21342744.html"target="_blank">第1集</a></dt><dd class="d_cnt">回村勇救跳江知青</dd></dl></div><div class="col_4"index="1"><dl class="dl_temp"><dd class="d_img"><a href="http://www.www.com/ptv/vplay/21342833.html"target="_blank"titwww="电视剧02"><img src="http://i1.wwwtvimg.com/lc06_img/201803/01/15/21/220_122.png"alt="电视剧02"> <i data-src="http://i3.wwwtvimg.com/lc01_yunzhuanma/201503/08/04/02/6cd2f87a4c626c27f6d18b36692d8530_25128095/thumb/2_400_225.jpg"></i> <span class="video_info">43:32</span> <em class=""></em></a></dd><dt class="d_tit">
<a titwww="电视剧02"href="http://www.www.com/ptv/vplay/21342833.html"target="_blank">第2集</a></dt><dd class="d_cnt">被人诬告</dd></dl></div><div class="col_4"index="2"><dl class="dl_temp"><dd class="d_img"><a href="http://www.www.com/ptv/vplay/21343242.html"target="_blank"titwww="电视剧03"><img src="http://i1.wwwtvimg.com/lc06_img/201803/01/15/21/220_122.png"alt="电视剧03"> <i data-src="http://i1.wwwtvimg.com/lc02_yunzhuanma/201503/08/04/24/977a456e5bc3794c355937e78d159dbf_25129052/thumb/2_400_225.jpg"></i> <span class="video_info">43:33</span> <em class=""></em></a></dd><dt class="d_tit">
<a titwww="电视剧03"href="http://www.www.com/ptv/vplay/21343242.html"target="_blank">第3集</a></dt><dd class="d_cnt">结婚</dd></dl></div><div class="col_4"index="3"><dl class="dl_temp"><dd class="d_img"><a href="http://www.www.com/ptv/vplay/21345045.html"target="_blank"titwww="电视剧04"><img src="http://i1.wwwtvimg.com/lc06_img/201803/01/15/21/220_122.png"alt="电视剧04"> <i data-src="http://i2.wwwtvimg.com/lc01_yunzhuanma/201503/08/04/30/d5edc49145d72a451b08d1a464a1a140_25136055/thumb/2_400_225.jpg"></i> <span class="video_info">43:27</span> <em class=""></em></a></dd><dt class="d_tit">
文件b: 【提取后】
http://www.www.com/ptv/vplay/21342744.html
http://www.www.com/ptv/vplay/21342833.html
http://www.www.com/ptv/vplay/21343242.html
请教大神,该怎么写?先谢谢了!
作者: 窄口牛 时间: 2018-9-1 09:04
- @echo off
- Setlocal enabledelayedexpansion
- (for /f "delims=" %%i in ('type "%1" ^| GetURLs /s:"http" ^| find "vplay"') do findstr "%%i" "地址.txt">nul||echo %%i)>地址.txt
- start 地址.txt
- exit /b
复制代码
作者: 6508as 时间: 2018-9-3 06:32
回复 2# 窄口牛
首先谢谢!
经试用输出一个空的: 地址.txt
作者: 窄口牛 时间: 2018-9-3 07:01
附件下载了吗?连用都不会的话,真的没办法了。
作者: cfwyy77_bat 时间: 2018-9-3 09:09
- @echo off
- (for /f tokens^=4^ delims^=^" %%a in (a.txt) do echo %%a)>b.txt
- pause
复制代码
只保证对于 像示例a一样规整的文件 有效。
作者: 6508as 时间: 2018-9-9 12:47
本帖最后由 6508as 于 2018-9-9 13:14 编辑
回复 5# cfwyy77_bat
非常感谢!代码写的非常完美,非常好!
请问下面的怎么写:
a.txt:
<a title="《电视剧剧》 第1集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEpLLUrije5o3W6581JrLO160405.shtml"><div class="di"></div></a>
<div class="tp1"><a title="《电视剧剧》 第1集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEpLLUrije5o3W6581JrLO160405.shtml"></a></div>
<a title="《电视剧剧》 第1集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEpLLUrije5o3W6581JrLO160405.shtml"><img width="120" height="90" src="http://p5.img.wwwwpic.com/81/2011/12/31/C29742/img.gif" lazy="http://p5.img.wwwwpic.com/fmspic/2016/04/05/8fca7c79a3104d7ba6443eee06553442-1329.jpg"></a>
</div>
<div class="text">
<p><a title="《电视剧剧》 第1集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEpLLUrije5o3W6581JrLO160405.shtml">《电视剧剧》 第1集</a></p>
</div>
</dd>
<a title="《电视剧剧》 第2集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEpESDweZC3FMx5q1Jk6TZ160405.shtml"><div class="di"></div></a>
<div class="tp1"><a title="《电视剧剧》 第2集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEpESDweZC3FMx5q1Jk6TZ160405.shtml"></a></div>
<a title="《电视剧剧》 第2集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEpESDweZC3FMx5q1Jk6TZ160405.shtml"><img width="120" height="90" src="http://p5.img.wwwwpic.com/81/2011/12/31/C29742/img.gif" lazy="http://p4.img.wwwwpic.com/fmspic/2016/04/05/9fd056df681c4979a9e20e16bdc5efb0-1270.jpg"></a>
</div>
<div class="text">
<p><a title="《电视剧剧》 第2集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEpESDweZC3FMx5q1Jk6TZ160405.shtml">《电视剧剧》 第2集</a></p>
</div>
</dd>
<a title="《电视剧剧》 第3集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEhYv1TUt9DYz7r9tCG6cM160405.shtml"><div class="di"></div></a>
<div class="tp1"><a title="《电视剧剧》 第3集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEhYv1TUt9DYz7r9tCG6cM160405.shtml"></a></div>
<a title="《电视剧剧》 第3集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEhYv1TUt9DYz7r9tCG6cM160405.shtml"><img width="120" height="90" src="http://p5.img.wwwwpic.com/81/2011/12/31/C29742/img.gif" lazy="http://p3.img.wwwwpic.com/fmspic/2016/04/05/d5496763bec1444a8efd66aaf3833865-1270.jpg"></a>
</div>
<div class="text">
<p><a title="《电视剧剧》 第3集" target="_blank" href="http://www.ww.com/2016/04/05/VIDEhYv1TUt9DYz7r9tCG6cM160405.shtml">《电视剧剧》 第3集</a></p>
</div>
</dd>
b.txt:
http://www.ww.com/2016/04/05/VIDEpLLUrije5o3W6581JrLO160405.shtml
http://www.ww.com/2016/04/05/VIDEpESDweZC3FMx5q1Jk6TZ160405.shtml
http://www.ww.com/2016/04/05/VIDEhYv1TUt9DYz7r9tCG6cM160405.shtml
如果有时间的话,帮忙写一个,谢谢了!
作者: cfwyy77_bat 时间: 2018-9-10 09:24
回复 6# 6508as
哪有完美的东西啊,我只算是用了一个投机取巧的办法,你这个是哪导出的html文件吧,比较规整,所以能直接这样做,格式变一下或者是乱的,就不适用了。
我这个方法你理解了可以自己写啊,就是 用for /f 分段提取,唯一需要注意的是,我是直接用"作分隔符,需要转义的,for中引号怎么转义可以参考这个帖子
http://www.bathome.net/viewthread.php?tid=14113&rpid=92799&ordertype=0&page=1#pid92799
你这个 用for /f 配合findstr 应该就可以基本解决问题了。
其实用像二楼的第三方工具也可以解决问题的。办法总是很多的。
作者: Batcher 时间: 2018-9-10 12:56
回复 6# 6508as - @echo off
- (for /f tokens^=6^ delims^=^" %%a in ('type a.txt ^| findstr /c:"<img "') do (
- echo %%a
- ))>b.txt
复制代码
作者: 6508as 时间: 2018-9-10 17:52
回复 8# Batcher
写的真好!非常感谢!!非常感谢!!!
作者: impk 时间: 2019-8-4 12:22
窄口牛 发表于 2018-9-1 09:04
geturls.rar 附件好像损坏了,解压时提示格式未知或数据损坏
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |