批处理之家 - Powered by Discuz! Board

标题: [文本处理] [已解决]批处理怎样从多个shtml文件中提取swf文件网址？ [打印本页]

作者: liuxi001 时间: 2011-1-8 03:46 标题: [已解决]批处理怎样从多个shtml文件中提取swf文件网址？

从学习网站下载视频教程，下下来的全是shtml文件，这些文件里面有swf格式视频的网址。怎么从几百个shtml文件里面提取全部的swf视频网址呢

谢谢2楼和3楼的朋友，通过你们的帮助，我得到了文本1.txt。但是文本里面的内容很杂，导入到迅雷只提示有类似“http://www.enet.com.cn/eschool/inforcenter/article.jsp?articleid=20040421304259”的网页文件，swf视频网址导不进来。

能不能只提取的swf网址，像下面这样
http://myarticle.enet.com.cn/images/200409/1094549986327.swf
http://www.enet.com.cn/eschool/includes/zhuanti/ps/flash/k/02.swf
http://www.enet.com.cn/eschool/includes/zhuanti/ps/flash/m/02.swf

上传一个shtml文件样本，网站不能上传shtml，扩展名改成txt了。1.txt也上传了。（附件shtml文件大了，我上传前面一部分吧）

感谢大家热心帮忙！

[ 本帖最后由 liuxi001 于 2011-1-10 20:24 编辑 ]

作者: CUer 时间: 2011-1-8 12:05

grep -h -o "http:.*\.swf" *.shtml | more >1.txt
复制代码

作者: hanyeguxing 时间: 2011-1-8 13:30

grep下载地址：http://bbs.bathome.net/attachment.php?aid=1468

作者: tmplinshi 时间: 2011-1-8 19:19

type "*.shtml" | geturls /e:"'" | findstr /i "\.swf$" >swf_list.txt
复制代码

geturls.exe 下载：
http://bathome.net/thread-10581-1-1.html

geturls.exe 是以空格、英文双引号、>、< 这四个作为网址的结束分隔符。
如果还有其他分隔符，用 /e:"分隔符" 来指定。例如添加单引号和竖线： /e:"'|"

[ 本帖最后由 tmplinshi 于 2011-1-9 19:14 编辑 ]

作者: asnahu 时间: 2011-1-8 23:49 标题: 回复 2楼的帖子

不知是否版本问题，运行兄台的代码似乎有很多冗余的内容。俺不太会用grep，一般直接用sed。

sed "s/\x22/\n/g" *.shtml | grep "^http.*zhuanti.*swf$"
复制代码

[ 本帖最后由 asnahu 于 2011-1-9 13:25 编辑 ]

作者: tmplinshi 时间: 2011-1-9 07:43

之前少了一个双引号。。现在加上去了。

作者: CUer 时间: 2011-1-9 11:13 标题: 回复 5楼的帖子

我用的这个版本：

C:\Test>grep --version
grep (GNU grep) 2.5.1

作者: liuxi001 时间: 2011-1-9 15:36 标题: 回复 9楼 10楼 11楼

用4楼 9楼的方法解决了，谢谢大家。

回2楼CUer：
我也是用的grep (GNU grep) 2.5.1这个版本，生成的txt有很多冗余的内容。

回4楼 11楼 tmplinshi：可以了。

type "*.shtml" | geturls /e:"'" | findstr /i "\.swf$" >swf_list.txt
复制代码

回5楼asnahu ：
可以了，不过每一个网址后面都多了一个黑色方块，不知道怎么去掉，不过对导入迅雷没有影响。稍微改了一下？

sed "s/\x22/\n/g" *.shtml | grep "^http.*swf$"  >2.txt
复制代码

每一个swf都会找到的几个相同的网址，怎么删掉多余的？还有最后$有什么用？

回9楼Batcher：可以了，去掉了黑色方块。

sed "s/\x22/\n/g" *.shtml | grep "^http.*swf$" | more >2.txt
复制代码

需要同时下sed.exe和grep两个文件

不过有一个问题，用4楼的方法得到的文本每一个网址会出现5次，用9楼的方法得到的文本同一个网址出现3次。
回10楼：是这样用吗？

sed "s/\x22/\n/g" *.shtml | grep "^http.*swf$" | more >2.txt
sed -n 'G; s/\n/&&/; /^\([ -~]*\n\).*\n\1/d; s/\n//; h; P'
复制代码

我试了没有效果。
我完全不懂批处理，你说的直接用wget的-nc（skip downloads that would download to existing files.）参数直接过滤掉重复下载的内容，也不知道该怎么做。

还想请问一下，如果下载下来的是.html .htm或者.txt类型的文件可不可以直接套用上面的代码呀？

[ 本帖最后由 liuxi001 于 2011-1-9 22:25 编辑 ]

作者: Batcher 时间: 2011-1-9 15:53 标题: 回复 8楼的帖子

这样行吗？

sed "s/\x22/\n/g" *.shtml | grep "^http.*swf$" | more >2.txt
复制代码

$是正则表达式里面的，代表行尾。

作者: asnahu 时间: 2011-1-9 18:08

一般来说，直接用wget的-nc（skip downloads that would download to existing files.）参数直接过滤掉重复下载的内容，或者使用sed的高级命令：

sed -n 'G; s/\n/&&/; /^\([ -~]*\n\).*\n\1/d; s/\n//; h; P'
复制代码

此命令太高级，俺解释不清。-_-!

作者: tmplinshi 时间: 2011-1-9 19:20 标题: 回复 8楼的帖子

用非 IE 内核浏览器（chrome 和 Opera）编辑帖子时，切换了下“Discuz! 代码模式”和“所见即所得模式”，就出现了很多乱码。。正确的代码是这样的：

type "*.shtml" | geturls /e:"'" | findstr /i "\.swf$" >swf_list.txt
复制代码

作者: liuxi001 时间: 2011-1-9 22:34

刚刚测试下面代码可以做到删除相同行：

@echo off
echo 正在查找文本相同行，请等待.....
(echo 清除重复行后的文件内容：& echo.)>str_.txt

setlocal enabledelayedexpansion
for /f "delims=" %%i in (2.txt) do (
    if not defined %%i set %%i=A & echo %%i>>str_.txt)

echo 清理完毕，清理后的文件保存在：str_.txt
pause>nul
复制代码

欢迎光临批处理之家 (http://www.bathome.net/)