批处理之家 - Powered by Discuz! Board

标题: [网络连接] 批处理怎样打开网页代码并搜索特定文字？ [打印本页]

作者: pyhx 时间: 2011-10-31 14:30 标题: 批处理怎样打开网页代码并搜索特定文字？

本帖最后由 pyhx 于 2011-11-1 09:10 编辑

我搞了个服务器，租给了一些人做网站，因为网警经常查，所以我要不定时打开他们的主页看看我服务器上有没有一些色情啊政治啊敏感内容。现在就想通过批处理打开这些网站主页代码，然后查找是否有特定的敏感字眼。那位高手帮忙说说
不好意思，上面说的不是太明白，具体点儿吧
1.txt------网址如www.0371hz.com;www.baidu.com等
2.txt------敏感字色情成人等
要求执行程序，自动访问1.txt；对比是否有2.txt中的文字；有的反馈在3.txt（任意一个词组相符）；没有的反馈在4.txt
初步想法是先提取网站主页代码，然后比对，不知道思路是否正确。

作者: weichenxiehou 时间: 2011-10-31 18:43

这么宽泛的问题估计没人愿意回答哦，毕竟别人并不是都有充足的时间，解答问题也是很有针对性的，也就是都乐意回答那种比较细比较具体的问题。

作者: awk 时间: 2011-10-31 21:59

wget
curl
grep
findstr

作者: pyhx 时间: 2011-11-1 08:30

不好意思，上面说的不是太明白，具体点儿吧
1.txt------网址如www.0371hz.com;www.baidu.com等
2.txt------敏感字色情成人等
要求执行程序，自动访问1.txt；对比是否有2.txt中的文字；有的反馈在3.txt（任意一个词组相符）；没有的反馈在4.txt
初步想法是先提取网站主页代码，然后比对，不知道思路是否正确。

作者: broly 时间: 2011-11-1 09:00

希望楼主下次发帖求助能把问题在顶楼一次性说清楚，正如2楼说的，大家都没有很充足的时间来等你把问题说清楚了再回答。所有，你有没发现此贴没什么人回答？

作者: broly 时间: 2011-11-1 12:33

你在本论坛搜索 wget 工具，把它跟批处理放一起运行

@echo off
rem 1.txt每行一个网址
rem 2.txt关键词用空格隔开，写在一行
for /f "delims=" %%i in (2.txt) do set "keyword=%%i"
for /f "delims=" %%i in (1.txt) do (
	wget -O $ %%i
	findstr /i /r %keyword% $ && echo %%i>>3.txt || echo %%i>>4.txt
)
del $ /q
复制代码

作者: pyhx 时间: 2011-11-1 14:24

不好意思，为什么总反馈1.txt中所有的网址，没有比对出来啊

作者: broly 时间: 2011-11-1 14:36

回复 7# pyhx

我是测试成功了才发出来的。
而且，你直接问为什么，我很难回答你的问题。你又忘了我前面说过的话了？

作者: pyhx 时间: 2011-11-1 15:00

呵呵，不好意思
能不能把qq号码给我
--14:34:09--  http://www.0371hz.com:80/
         => `$'
Connecting to www.0371hz.com:80... connected!
HTTP request sent, awaiting response...
Read error (No such file or directory) in header
Giving up.

--14:34:10--  http://www.zy56.com.cn:80/
         => `$'
Connecting to www.zy56.com.cn:80... connected!
HTTP request sent, awaiting response... 200 OK
Length: 23,379 [text/html]

0K -> .......... .......... ..

14:59:20 (15.49 B/s) - `$' saved [23379/23379]
结果只反馈了一个4.txt，并且里面是所有的地址

作者: pyhx 时间: 2011-11-1 15:08

我刚才又试了一下，如果我输入的敏感词是河南，则反馈了结果。如果我输入的是成人，就查不出来了。
可是http://www.0371hz.com，明明主页代码里面就有啊

作者: broly 时间: 2011-11-1 15:12

回复 9# pyhx

我知道哪里出错了。你的网页有的下载不了，有的可以下载，所以就造成了这个现象。

作者: pyhx 时间: 2011-11-1 15:24

网页有的下载不了，那该咋办啊？版主
我真的不是太了解

作者: pyhx 时间: 2011-11-1 16:08

我可以用浏览器打开上面http://www.0371hz.com/，但是不能用批处理打开。为啥，该咋解决啊

作者: broly 时间: 2011-11-1 18:03

换curl工具试试看：http://bbs.bathome.net/thread-1761-1-1.html

@echo off
rem 1.txt每行一个网址
rem 2.txt关键词用空格隔开，写在一行
for /f "delims=" %%i in (2.txt) do set "keyword=%%i"
for /f "delims=" %%i in (1.txt) do (
        curl -o $ %%i
        findstr /i /r %keyword% $ && echo %%i>>3.txt || echo %%i>>4.txt
)
del $ /q
复制代码

作者: wc726842270 时间: 2011-11-1 18:59

至于能下载的网站,我仅想说处理好"编码"是关键,
注:以上的代码我并没有实践

作者: pyhx 时间: 2011-11-2 08:58

我试了一下，还是一样的情况，那个http://www.0371hz.com打不开。
换个思路，能不能把这些网站的ip地址显示出来？

作者: pyhx 时间: 2011-11-2 17:02

各位大哥，谁帮帮忙啊

欢迎光临批处理之家 (http://www.bathome.net/)