本帖最后由 vokins 于 2013-9-4 18:03 编辑
求助,
我想下载
http://webscan.360.cn/url
这个网页,并把网页代码中的其余部分去除掉。- <!--end tips -->
- <script>
- $(function(){
- $("#menu-more").hover(function(){
- $("#menu-more-list").show();
- $("#menu-more").css("background-color","#3764B2");
- $("#menu-more").css("padding-bottom","2px");
- },function(){
- $("#menu-more-list").hide();
- $("#menu-more").css("background-color","");
- $("#menu-more").css("padding-bottom","0px");
- })
-
- })
- </script>
-
- <div class="faq clearfix">
- <!--<div class="fqa_navigation"><a href="#" title="">漏洞库</a> ›</div>-->
- <div class="faq_conbox">
- <h2 style="color:#333;width:86%;margin-bottom:10px;padding: 2px 10px;font-size:14px;padding:2px 10px;background: none repeat scroll 0 0 #FFE6E6;border: 1px solid #EEBBBB;">如下网址可能会对您的电脑造成伤害:如在您的电脑上安装恶意软件;通过欺诈钓鱼页面窃取您的账号等重要信息。请勿随意访问。
- </h2>
-
- <h2>今天排行</h2>
- <li><a href="/url/www.70pao.com.html" title="www.70pao.com恶意网站,www.70pao.com是什么">www.70pao.com</a></li>
-
-
- <h2>昨天排行</h2>
- <li>
- <ul>
- <li><a href="/url/www.63kxw.com.html" title="www.63kxw.com恶意网站,www.63kxw.com是什么">www.63kxw.com</a></li>
- <li><a href="/url/www.688mi.com.html" title="www.688mi.com恶意网站,www.688mi.com是什么">www.688mi.com</a></li>
- <li><a href="/url/www.70238.com.html" title="www.70238.com恶意网站,www.70238.com是什么">www.70238.com</a></li>
- <li><a href="/url/www.70cj.net.html" title="www.70cj.net恶意网站,www.70cj.net是什么">www.70cj.net</a></li>
- <li><a href="/url/www.70pao.com.html" title="www.70pao.com恶意网站,www.70pao.com是什么">www.70pao.com</a></li>
- <li><a href="/url/www.723724.com.html" title="www.723724.com恶意网站,www.723724.com是什么">www.723724.com</a></li>
- <li><a href="/url/www.7241.cn.html" title="www.7241.cn恶意网站,www.7241.cn是什么">www.7241.cn</a></li>
- <li><a href="/url/www.738393.com.html" title="www.738393.com恶意网站,www.738393.com是什么">www.73839
复制代码 只保留哪些恶意网址的域名,
并在每个域名前加入0.0.0.0。
变成:
0.0.0.0 www.70cj.net
0.0.0.0 www.7241.cn
0.0.0.0 www.738393.com
......
这是我自己写的代码,有点烂,效率还低,请高手指教- wget http://webscan.360.cn/url -O url.txt
- sed -i "1,91d" url.txt
- sed -i "2143,$d" url.txt
- sed -i "s/^[ \t]*//g" url.txt
- sed -i "s/>/\n/g" url.txt
- sed -i "s/</\n/g" url.txt
- sed -i "s/.*<li><a[^>]*>//" url.txt
- sed -i "/.html/d" url.txt
- sed -i "/行/d" url.txt
- sed -i "/网/d" url.txt
复制代码 ps.我还在mwsl下载了hosts文件,想把这个同上面的360 合并,但是会有重复的行,不知道如何去除。
当然用akelpad之类的编辑器手动删除重复行就好了,但是有没有可以用批处理解决全自动的办法呢?
:mwsl
del Mwsl.txt
wget http://www.mwsl.org.cn/hosts/hosts -O Mwsl.txt
sed -i "1,9d" Mwsl.txt
sed -i "1i\#Malicious Web site Labs" Mwsl.txt
sed -i "s/50.118.116.68/0.0.0.0/g" Mwsl.txt
goto :eof
再次请教,盼复 |