标题: [文本处理] [已解决]批处理如何从网页源代码中提取资源链接? [打印本页]
作者: impk 时间: 2019-7-22 15:41 标题: [已解决]批处理如何从网页源代码中提取资源链接?
本帖最后由 impk 于 2019-8-4 12:51 编辑
https://www.manhuadb.com
如何从这个网页的源代码里提取图片资源链接
过滤出http至jpg之间的全部内容并输入到txt
有几种方法可以实现?需要用到哪几种命令?
作者: zaqmlp 时间: 2019-7-22 17:32
本帖最后由 zaqmlp 于 2019-7-26 12:03 编辑
- @echo off
- set info=互助互利,支付宝扫码头像,感谢赞助
- rem 有问题,可加QQ956535081及时沟通
- title %info%
- cd /d "%~dp0"
- powershell -NoProfile -ExecutionPolicy bypass ^
- [System.Collections.ArrayList]$s=@();^
- $url='https://www.manhuadb.com/';^
- $web=New-Object System.Net.WebClient;^
- $web.Encoding=[System.Text.Encoding]::UTF8;^
- $html=$web.DownloadString($url);^
- $m=[regex]::matches($html,'(?^<=src=\"").+?\.jpg');^
- if($m.count -ge 1){^
- foreach($item in $m){[void]$s.Add($item.value);};^
- [IO.File]::WriteAllLines('结果.txt', $s, [Text.Encoding]::Default);^
- };
- echo;%info%
- pause
复制代码
作者: impk 时间: 2019-7-22 17:48
本帖最后由 impk 于 2019-7-22 17:54 编辑
回复 2# zaqmlp
保存为bat运行后提示,powershell不是内部或外部命令,也不是可运行的程序或批处理文件
这个脚本需要安装额外的运行环境么?我用的是XP3系统
作者: WHY 时间: 2019-7-22 21:44
回复 3# impk
WinXP 系统现在几乎没人用了,不闲麻烦的话你可以安装 PowerShell 试试。
https://www.microsoft.com/zh-CN/download/details.aspx?id=16818
作者: WHY 时间: 2019-7-22 21:49
本帖最后由 WHY 于 2019-7-26 11:28 编辑
- var txt = getText('https://www.manhuadb.com');
-
- var arr = [], m = [], map = [];
- var reg = /src="((?:https?:\/)?\/[^"]+\.jpe?g)"/ig; //匹配 src="https://...jpg" 或者 src="/...jpg"
- while( m = reg.exec(txt) ){
- var s = m[1].toLowerCase().replace(/^\//, 'https://www.manhuadb.com/');
- if( !map[s] ){ //去重复
- arr.push(s); map[s] = 1;
- }
- }
-
- writeToFile(arr);
-
- //提取网页
- function getText(url) {
- var http = new ActiveXObject('Microsoft.XMLHTTP');
- http.open('GET', url, false);
- http.send();
- with( new ActiveXObject('ADODB.Stream') ){
- Type = 1;
- Mode = 3;
- Open();
- Write(http.responseBody);
- Position = 0;
- Type = 2;
- Charset = 'UTF-8';
- var str = ReadText(-1);
- }
- return str;
- }
-
- //写入文本
- function writeToFile(arr) {
- var fso = new ActiveXObject('Scripting.FileSystemObject');
- fso.OpenTextFile('result.Log', 2, true).WriteLine(arr.join('\r\n'));
- }
-
- WSH.Echo('Done');
复制代码
作者: netdzb 时间: 2019-7-23 13:47
回复 5# WHY
这个是什么脚本。
作者: JC_2019 时间: 2019-7-26 09:13
回复 6# netdzb
vbs
作者: WHY 时间: 2019-7-26 11:32
好吧,再次修改一下。因为得到图片地址有遗漏。
保存为 Test.JS
作者: impk 时间: 2019-7-28 18:12
回复 5# WHY
这个脚本是保存为vbs文件再使用吧?我这边报错,提示【行1字符19语法错误代码800A03EA】
作者: xczxczxcz 时间: 2019-7-28 18:34
回复 9# impk
您的眼力真好,人家明明说保存 js ,你要保存 vbs.
作者: impk 时间: 2019-7-28 18:58
回复 impk
您的眼力真好,人家明明说保存 js ,你要保存 vbs.
xczxczxcz 发表于 2019-7-28 18:34
保存为js也报错提示【行18字符5 系统未找到指定的资源 代码800C0005】
作者: xczxczxcz 时间: 2019-7-28 20:17
- https://media.manhuadb.com/cartoon/1488_title_paniwcbr.jpg
- https://media.manhuadb.com/cartoon/6247_title_qirqiyix.jpg
- https://media.manhuadb.com/cartoon/143_title_hjecxxeh.jpg
- https://media.manhuadb.com/cartoon/1585_title_lkveswyl_720x405.jpg
- https://media.manhuadb.com/cartoon/1185_title_gktsajut.jpg
- https://media.manhuadb.com/cartoon/1167_title_vfowmmsg.jpg
- https://media.manhuadb.com/cartoon/7797_cover_qnolrmmf.jpg
- https://media.manhuadb.com/cartoon/7796_cover_razazdtf.jpg
- https://media.manhuadb.com/cartoon/7795_cover_lobmedaj.jpg
- https://media.manhuadb.com/cartoon/7794_cover_zwzldgxn.jpg
- https://media.manhuadb.com/cartoon/7793_cover_cyofbpdm.jpg
- https://media.manhuadb.com/cartoon/7792_cover_yrfkzest.jpg
- https://media.manhuadb.com/cartoon/7791_cover_yzpvzsnb.jpg
- https://media.manhuadb.com/cartoon/7790_cover_umsatbcm.jpg
- https://media.manhuadb.com/cartoon/7789_cover_gmbubydc.jpg
- https://media.manhuadb.com/cartoon/7788_cover_wvlppvip.jpg
- https://media.manhuadb.com/cartoon/7787_cover_gcjtftpt.jpg
- https://media.manhuadb.com/cartoon/7786_cover_cipstctc.jpg
- https://www.manhuadb.com/cartoon/139_title_eqymyphu.jpg
- https://www.manhuadb.com/cartoon/162_cover_glhxiyir.jpg
- https://media.manhuadb.com/cartoon/1466_cover_cawzjzvo_250x362.jpg
- https://media.manhuadb.com/cartoon/_cover_uczonnez.jpg
- https://media.manhuadb.com/cartoon/1518_title_fipqdtpt.jpg
- https://www.manhuadb.com/press/296_1_ycygyayd_thumb.jpg
- https://media.manhuadb.com/cartoon/3145_cover_jbmhtazk.jpg
- https://media.manhuadb.com/cartoon/_cover_djxwbobi.jpg
- https://www.manhuadb.com/cartoon/103_cover_dnahrshe.jpg
- https://www.manhuadb.com/cartoon/1061_title_rmzbrgjr.jpg
- https://www.manhuadb.com/cartoon/147_cover_iegknrqv.jpg
- https://www.manhuadb.com/cartoon/138_cover_pgojimpj.jpg
- https://www.manhuadb.com/cartoon/114_cover_ivqpicbz.jpg
- https://www.manhuadb.com/cartoon/236_cover_raumwyvs.jpg
- https://www.manhuadb.com/press/261_1_hberznkx_thumb.jpg
- https://media.manhuadb.com/cartoon/_cover_nhkpnyxt.jpg
- https://media.manhuadb.com/cartoon/1520_cover_ovlvzpem.jpg
- https://media.manhuadb.com/cartoon/6603_cover_wqldmvru.jpg
- https://media.manhuadb.com/cartoon/2060_cover_nodusfkj.jpg
- https://media.manhuadb.com/cartoon/2584_cover_qhsomnay.jpg
- https://media.manhuadb.com/cartoon/7746_cover_rcsbywsk.jpg
- https://media.manhuadb.com/cartoon/7666_cover_lcdqerfk.jpg
- https://media.manhuadb.com/cartoon/7165_cover_zrkpddfr.jpg
- https://media.manhuadb.com/cartoon/6474_cover_ixqeakrk.jpg
- https://media.manhuadb.com/cartoon/2971_cover_uforygug.jpg
- https://www.manhuadb.com/cartoon/1203_cover_fubjqdgw.jpg
- https://www.manhuadb.com/cartoon/181_cover_pgmtlitq.jpg
- https://media.manhuadb.com/cartoon/4248_cover_hrdninkt.jpg
- https://media.manhuadb.com/cartoon/6450_cover_vosbgtlb.jpg
- https://media.manhuadb.com/cartoon/5376_cover_sdtjnmwv.jpg
- https://media.manhuadb.com/cartoon/5983_cover_rczkutnm.jpg
- https://media.manhuadb.com/cartoon/6646_cover_ksewiaib.jpg
- https://media.manhuadb.com/cartoon/3876_cover_ucfwkywt.jpg
- https://media.manhuadb.com/cartoon/5025_cover_kghatein.jpg
- https://media.manhuadb.com/cartoon/7471_cover_xiqvvswv.jpg
- https://media.manhuadb.com/cartoon/3772_cover_hcrrfnci.jpg
- https://media.manhuadb.com/cartoon/7154_cover_soyukzbg.jpg
- https://media.manhuadb.com/cartoon/1482_cover_eavxecdn.jpg
- https://media.manhuadb.com/cartoon/1584_cover_ngubnkzy.jpg
- https://media.manhuadb.com/cartoon/1588_cover_hszsmktf.jpg
- https://media.manhuadb.com/cartoon/1635_cover_wddvozfb.jpg
- https://media.manhuadb.com/cartoon/1817_cover_qpsbuivc.jpg
- https://media.manhuadb.com/cartoon/1890_cover_manrlmkg.jpg
- https://media.manhuadb.com/cartoon/2073_cover_hzwayfnw.jpg
- https://media.manhuadb.com/cartoon/2500_cover_zksojfap.jpg
- https://media.manhuadb.com/cartoon/2515_cover_fgnebxdd.jpg
复制代码
作者: 523066680 时间: 2019-7-28 20:33
Mojolicious- use Modern::Perl;
- use Mojo::UserAgent;
- my $ua = Mojo::UserAgent->new();
- my $dom = $ua->get("https://www.manhuadb.com/")->result->dom;
-
- for my $e ( $dom->find("img")->each ) {
- say $e->attr("src") if $e->attr("src")=~/jpg$/;
- }
复制代码
作者: WHY 时间: 2019-7-28 22:33
回复 11# impk
碰到这种问题你应该先去问搜索引擎,脚本没有问题,不要背锅给脚本。没能力解决就别用。
作者: impk 时间: 2019-7-29 11:59
回复 14# WHY
回复 14# WHY
碰到这种问题你应该先去问搜索引擎,脚本没有问题,不要背锅给脚本。没能力解决就别用。
废话 有问题先搜索这还用你教?你怎知我没搜索过?
脚本在我机器上有问题,我实话实说,跟背锅有什么关系?
你能力大就别搭理我们这种菜鸟,听你说话还不够恶心的呢
作者: WHY 时间: 2019-7-29 15:30
尼玛,脾气挺大呀
一个星期前提的问题,问题本身并不难,出于好心我回复你了,你硬是当哑巴憋一个星期不闻不问不吭气,憋大招啊?
直到昨天尼玛一放大招真的惊艳到劳资啦,你在考察我的智商啊!
你真的会用搜索引擎?
https://blog.csdn.net/u011420697/article/details/10132761
http://www.baidu.com/s?wd=800c0005
沙雕是不是没人鸟你你更高兴?
作者: impk 时间: 2019-7-29 16:05
尼玛,脾气挺大呀
一个星期前提的问题,问题本身并不难,出于好心我回复你了,你硬是当哑巴憋一个星期不闻 ...
WHY 发表于 2019-7-29 15:30
=============================================================
题目我想要个DOS批处理,你们发的高级脚本脚本,我看不懂不会用,搜过以后还是不会,一堆天书你让我说什么?
【尼玛】【哑巴】【沙雕】你确实脾气大,会憋大招,惹不起
作者: 523066680 时间: 2019-7-29 16:33
测试 .js 格式执行正常,生成 result.Log,内含图片链接
作者: impk 时间: 2019-8-4 12:50
原来这里已经有答案了
http://www.bathome.net/viewthrea ... mp;extra=#pid222484
第三方命令实在强大
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |