批处理之家 - Powered by Discuz! Board

标题: [文本处理] [已解决]以正斜杠/分割，批处理如何截取网页链接地址的最后一段？ [打印本页]

作者: hlzj88 时间: 2014-6-4 22:18 标题: [已解决]以正斜杠/分割，批处理如何截取网页链接地址的最后一段？

本帖最后由 pcl_test 于 2016-8-21 14:18 编辑

假如地址是这样的http://www.9laidu.com/0/278/index.html，当然，为了更广泛的通用性，不限制/的多少。要截取最后一列，怎么截取。求助！

顺便，上面地址是很好的玄幻网络小说。非常精彩。

作者: hlzj88 时间: 2014-6-4 22:48

弟兄们，都看小说去了吗？

作者: apang 时间: 2014-6-4 22:51

for %%a in ("http://www.9laidu.com/0/278/index.html") do echo,%%~nxa

作者: hlzj88 时间: 2014-6-4 22:55

啊居然是这样的，把我tokens坏了。

谢谢！！

作者: DAIC 时间: 2014-6-4 23:11

来个不一样的

@echo off
set "str=http://www.9laidu.com/0/278/index.html"

:loop
set "str=%str:*/=%"
if "%str:*/=%" neq "%str%" (
    goto :loop
) else (
    echo,%str%
)
pause
复制代码

作者: hlzj88 时间: 2014-6-4 23:24

回复 5# DAIC
恩按标题来说，这是最合题的。没想到。

作者: pcl_test 时间: 2016-8-21 16:44

本帖最后由 pcl_test 于 2016-8-21 16:45 编辑

//&cls&cscript -nologo -e:jscript "%~f0"&pause&exit
//就来读（9来读）小说下载
//编码转换
function BintoStr(strBin,strCharset){
    try{
        var stream = new ActiveXObject('ADODB.Stream')
        stream.Type = 1
        stream.Mode = 3
        stream.Open()
        stream.Write(strBin)
        stream.Position = 0
        stream.Type = 2
        stream.Charset = strCharset
        return stream.ReadText
    }
    catch(e){}
}

//获取网页内容
function getHtmlTxt(url, strCharset){
    try{
        var http = new ActiveXObject('MSXML2.XMLHTTP')
    }
    catch(e){
        var http = new ActiveXObject('WinHttp.WinHttpRequest.5.1')
    }
    http.open('GET', url, false)
    http.send()
    return BintoStr(http.ResponseBody, strCharset);
}

//去除html标签
function Del(str){return str.replace(/<[^<]*?>|^\s*|\s*$/g,'').replace(/&nbsp;/g,' ')}

var fso = new ActiveXObject('Scripting.FileSystemObject');
var url = 'http://www.9laidu.com/23/23989/';

//获取章节
var m = getHtmlTxt(url, 'gb2312').match(/<h1\s?[^<]*>[\s\S]+?<\/h1>|<ol\s?[^<]*>[\s\S]+?<\/ol>/ig)
if(m){
    var title = Del(m[0]);
    var chapter = {};
    var reg = new RegExp("<a href=\"([^\"]+?)\"[^<]*?>([\\s\\S]+?)<\\/a>","ig");
    var result;
    while((result = reg.exec(m[1])) != null){
        chapter[result[1].replace(/^.+\//,'')] = result[2];
    }
}
//获取正文
if(chapter){
    for(var c in chapter){
        var text = getHtmlTxt(url+c, 'gb2312').match(/<div class="inner">([\s\S]+?)<\/div>/i)[1]
        if(text){
            var f = fso.OpenTextFile(title+'.txt', 8, true);
            f.Write('【'+chapter[c]+'】\r\n'+Del(text)+'\r\n--------------------------------------------\r\n\r\n');
            f.Close();
            WSH.echo(chapter[c]);
        }
    }
}
复制代码

欢迎光临批处理之家 (http://www.bathome.net/)

Powered by Discuz! 7.2