批处理之家 - Powered by Discuz! Board

@echo off&setlocal enabledelayedexpansion
echo 提取百度贴吧帖子主楼内容，不包括回复和时间。
echo 输入百度贴吧帖子链接地址下载所有页面。如：http://tieba.baidu.com/p/1111111111
set /p "input=请输入："
echo Start . . .
for /f %%h in ('copy /z %0 nul') do set crlf=%%h^
for /f "tokens=4,6 delims=/?=" %%a in ("%input%") do (
if "%%b"=="" (echo ID：%%a ，第 1 页) else echo ID：%%a ，第 %%b 页
set id=%%a
cd.>!id!.txt
wget.exe -q "%input%" -O !id!.txt
)
for /f "tokens=2 delims=<>" %%a in ('findstr /i "<title>" !id!.txt') do set "fn=%%a"
set num=1
for %%h in ("!crlf!") do (
for /f "tokens=20 delims=:," %%a in ('findstr /i "all_page_num:" !id!.txt') do (
echo 文件：!fn!，共 %%a 页
for /l %%i in (2,1,%%a) do (
set /a num+=1
echo 下载：!fn!，第 !num! 页
cd.>"_!fn!_!num!.txt"&cd.>"!fn!_!num!.txt"
wget.exe -q "http://tieba.baidu.com/p/!id!?pn=!num!" -O "_!fn!_!num!.txt"
for /f "tokens=4* delims=<>" %%o in ('findstr /i "post_content_" "_!fn!_!num!.txt"') do (
if /i "%%o" neq "br" (set "str=%%o %%p") else set "str=%%p"
set str=!str:^<br^>=%%~h!
set str=!str:^<br/^>=%%~h!
set str=!str:br^>=%%~h!
set str=!str:^<br=%%~h!
set str=!str:^</div^>=!
set str=!str:/div^>=!
set str=!str:^</cc^>=!
echo;!str!
echo;
)>>"!fn!_!num!.txt"
)&&del /q "_!fn!_!num!.txt"
))
cd.>"!fn!_1.txt"
for %%h in ("!crlf!") do (
for /f "tokens=4* delims=<>" %%o in ('findstr /i "post_content_" "!id!.txt"') do (
if /i "%%o" neq "br" (set "str=%%o %%p") else set "str=%%p"
set str=!str:^<br^>=%%~h!
set str=!str:^<br/^>=%%~h!
set str=!str:br^>=%%~h!
set str=!str:^<br=%%~h!
set str=!str:^</div^>=!
set str=!str:/div^>=!
set str=!str:^</cc^>=!
echo;!str!
echo;
)>>"!fn!_1.txt"
)
del /q "!id!.txt"
start "" "!fn!_1.txt"
echo Success.
exit

复制代码

@echo off&setlocal enabledelayedexpansion
set "url=http://tieba.baidu.com/p/1002111656"
for /f "tokens=*" %%i in ('wget.exe -q -O- !url! ^| sed -nr "/all_page_num:/s#.*all_page_num:([0-9+]).*#\1#p"') do (
for /l %%a in (1 1 %%i) do (
echo 下载第 %%a 页
wget.exe -q -O- "!url!?pn=%%a"|sed -nr "{s/.*\x22date\x22:\x22([^\x22]*).*/发帖时间\1/p;s/.*_post_content\x22>(.*)<.*/\1/;s/<br>/\n/g;s/>/>/g;s/</</g;s/\&/\&/g;s/ |<img class=\x22.*>|<a href=\x22.*>//g;s#</div></cc>##gp};/lzl_content_main/{n;s/<br>/\n/g;s/>/>/g;s/</</g;s/\&/\&/g;s#^[\t ]*##;s#</span>##p};{s#.*lzl_time.*>([^<>]*)<.*#回复时间：\1#p}" >"page_num_%%a.txt"
)
)
pause

复制代码

@echo off&setlocal enabledelayedexpansion
set "url=http://tieba.baidu.com/p/1002111656"
wget.exe -q -O "url.txt" "%url%"
for /f "delims=" %%a in ('findstr /i "all_page_num:" url.txt') do (
set "str=%%a"
for /f "delims=," %%i in ("!str:*all_page_num:=!") do (
echo 共 %%i 页
for /l %%j in (1 1 %%i) do (
echo 下载第 %%j 页到 page_num_%%j.txt
(for /f "tokens=*" %%b in ('wget.exe -q -O- "!url!?pn=%%j"') do (
if "%%b" neq "" (
set str=%%b
if "!str:"date":=!" neq "%%b" (
for /f "delims=," %%c in ("!str:*"date":=!") do echo 发帖时间：%%~c
) else if "!str:_post_content=!" neq "%%b" (
for /f "tokens=2* delims=>" %%c in ("%%b") do (
if "%%d" neq "" set "s=%%d"
)
) else if defined _main (
if "!str:</span>=!" neq "%%b" (
set "s=!str:</span>=!"
set "_main="
)
) else if "!str:lzl_content_main=!" neq "%%b" (
set _main=%%b
) else if "!str:lzl_time=!" neq "%%b" (
for /f "tokens=2 delims=<>" %%c in ("%%b") do echo 回复时间：%%c
)
if defined s (
set "s=!s: =!"
set "s=!s:&=&!"
set "s=!s:>=>!"
set "s=!s:<=<!"
set s=!s:^<br^>=^
!
set "s=!s:</div></cc><br/>=!"
echo !s!&set "s="
)
)
))>tem_.t
more tem_.t >page_num_%%j.txt
)
)
)
del tem_.t
pause

复制代码

@echo off&setlocal enabledelayedexpansion
Rem 可完整地提取帖子所有内容，包括各楼层跟帖内容和回复内容，以及发帖、回帖时间。
set /p "url=请输入帖子地址："
wget.exe -q -O "url.txt" "%url%"
for /f "tokens=2 delims=<>" %%a in ('findstr /i "<title>" "url.txt"') do set "fn=%%a"
for /f "delims=" %%a in ('findstr /i "all_page_num:" url.txt') do (
set "str=%%a"
for /f "delims=," %%i in ("!str:*all_page_num:=!") do (
echo 共 %%i 页
for /l %%j in (1 1 %%i) do (
echo 下载第 %%j 页到 !fn!_%%j.txt
(for /f "tokens=*" %%b in ('wget.exe -q -O- "!url!?pn=%%j"') do (
if "%%b" neq "" (
set str=%%b
if "!str:"date":=!" neq "%%b" (
for /f "delims=," %%c in ("!str:*"date":=!") do echo;&echo 发帖时间：%%~c
) else if "!str:_post_content=!" neq "%%b" (
for /f "tokens=2* delims=>" %%c in ("%%b") do (
if "%%d" neq "" set "s=%%d"
)
) else if defined _main (
if "!str:</span>=!" neq "%%b" (
set "s=!str:</span>=!"
set "_main="
)
) else if "!str:lzl_content_main=!" neq "%%b" (
set _main=%%b
) else if "!str:lzl_time=!" neq "%%b" (
for /f "tokens=2 delims=<>" %%c in ("%%b") do echo 回复时间：%%c
)
if defined s (
set "s=!s: =!"
set "s=!s:&=&!"
set "s=!s:>=>!"
set "s=!s:<=<!"
set s=!s:^<br^>=^
!
set "s=!s:</div></cc><br/>=!"
echo;&echo !s!&set "s="
)
)
))>tem_.t
more tem_.t >!fn!_%%j.txt
)
)
)
del tem_.t,url.txt
start "" !fn!_1.txt

复制代码