[已解决]求助批处理采集豆瓣读书书籍短评 - BAT求助&讨论 - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

tbjx138

上等兵

Rank: 1

帖子: 44
积分: 71
技术: 0
捐助: 0
注册时间: 2014-11-2

25楼

发表于 2023-5-26 08:39 | 只看该作者

回复 tbjx138

略微改了一下就是爬原文摘录的
也要加上/
jyswjjgdwtdtj 发表于 2023-5-25 18:02

感谢jyswjjgdwtdtj大神的再次相助，已经可以导出原文摘录了，万分感谢！！！

TOP

jyswjjgdwtdtj

中尉

Rank: 5 Rank: 5

帖子: 672
积分: 797
技术: 35
捐助: 0
注册时间: 2023-2-9

24楼

发表于 2023-5-25 18:02 | 只看该作者

回复 14# tbjx138

略微改了一下

 Set http = CreateObject("msxml2.xmlhttp")
Set fso = CreateObject("scripting.filesystemobject")
Function Gethtml(url)
    MsgBox url
   http.open "GET",url,False
   http.send()
   Gethtml = http.responsetext
End Function
burl = InputBox("url")
Set f = fso.createtextfile("1.txt",True,True)
For i = 0 To 1000
Set Document = CreateObject("htmlfile")
Document.designmode = "on"
html = gethtml(burl & "?sort=score&start="&i*20)
If InStr(html,"你没有权限访问这个页面") = -1 Then
    WScript.quit
End If
Document.write html
Dim score
For Each div In Document.Getelementsbytagname("div")
   If div.Classname = "blockquote-list score bottom-line" Then
       Set score = div
       Exit For
   End If
Next
Set ul = score.children(0)
For Each li In ul.children
   f.writeline li.InnerText
   f.writeline ""
Next
NextCOPY

就是爬原文摘录的
也要加上/

你好

TOP

tbjx138

上等兵

Rank: 1

帖子: 44
积分: 71
技术: 0
捐助: 0
注册时间: 2014-11-2

23楼

发表于 2023-5-25 11:03 | 只看该作者

这样运行后查看两个文件的内容一样吗回复 tbjx138
terse 发表于 2023-5-25 10:58

感谢terse大神耐心回复，还是没有改变，可能是我的原因吧。就这样吧，能导出就行了，再次谢谢大神了

TOP

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

22楼

发表于 2023-5-25 10:58 | 只看该作者

这样运行后查看两个文件的内容一样吗

 <# :
@echo off
cd.>output1.txt
cd.>output2.txt
powershell -noprofile -NoLogo "iex (${%~f0} | out-string)"
pause
exit 
#>
function get-content($url, $startPage, $endPage) {
     for ( $i = $startPage; $i -le $endPage; $i++) {
           $pageUrl = $url+"?start=$(($i - 1) * 20)&limit=20&status=P&sort=score"
           $response = Invoke-WebRequest -Uri $pageUrl
           $content1 = $response.ParsedHtml.getElementsByClassName('comment-content') | %{$_.innerText}
           $content2 = $response.ParsedHtml.getElementsByClassName('comment') | %{$_.innerText}
           Add-Content -Path "output1.txt" -Value $content1 -Encoding UTF8
           Add-Content -Path "output2.txt" -Value $content2 -Encoding UTF8
     }
}
$url = 'https://book.douban.com/subject/1023045/comments/'
get-content $url 1 11COPY

回复 21# tbjx138

TOP

tbjx138

上等兵

Rank: 1

帖子: 44
积分: 71
技术: 0
捐助: 0
注册时间: 2014-11-2

21楼

发表于 2023-5-25 09:44 | 只看该作者

回复 tbjx138
怎么回事呢，没有改动的话应该不会出现你说的问题
terse 发表于 2023-5-25 09:30

没有改动其他，按照你说的操作的，不知道什么原因，还有就是我的ie浏览器不能登录豆瓣

TOP

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

20楼

发表于 2023-5-25 09:30 | 只看该作者

回复 18# tbjx138
怎么回事呢，没有改动的话应该不会出现你说的问题

TOP

jave000

二级士官

Rank: 2

帖子: 146
积分: 193
技术: 1
捐助: 0
注册时间: 2021-5-27

19楼

发表于 2023-5-25 09:14 | 只看该作者

网页采集信息不是用RPA最方便么

TOP

tbjx138

上等兵

Rank: 1

帖子: 44
积分: 71
技术: 0
捐助: 0
注册时间: 2014-11-2

18楼

发表于 2023-5-25 09:05 | 只看该作者

回复 tbjx138
保存为bat文件运行
如果要用户名时间之类的把‘comment-content’ 换为 ‘comment’
terse 发表于 2023-5-25 08:26

感谢terse大神，热心应助，
按照代码操作可以导出220条了，
反馈一下测试
如果要用户名时间之类的把‘comment-content’ 换为 ‘comment’
这个换了后没有反应，还是和之前导出一样。

TOP

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

17楼

发表于 2023-5-25 08:26 | 只看该作者

回复 16# tbjx138
保存为bat文件运行
如果要用户名时间之类的把‘comment-content’ 换为 ‘comment’

 <# :
@echo off
cd.>output.txt
powershell -noprofile -NoLogo "iex (${%~f0} | out-string)"
pause
exit 
#>
function get-content($url, $startPage, $endPage) {
     for ( $i = $startPage; $i -le $endPage; $i++) {
           $pageUrl = $url+"?start=$(($i - 1) * 20)&limit=20&status=P&sort=score"
           $response = Invoke-WebRequest -Uri $pageUrl
           $content = $response.ParsedHtml.getElementsByClassName('comment-content') | %{$_.innerText}
           Add-Content -Path "output.txt" -Value $content -Encoding UTF8
     }
}
$url = 'https://book.douban.com/subject/1023045/comments/'
get-content $url 1 11COPY

TOP

tbjx138

上等兵

Rank: 1

帖子: 44
积分: 71
技术: 0
捐助: 0
注册时间: 2014-11-2

16楼

发表于 2023-5-24 22:42 | 只看该作者

回复 tbjx138

4楼代码这样执行试试：
Batcher 发表于 2023-5-24 22:28

感谢管理员的回复，按照链接看了一下，没有太明白操作

我很菜，只能弄些简单的。

TOP

Batcher

管理员

Rank: 12

帖子: 14976
积分: 46189
技术: 859
捐助: 745
注册时间: 2008-6-9

15楼

发表于 2023-5-24 22:28 | 只看该作者

回复 6# tbjx138

4楼代码这样执行试试：
http://bbs.bathome.net/thread-31071-1-1.html

我帮忙写的代码不需要付钱。如果一定要给，请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家，加入VIP会员！】http://bbs.bathome.net/thread-67716-1-1.html

TOP

tbjx138

上等兵

Rank: 1

帖子: 44
积分: 71
技术: 0
捐助: 0
注册时间: 2014-11-2

14楼

发表于 2023-5-24 22:27 | 只看该作者

典型的粗制滥造脚本
输入最后面带有/的啊
比如
放进vbs文件
楼上那个只能搞一页
jyswjjgdwtdtj 发表于 2023-5-24 20:18

jyswjjgdwtdtj大神您好，感谢你的热心应助，我还请求您帮我一个忙，还是豆瓣的，
就是原文摘录，这一项我也想采集一下
https://book.douban.com/subject/1023045/blockquotes
还请大神帮忙看看！！先谢谢了！！

TOP

tbjx138

上等兵

Rank: 1

帖子: 44
积分: 71
技术: 0
捐助: 0
注册时间: 2014-11-2

13楼

发表于 2023-5-24 22:20 | 只看该作者

回复 tbjx138

欸欸欸 220条是那位buyiyang说的
jyswjjgdwtdtj 发表于 2023-5-24 21:38

对对，我刷新时没有看到上面的buyiyang朋友回帖，说声抱歉了

TOP

jyswjjgdwtdtj

中尉

Rank: 5 Rank: 5

帖子: 672
积分: 797
技术: 35
捐助: 0
注册时间: 2023-2-9

12楼

发表于 2023-5-24 21:38 | 只看该作者

回复 11# tbjx138

欸欸欸 220条是那位buyiyang说的

你好

TOP

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] [已解决]求助批处理采集豆瓣读书书籍短评

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】


	设置关闭开启【页面动态效果 + 卡片式布局】关闭【页面动态效果 + 卡片式布局】开启【代码高亮】关闭【代码高亮】代码高亮主题【亮】代码高亮主题【暗】

[文本处理] [已解决]求助批处理采集豆瓣读书书籍短评

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置 关闭

开启 【页面动态效果 + 卡片式布局】 关闭 【页面动态效果 + 卡片式布局】 开启 【代码高亮】关闭 【代码高亮】代码高亮主题 【亮】代码高亮主题 【暗】

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】