返回列表 发帖

[文本处理] [已解决]求助批处理采集豆瓣读书书籍短评

求助大神,豆瓣读书书籍短评的采集

比如这个链接:
https://book.douban.com/subject/1023045/comments/

万分感谢大神!!!

回复  tbjx138


    略微改了一下就是爬原文摘录的
也要加上/
jyswjjgdwtdtj 发表于 2023-5-25 18:02


感谢jyswjjgdwtdtj大神的再次相助,已经可以导出原文摘录了,万分感谢!!!

TOP

回复 14# tbjx138


    略微改了一下
Set http = CreateObject("msxml2.xmlhttp")
Set fso = CreateObject("scripting.filesystemobject")
Function Gethtml(url)
    MsgBox url
   http.open "GET",url,False
   http.send()
   Gethtml = http.responsetext
End Function
burl = InputBox("url")
Set f = fso.createtextfile("1.txt",True,True)
For i = 0 To 1000
Set Document = CreateObject("htmlfile")
Document.designmode = "on"
html = gethtml(burl & "?sort=score&start="&i*20)
If InStr(html,"你没有权限访问这个页面") = -1 Then
    WScript.quit
End If
Document.write html
Dim score
For Each div In Document.Getelementsbytagname("div")
   If div.Classname = "blockquote-list score bottom-line" Then
       Set score = div
       Exit For
   End If
Next
Set ul = score.children(0)
For Each li In ul.children
   f.writeline li.InnerText
   f.writeline ""
Next
NextCOPY
就是爬原文摘录的
也要加上/
你好

TOP

这样运行后 查看两个文件的内容一样吗回复  tbjx138
terse 发表于 2023-5-25 10:58



    感谢terse大神耐心回复,还是没有改变,可能是我的原因吧。就这样吧,能导出就行了,再次谢谢大神了

TOP

这样运行后 查看两个文件的内容一样吗
<# :
@echo off
cd.>output1.txt
cd.>output2.txt
powershell -noprofile -NoLogo "iex (${%~f0} | out-string)"
pause
exit
#>
function get-content($url, $startPage, $endPage) {
     for ( $i = $startPage; $i -le $endPage; $i++) {
           $pageUrl = $url+"?start=$(($i - 1) * 20)&limit=20&status=P&sort=score"
           $response = Invoke-WebRequest -Uri $pageUrl
           $content1 = $response.ParsedHtml.getElementsByClassName('comment-content') | %{$_.innerText}
           $content2 = $response.ParsedHtml.getElementsByClassName('comment') | %{$_.innerText}
           Add-Content -Path "output1.txt" -Value $content1 -Encoding UTF8
           Add-Content -Path "output2.txt" -Value $content2 -Encoding UTF8
     }
}
$url = 'https://book.douban.com/subject/1023045/comments/'
get-content $url 1 11COPY
回复 21# tbjx138

TOP

回复  tbjx138
怎么回事呢,没有改动的话应该不会出现你说的问题
terse 发表于 2023-5-25 09:30



    没有改动其他,按照你说的操作的,不知道什么原因,还有就是我的ie浏览器不能登录豆瓣

TOP

回复 18# tbjx138
怎么回事呢,没有改动的话应该不会出现你说的问题

TOP

网页采集信息不是用RPA最方便么

TOP

回复  tbjx138
保存为bat文件运行
如果要用户名 时间之类的 把‘comment-content’ 换为 ‘comment’
terse 发表于 2023-5-25 08:26

感谢terse大神,热心应助,
按照代码操作可以导出220条了,
反馈一下测试
如果要用户名 时间之类的 把‘comment-content’ 换为 ‘comment’
这个换了后没有反应,还是和之前导出一样。

TOP

回复 16# tbjx138
保存为bat文件运行
如果要用户名 时间之类的 把‘comment-content’ 换为 ‘comment’
<# :
@echo off
cd.>output.txt
powershell -noprofile -NoLogo "iex (${%~f0} | out-string)"
pause
exit
#>
function get-content($url, $startPage, $endPage) {
     for ( $i = $startPage; $i -le $endPage; $i++) {
           $pageUrl = $url+"?start=$(($i - 1) * 20)&limit=20&status=P&sort=score"
           $response = Invoke-WebRequest -Uri $pageUrl
           $content = $response.ParsedHtml.getElementsByClassName('comment-content') | %{$_.innerText}
           Add-Content -Path "output.txt" -Value $content -Encoding UTF8
     }
}
$url = 'https://book.douban.com/subject/1023045/comments/'
get-content $url 1 11COPY

TOP

回复  tbjx138


4楼代码这样执行试试:
Batcher 发表于 2023-5-24 22:28


感谢管理员的回复,按照链接看了一下,没有太明白操作 我很菜,只能弄些简单的。

TOP

回复 6# tbjx138


4楼代码这样执行试试:
http://bbs.bathome.net/thread-31071-1-1.html
我帮忙写的代码不需要付钱。如果一定要给,请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家,加入VIP会员!】http://bbs.bathome.net/thread-67716-1-1.html

TOP

典型的粗制滥造脚本
输入最后面带有/的啊
比如
放进vbs文件
楼上那个只能搞一页
jyswjjgdwtdtj 发表于 2023-5-24 20:18


jyswjjgdwtdtj大神您好,感谢你的热心应助,我还请求您帮我一个忙,还是豆瓣的,
就是原文摘录,这一项我也想采集一下
https://book.douban.com/subject/1023045/blockquotes
还请大神帮忙看看!!先谢谢了!!

TOP

回复  tbjx138


    欸欸欸 220条是那位buyiyang说的
jyswjjgdwtdtj 发表于 2023-5-24 21:38



    对对,我刷新时没有看到上面的buyiyang朋友回帖,说声抱歉了

TOP

回复 11# tbjx138


    欸欸欸 220条是那位buyiyang说的
你好

TOP

返回列表