返回列表 发帖
回复  tbjx138


4楼代码这样执行试试:
Batcher 发表于 2023-5-24 22:28


感谢管理员的回复,按照链接看了一下,没有太明白操作 我很菜,只能弄些简单的。

TOP

回复 16# tbjx138
保存为bat文件运行
如果要用户名 时间之类的 把‘comment-content’ 换为 ‘comment’
<# :
@echo off
cd.>output.txt
powershell -noprofile -NoLogo "iex (${%~f0} | out-string)"
pause
exit
#>
function get-content($url, $startPage, $endPage) {
     for ( $i = $startPage; $i -le $endPage; $i++) {
           $pageUrl = $url+"?start=$(($i - 1) * 20)&limit=20&status=P&sort=score"
           $response = Invoke-WebRequest -Uri $pageUrl
           $content = $response.ParsedHtml.getElementsByClassName('comment-content') | %{$_.innerText}
           Add-Content -Path "output.txt" -Value $content -Encoding UTF8
     }
}
$url = 'https://book.douban.com/subject/1023045/comments/'
get-content $url 1 11COPY

TOP

回复  tbjx138
保存为bat文件运行
如果要用户名 时间之类的 把‘comment-content’ 换为 ‘comment’
terse 发表于 2023-5-25 08:26

感谢terse大神,热心应助,
按照代码操作可以导出220条了,
反馈一下测试
如果要用户名 时间之类的 把‘comment-content’ 换为 ‘comment’
这个换了后没有反应,还是和之前导出一样。

TOP

网页采集信息不是用RPA最方便么

TOP

回复 18# tbjx138
怎么回事呢,没有改动的话应该不会出现你说的问题

TOP

回复  tbjx138
怎么回事呢,没有改动的话应该不会出现你说的问题
terse 发表于 2023-5-25 09:30



    没有改动其他,按照你说的操作的,不知道什么原因,还有就是我的ie浏览器不能登录豆瓣

TOP

这样运行后 查看两个文件的内容一样吗
<# :
@echo off
cd.>output1.txt
cd.>output2.txt
powershell -noprofile -NoLogo "iex (${%~f0} | out-string)"
pause
exit
#>
function get-content($url, $startPage, $endPage) {
     for ( $i = $startPage; $i -le $endPage; $i++) {
           $pageUrl = $url+"?start=$(($i - 1) * 20)&limit=20&status=P&sort=score"
           $response = Invoke-WebRequest -Uri $pageUrl
           $content1 = $response.ParsedHtml.getElementsByClassName('comment-content') | %{$_.innerText}
           $content2 = $response.ParsedHtml.getElementsByClassName('comment') | %{$_.innerText}
           Add-Content -Path "output1.txt" -Value $content1 -Encoding UTF8
           Add-Content -Path "output2.txt" -Value $content2 -Encoding UTF8
     }
}
$url = 'https://book.douban.com/subject/1023045/comments/'
get-content $url 1 11COPY
回复 21# tbjx138

TOP

这样运行后 查看两个文件的内容一样吗回复  tbjx138
terse 发表于 2023-5-25 10:58



    感谢terse大神耐心回复,还是没有改变,可能是我的原因吧。就这样吧,能导出就行了,再次谢谢大神了

TOP

回复 14# tbjx138


    略微改了一下
Set http = CreateObject("msxml2.xmlhttp")
Set fso = CreateObject("scripting.filesystemobject")
Function Gethtml(url)
    MsgBox url
   http.open "GET",url,False
   http.send()
   Gethtml = http.responsetext
End Function
burl = InputBox("url")
Set f = fso.createtextfile("1.txt",True,True)
For i = 0 To 1000
Set Document = CreateObject("htmlfile")
Document.designmode = "on"
html = gethtml(burl & "?sort=score&start="&i*20)
If InStr(html,"你没有权限访问这个页面") = -1 Then
    WScript.quit
End If
Document.write html
Dim score
For Each div In Document.Getelementsbytagname("div")
   If div.Classname = "blockquote-list score bottom-line" Then
       Set score = div
       Exit For
   End If
Next
Set ul = score.children(0)
For Each li In ul.children
   f.writeline li.InnerText
   f.writeline ""
Next
NextCOPY
就是爬原文摘录的
也要加上/
你好

TOP

回复  tbjx138


    略微改了一下就是爬原文摘录的
也要加上/
jyswjjgdwtdtj 发表于 2023-5-25 18:02


感谢jyswjjgdwtdtj大神的再次相助,已经可以导出原文摘录了,万分感谢!!!

TOP

返回列表