12 3 4 5 6 下一页

lxh623

Rank: 5 Rank: 5

帖子: 418
积分: 811
技术: 2
捐助: 0
注册时间: 2008-11-24

1楼 跳转到 » 正序看帖

打印

字体大小: tT

发表于 2018-11-18 08:05 | 只看该作者

[已解决]各20元求两个网站资料下载

本帖最后由 lxh623 于 2018-12-8 19:25 编辑

http://www.zgshige.com/sg/
这个有index。感觉比较醒目。
http://www.52shici.com/original.php?type=1
这个有20个栏目，右边上面两行。下面也是可以翻页。

标题前面加上TTT,第一个有“作者：”，第二个是不是把“文/”换成“作者：”（自己加工也行）。正文保持原来网页转行与隔行，就好了。

谢谢！！

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

77楼

发表于 2018-12-19 17:32 | 只看该作者

已经第六页了，凑个热闹……

FuniCode 编程论坛

TOP

flashercs

少校

Rank: 6 Rank: 6

帖子: 1250
积分: 2216
技术: 279
捐助: 0
注册时间: 2017-3-20

76楼

发表于 2018-12-19 17:24 | 只看该作者

回复 75# lxh623

请把html文件放到M:\zgshige\test\目录下.

TOP

lxh623

中尉

Rank: 5 Rank: 5

帖子: 418
积分: 811
技术: 2
捐助: 0
注册时间: 2008-11-24

75楼

发表于 2018-12-19 08:18 | 只看该作者

回复 74# flashercs
不知道你做个试验没有，就是做一个文件夹，放入一两个文件。
我这里不行。谢谢！

TOP

flashercs

少校

Rank: 6 Rank: 6

帖子: 1250
积分: 2216
技术: 279
捐助: 0
注册时间: 2017-3-20

74楼

发表于 2018-12-18 06:26 | 只看该作者

本帖最后由 flashercs 于 2018-12-18 06:36 编辑

回复 70# lxh623

你表面是提取txt文本,实际上是用来当作html使用,对吧?这样每个子文件夹提取为一个txt文件,其实是个没有<head><body>的html文本,例如提取出的"2018-12-17.txt",将其重命名为"2018-12-17.txt.html"后用浏览器打开,就是个完整的html文档,浏览器自动添加<html><head><body>;我猜这应该是你的需求!
请保存为 "提取zgshige.bat"

@echo off
REM 设置htmlRoot = zgshige的html文件根目录
set "htmlRoot=M:\zgshige"
for /f "tokens=1 delims=:" %%A in ('findstr /n "#######*" %0') do more +%%A %0 >"%~dpn0.ps1"
powershell.exe -ExecutionPolicy Bypass -File "%~dpn0.ps1" "%htmlRoot%" 
pause
exit /b
################################################################
# 保留html node
param([string]$htmlRoot)
[string]$scriptPath = [System.IO.Path]::GetDirectoryName($MyInvocation.MyCommand.Definition)
$htmldoc = New-Object -ComObject htmlfile
[void]$htmldoc.IHTMLDocument2_open()
$htmldoc.IHTMLDocument2_write('<!DOCTYPE html><html><head><meta charset="utf-8" /><meta http-equiv="X-UA-Compatible" content="IE=edge"><title>Page Title</title><meta name="viewport" content="width=device-width, initial-scale=1"></head><body></body></html>')
$htmldoc.IHTMLDocument2_close()
[System.IO.Directory]::GetDirectories($htmlRoot, '*', [System.IO.SearchOption]::AllDirectories)|ForEach-Object {
  $sw = [System.IO.StreamWriter]::new([System.IO.Path]::Combine($scriptPath, [System.IO.Path]::GetFileName($_) + '.txt'), $true, [System.Text.Encoding]::UTF8)
  $sw.AutoFlush = $true
  [System.IO.Directory]::GetFiles($_, '*.html')|ForEach-Object {
    $m = [System.IO.File]::ReadAllText($_, [System.Text.Encoding]::UTF8) -match '<div class="text-center b-b b-2x b-lt">[\S\s]+?(?=<div class="p-sm">)'
    if ($m) {
      Write-Host "提取$_" -ForegroundColor Green
      try {
        $htmldoc.body.innerHTML = $Matches[0]
        $div = $htmldoc.createElement('div');
        # title
        [void]$div.appendChild($htmldoc.body.getElementsByTagName('h3')[0])
        # author
        $divAuthor = $htmldoc.createElement('div')
        [void]$divAuthor.appendChild($htmldoc.body.children[1].children[0].children[0])
        $span = $divAuthor.appendChild($htmldoc.body.children[1].children[0].children[0])
        [void]$span.removeAttributeNode($span.getAttributeNode('class'))
        [void]$div.appendChild($divAuthor)
        # signatureDiv
        $divSignature = $htmldoc.createElement('div')
        $nodeSig = $htmldoc.body.getElementsByClassName('signature')[0]
        if ($null -ne $nodeSig) {
          $span = $htmldoc.createElement('span')
          [void]$span.appendChild($htmldoc.createTextNode($nodeSig.textContent))
          [void]$divSignature.appendChild($span)
        }
        $nodeSigbox = $htmldoc.body.getElementsByClassName('signatureBox')[0]
        if ($null -ne $nodeSigbox) {
          $span = $htmldoc.createElement('span')
          [void]$span.appendChild($htmldoc.createTextNode($nodeSigbox.textContent))
          [void]$divSignature.appendChild($span)
        }
        [void]$div.appendChild($divSignature)
        # content
        $divContent = $htmldoc.body.getElementsByClassName('m-lg font14')[0]
        [void]$divContent.attributes.removeNamedItem('class')
        [void]$div.appendChild($divContent)
        $sw.WriteLine($div.outerHTML)
        Remove-Variable -Name div
      }
      catch {}
    }
  }
  $sw.Close()
}
Remove-Variable -Name htmldoc
复制代码

1 评分人数

lxh623: 谢谢！技术 + 1

TOP

hlzj88

少校

Rank: 6 Rank: 6

帖子: 826
积分: 1629
技术: 54
捐助: 20
注册时间: 2008-11-3

73楼

发表于 2018-12-17 19:49 | 只看该作者

回复 68# lxh623
代码中同时使用了 wget sed htox32c 三个软件，都可在http://bcn.bathome.net/s/tool/index.html中下载到。

目的，学习批处理

TOP

lxh623

中尉

Rank: 5 Rank: 5

帖子: 418
积分: 811
技术: 2
捐助: 0
注册时间: 2008-11-24

72楼

发表于 2018-12-17 18:58 | 只看该作者

回复 71# WHY

这样的结果就非常好了。
前一次，删除了空格。得不到单书名号的标题。
我以为66楼是牢骚，不好意思。现在这样就好。

标题是昨天发现的，别的网站也有过类似问题。空格是今天发现的。

谢谢！祝您开心！

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1482
积分: 3266
技术: 567
捐助: 0
注册时间: 2015-7-19

71楼

发表于 2018-12-17 18:36 | 只看该作者

回复 69# lxh623

66楼你真没明白啥意思，还是有意回避？
以这个网址 http://www.zgshige.com/c/2016-09-01/1735356.shtml 为例，你希望得到的结果到底是什么？
44楼有问题，我更新到 57 楼了。其结果用记事本打开是这样子的：

<h3>TTT<感怀李时珍></h3> 作者： 人生入梦 2016年09月01日13:03 浏览：190 <br /><br />风起 雨落如若几十个春秋<br />心头的蓝叩响烛火 月白<br />枕垫下的青梦 在逆流里一点点修长<br />一剂剂茫然 反复斟酌<br />穿针引线 高山流水结满命运的纯白<br />斑驳的岁月 星辰向北<br />丢了酒中的暖<br />只为离经叛道的一个清晨<br />洗涤书籍中的暗疾<br /><br />荡起来 一汪**的光芒<br />漫下船舶 芦苇 云烟的眸子<br />一杆秤有雪 有远方<br />雨湖一层层的白 掀起<br />历史的绯红<br />点点萤火打开浅浅的咸<br />隔着天涯扎进尘世<br />身轻如草 剃去满山的琉璃<br />一声轻咳<br />便顺从了五角落叶的指向<br /><br />把今生搁置华发横生<br />摘取水的一个意外 盈盈如桃花<br />波光的对岸 手捧一簇月光<br />抵过一阵阵苍凉<br />大锣鼓 唱大戏<br />杯中的涩 反复折磨已醉的人<br />一点点落空 聚集 月色里往返<br />放逐夜的媚<br /> 
复制代码

看看与你希望的结果差别在哪里，然后把你希望的结果贴出来。

TOP

lxh623

中尉

Rank: 5 Rank: 5

帖子: 418
积分: 811
技术: 2
捐助: 0
注册时间: 2008-11-24

70楼

发表于 2018-12-17 10:03 | 只看该作者

本帖最后由 lxh623 于 2018-12-17 10:29 编辑

回复 5# flashercs

分节的空行希望保留，还有题记、注释、发布时间也保留。浏览数不要(我自己可以批量删除)。
题记http://www.zgshige.com/c/2018-12-15/7967119.shtml
注释http://www.zgshige.com/c/2018-12-15/7967226.shtml

这个标题保存得到，无论是否含有单书名号。

您的提取脚本不会用。我的文件在M:\zgshige子文件夹。要求跟下载一样。
谢谢！

TOP

lxh623

中尉

Rank: 5 Rank: 5

帖子: 418
积分: 811
技术: 2
捐助: 0
注册时间: 2008-11-24

69楼

发表于 2018-12-17 09:25 | 只看该作者

本帖最后由 lxh623 于 2018-12-17 09:30 编辑

回复 66# WHY

真的麻烦你多次，不好意思。
44楼的脚本，把正文的空格删了，希望能保留。
另外，标题有<>，标题就可能提取不到。脚本和textforever一样，真是复杂。http://www.zgshige.com/c/2016-09-01/1735356.shtml
能不能最后改一改？谢谢！

TOP

lxh623

中尉

Rank: 5 Rank: 5

帖子: 418
积分: 811
技术: 2
捐助: 0
注册时间: 2008-11-24

68楼

发表于 2018-12-17 09:22 | 只看该作者

回复 67# hlzj88

下载了index ，就不动了。

TOP

hlzj88

少校

Rank: 6 Rank: 6

帖子: 826
积分: 1629
技术: 54
捐助: 20
注册时间: 2008-11-3

67楼

发表于 2018-12-16 23:04 | 只看该作者

凑热闹贴，没有进一步优化。

rem 从诗文txt就可知已经下载的进度
for /l %%g in (1,1,20) do (
    wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -N -t 0 -T 10 -O index.html "http://www.52shici.com/original.php?type=%%g"
     sed -n '/text-dashed/,/pages/'{p} index.html>>teste.ini
     findstr /iv "works-info" teste.ini>>dizhi.ini
     del teste.ini
     sed -i "s/\"/\n\"\nhttp:\/\/www.52shici.com\//g" dizhi.ini
     findstr /i "php" dizhi.ini>>dizhi.inf

for /f "delims=*" %%i in (dizhi.inf) do (
  wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -N -t 0 -T 10 -O wz.ini "%%i"
     iconv -c -f utf-8 -t GBK "wz.ini" >wz1.ini
     findstr /i "author" 235253.html|findstr /i "nbsp">>wz1.ini
     sed -n '/works-content/,/works-info/'{p} wz1.ini>>testw.ini
     findstr /iv "works-info" testw.ini>>zw.html
     del teste.ini
     htox32c /IP /O0 zw.html>nul 2>nul
     type zw.txt>>诗文%%g.txt
     del zw.txt
     del *.ini
)
del *.inf
)
pause
复制代码

1 评分人数

lxh623: 谢谢！技术 + 1

目的，学习批处理

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1482
积分: 3266
技术: 567
捐助: 0
注册时间: 2015-7-19

66楼

发表于 2018-12-16 00:43 | 只看该作者

回复 63# lxh623

顶楼的描述可能你认为清楚，但我相信绝大多数人不清楚。
1.我只是在 html 中的“作者”前面加上 TTT 就完全满足了你的要求；
2.我要是把 html 完整地转换成 txt 文本，而不抠出诗词部分，也完全满足你的要求；
3.我要是只截取 html 的诗词部分，不经任何处理另存为 html 也完全满足你的要求。

TOP

lxh623

中尉

Rank: 5 Rank: 5

帖子: 418
积分: 811
技术: 2
捐助: 0
注册时间: 2008-11-24

65楼

发表于 2018-12-15 10:13 | 只看该作者

有个批处理。

@grep -c "</div><div>" *.html>"%~dp0统计.txt"
复制代码

怎样把它用于所有子文件夹？合并统计或者分别统计。
谢谢！

TOP

lxh623

中尉

Rank: 5 Rank: 5

帖子: 418
积分: 811
技术: 2
捐助: 0
注册时间: 2008-11-24

64楼

发表于 2018-12-15 09:12 | 只看该作者

回复 lxh623

如果网站不限制下载的话，把同时下载开大些，单个文件的线程小点。百兆宽带。限制最大下载 ...
xczxczxcz 发表于 2018-12-14 17:52

麻烦写的详细一些。比如，链接写入一个文本，是不是可以自己保存网页为文本？保存地址？

TOP

12 3 4 5 6 下一页

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[已解决]各20元求两个网站资料下载

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]