[已解决]如何提取海词在线词典中的“海词释义常用度分布图” - BAT求助&讨论 - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

1 2 34

返回列表发帖

qixiaobin0715

大校

Rank: 7 Rank: 7 Rank: 7

帖子: 2852
积分: 4174
技术: 430
捐助: 0
注册时间: 2016-2-20

7楼 跳转到 »

发表于 2019-8-22 09:59 | 只看该作者

回复 6# zaqmlp
效果很好，谢谢！能否再修改一下脚本，满足以下要求：
1.把提取结果写入文本文件“提取结果.txt”。
2.格式为“单词+分隔符（比如制表符）+提取结果”。
3.过滤掉percent值小于5的条目。
第3条若不易实现保留也行。
单词列表数目有否限制？

TOP

zaqmlp

上尉

Rank: 5 Rank: 5

帖子: 972
积分: 1273
技术: 94
捐助: 0
注册时间: 2017-10-30

6楼

发表于 2019-8-21 23:22 | 只看该作者

本帖最后由 zaqmlp 于 2019-8-22 14:15 编辑

<# :
cls
@echo off
mode con lines=3000
cd /d "%~dp0"
powershell -NoProfile -ExecutionPolicy bypass "&{[ScriptBlock]::Create([IO.File]::ReadAllText('%~f0',[Text.Encoding]::Default)).Invoke()}"
pause
exit
#>
function gethtml($w){
    $html='';
    $url='http://dict.cn/'+$w;
    $web=New-Object System.Net.WebClient;
    $web.Encoding=[System.Text.Encoding]::UTF8;
    for($i=1;$i -le 4;$i++){
        try{
            $html=$web.DownloadString($url);
            break;
        }catch{write-host ('获取网页内容第'+$i.toString()+'次失败')};
    };
    return $html;
};
function gethz($s){
    $str='';
    $str=[regex]::replace($s,'\\u([\da-z]{4})',{param($a);[char][Convert]::ToInt32($a.groups[1].value, 16)});
    return $str;
};
$inputfile='单词列表.txt';
$outfile='结果.txt';
$min=5;
[void][Reflection.Assembly]::LoadWithPartialName('System.Web');
[System.Collections.ArrayList]$s=@();
$text=[IO.File]::ReadAllLines($inputfile,[Text.Encoding]::Default);
for($i=0;$i -lt $text.count;$i++){
    write-host ('------------'+$text[$i]+'------------');
    $content=gethtml $text[$i];
    $m=[regex]::match($content,'<div .*?id="dict-chart-basic" data="([^"]+?)"');
    if($m.success){
        $js=[Web.HttpUtility]::UrlDecode($m.groups[1].value);
        $tmp=(gethz $js) -replace '^\{|\}$','';
        $mm=[regex]::matches($tmp,'\{([^\}]+?)\}');
        [System.Collections.ArrayList]$t=@();
        if($mm.count -ge 1){
            foreach($it in $mm){
                $arr=$it.groups[1].value.split(':,', 4);
                if((1*$arr[1]) -ge $min){[void]$t.add($arr[3].Trim('"')+':'+$arr[1])};
            };
        };
        [void]$s.add($text[$i]+"`t"+($t -join ','));
    }else{
        [void]$s.add($text[$i]+"`t无");
    };
};
[IO.File]::WriteAllLines($outfile, $s, [Text.Encoding]::Default);
复制代码

提供bat代写，为你省时省力省事，支付宝扫码头像支付
微信: unique2random

TOP

qixiaobin0715

大校

Rank: 7 Rank: 7 Rank: 7

帖子: 2852
积分: 4174
技术: 430
捐助: 0
注册时间: 2016-2-20

5楼

发表于 2019-8-21 17:34 | 只看该作者

回复 4# 523066680
还是要谢谢！

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

4楼

发表于 2019-8-21 16:15 | 只看该作者

Strawberry Perl
http://strawberryperl.com/releases.html
需要门槛，不推荐使用。纯粹路过……

FuniCode 编程论坛

TOP

qixiaobin0715

大校

Rank: 7 Rank: 7 Rank: 7

帖子: 2852
积分: 4174
技术: 430
捐助: 0
注册时间: 2016-2-20

3楼

发表于 2019-8-21 13:18 | 只看该作者

谢谢版主！我对批处理还不是太熟悉，上面脚本文件是否还需要安装第三方工具包？并且我的意思是按照单词列表文本文件同时提取若干个单词信息。希望再做指点。

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

2楼

发表于 2019-8-21 11:12 | 只看该作者

图是HTML+JS的

数据可以很直接的抓出来

use utf8;
use Encode;
use File::Slurp;
use Mojo::UserAgent;
use URI::Escape;
use JSON qw/from_json to_json/;
STDOUT->autoflush(1);

my $word = "command";
my $url = "http://dict.cn/${word}";
my $ua = Mojo::UserAgent->new();
my $res = $ua->get($url)->result;
my $json = $res->dom->at(".dict-chart")->attr("data");
my $data = from_json(uri_unescape($json));

if ( scalar keys %$data == 1 )
{
    printf "%2s%% %s\n", $data->{1}{percent}, gbk($data->{1}{pos});
} 
else
{
    for my $k ( sort keys %$data )
    {
        printf "%2s%% %s\n", $data->{$k}{percent}, gbk($data->{$k}{sense});
    }
}

sub gbk { encode('gbk', $_[0]) }
复制代码

74% 命令
21% 指挥
 4% 掌握
 1% 博得
复制代码

FuniCode 编程论坛

TOP

1 2 34

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]