标题: [文本处理] [求助]抓爱词霸 页面信息 [打印本页]
作者: lllsoslll 时间: 2012-11-1 23:42 标题: [求助]抓爱词霸 页面信息
把 http://www.iciba.com/batch 的信息抓下来,
获取 batch 的单词解释
三方工具提供如下: wget awk grep sed iconv
或者 精简版perl5.6(perl.exe perl56.dll 下载http://ishare.iask.sina.com.cn/f/14534556.html)
vbs 也可
作者: tmplinshi 时间: 2012-11-2 01:14
本帖最后由 tmplinshi 于 2012-11-2 01:27 编辑
- curl http://dict-co.iciba.com/api/dictionary.php?w=batch -s | iconv -f utf-8 -c | sed -n -r "s/^<acceptation>(.*)(<\/acceptation>)?$/\1/p"
复制代码
- wget -O - http://dict-co.iciba.com/api/dictionary.php?w=batch -q | iconv -f utf-8 -c | sed -n -r "s/^<acceptation>(.*)(<\/acceptation>)?$/\1/p"
复制代码
作者: lllsoslll 时间: 2012-11-2 20:19
谢谢,
http://dict-co.iciba.com/api/dictionary.php?w=batch
你 是 如何 分析出 这个 url的?
作者: tmplinshi 时间: 2012-11-2 20:37
本帖最后由 tmplinshi 于 2012-11-2 20:41 编辑
回复 3# lllsoslll
在 Google 里搜索 爱词霸 api 找到的。
作者: lllsoslll 时间: 2012-11-3 11:20
在这个帖子中,sed 如何非贪婪匹配?- <?xml version="1.0" encoding="UTF-8"?>
- <dict num="219" id="219" name="219">
- <key>batch</key>
- <p>
- 1234567890234567
- </p>
- aaaaaaa
- <p>
- <ps>bt</ps>
复制代码
替换为- batch
- bt
- 1234567890234567
- aaaaaaa
复制代码
作者: tmplinshi 时间: 2012-11-3 12:22
本帖最后由 tmplinshi 于 2012-11-3 12:24 编辑
回复 5# lllsoslll
<?xml version="1.0" encoding="UTF-8"?>
<dict num="219" id="219" name="219">
<key>batch</key>
<p>
1234567890234567
</p>
aaaaaaa
<p>
<ps>bt</ps>
红色部分是怎么来的?
这样?复制代码
作者: lllsoslll 时间: 2012-11-3 19:30
这个api 很不稳定啊, 有时候返回的结果有例句,有时候又没有, 有时候会阻塞很长时间,
作者: wc726842270 时间: 2012-11-4 03:53
在此膜拜一下老大的思路,我是肯定想不到查找后加个API的,
作者: tmplinshi 时间: 2012-11-4 08:55
这个api 很不稳定啊, 有时候返回的结果有例句,有时候又没有, 有时候会阻塞很长时间,
lllsoslll 发表于 2012-11-3 19:30
我也发现经常响应很慢。- wget -O - -q http://www.iciba.com/batch | sed -n -r "/^\t{3,}<label>/!d; s/^[^>]*>(.*)<.*$/\1/p" | iconv -f utf-8 | sed -n "H;${g;s/;\n/;/g;p}"
复制代码
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |