Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

1楼 跳转到 » 倒序看帖

字体大小: tT

发表于 2016-8-22 13:20 | 显示全部帖子

[问题求助] 【已解决】想改进一个别人的有点词典的爬取程序，不懂Python

本帖最后由 949825667@qq.co 于 2016-8-30 16:45 编辑

 #!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2014-04-03 21:12:16
# @Function: 有道翻译命令行版
# @Author  : BeginMan
 
import os
import sys
import urllib
import urllib2
reload(sys)
sys.setdefaultencoding("utf-8")
import simplejson as json
import platform
import datetime
 
API_KEY = '1542783714'
KEYFORM = 'dyzwordyoudao'
 
    
def GetTranslate(txt):
    url = 'http://fanyi.youdao.com/openapi.do'
    data = {
    'keyfrom': KEYFORM,
    'key': API_KEY,
    'type': 'data',
    'doctype': 'json',
    'version': 1.1,
    'q': txt
    }
    data = urllib.urlencode(data)
    url = url+'?'+data
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    result = json.loads(response.read())
    return result
    
def Sjson(json_data):
    query = json_data.get('query','')               # 查询的文朿
    translation = json_data.get('translation','')   # 翻译
    basic = json_data.get('basic','')               # basic 列表
    sequence = json_data.get('web',[])              # 短语列表
    phonetic,explains_txt,seq_txt,log_word_explains = '','','',''
    
    # 更多释义
    if basic:
        phonetic = basic.get('phonetic','')         # 音标
        explains = basic.get('explains',[])         # 更多释义 列表
        for obj in explains:
            explains_txt += obj+'\n'
            log_word_explains += obj+','    
    # 句子解析
    if sequence:
        for obj in sequence:
            seq_txt += obj['key']+'\n'
            values = ''
            for i in obj['value']:
                values += i+','
            seq_txt += values+'\n'
        
    print_format = '*'*40+'\n'
    print_format += u' %s [%s]\n' %(query,phonetic)   
    print_format += explains_txt
    print_format += '-'*20+'\n'+seq_txt
    print_format += '*'*40+'\n'
#print print_format
    choices = raw_input(u'y or n')
    if choices in ['y','Y']:
        filepath = r'/home/beginman/pyword/%s.xml' %datetime.date.today()
        if (platform.system()).lower() == 'windows':
            filepath = r'C:\Python27\%s.xml' %datetime.date.today()
        fp = open(filepath,'a+')
        file = fp.readlines()
        if not file:
            fp.write('<wordbook>\n')
            fp.write(u"""    <item>\n    <word>%s</word>\n    <trans><![CDATA[%s]]></trans>\n    <phonetic><![CDATA[[%s]]]></phonetic>\n    <tags>%s</tags>\n    <progress>1</progress>\n    </item>\n\n""" %(query,log_word_explains,phonetic,datetime.date.today()))
        fp.close()
        print u'success.'
 
        
 
 
def main():
    f = open('1.txt','r')
    while True:
        line = f.readline()
        if line:
            txt = line
            Sjson(GetTranslate(txt))
 
if __name__ == '__main__':
    main()COPY

1 评分人数

pcl_test: 有点词典什么鬼PB -2

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

2楼

发表于 2016-8-22 13:21 | 显示全部帖子

上面的代码是我改了以后的，输入变成了从文本输入！但是输出的结果不会追加！

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

3楼

发表于 2016-8-22 13:22 | 显示全部帖子

<wordbook>
<item>
<word>dentistry</word>
<trans><![CDATA[n. 牙科学；牙医业,]]></trans>
<phonetic><![CDATA[['dentɪstrɪ]]]></phonetic>
<tags>2016-08-22</tags>
<progress>1</progress>
</item>
输出结果是这样的，按理说会不停的追加的！我没太看懂他的代码，还有怎么样才能取消他那个y or n的判断？

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

4楼

发表于 2016-8-22 13:39 | 显示全部帖子

我自己改了一下，可以累加输出了，但是怎么取消判断啊！我才看了几章Python

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

5楼

发表于 2016-8-22 13:47 | 显示全部帖子

自己改了一下，取消了判断

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

6楼

发表于 2016-8-22 15:15 | 显示全部帖子

我又厚颜无耻的来了，怎么让这个程序每处理1000个单词就休息一个小时呢？

:dizzy::dizzy:能不能结合批处理呢

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

7楼

发表于 2016-8-23 09:49 | 显示全部帖子

回复 9# 523066680

多谢多谢，请问版主知道怎么用正则匹配带连字符的单词么？比如seven-day

TOP

949825667@qq.co

上等兵

Rank: 1

帖子: 77
积分: 96
技术: 0
捐助: 0
注册时间: 2016-3-18

8楼

发表于 2016-8-23 10:12 | 显示全部帖子

回复 11# 523066680

通用型的- -，所有加连字符的单词！不过还是谢谢，暂时不考虑这个问题了！

:victory: :victory:

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[问题求助] 【已解决】想改进一个别人的有点词典的爬取程序，不懂Python

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】


	设置关闭开启【页面动态效果 + 卡片式布局】关闭【页面动态效果 + 卡片式布局】开启【代码高亮】关闭【代码高亮】代码高亮主题【亮】代码高亮主题【暗】

[问题求助] 【已解决】想改进一个别人的有点词典的爬取程序，不懂Python

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置 关闭

开启 【页面动态效果 + 卡片式布局】 关闭 【页面动态效果 + 卡片式布局】 开启 【代码高亮】关闭 【代码高亮】代码高亮主题 【亮】代码高亮主题 【暗】

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】