标题: [文本处理] [已解决]提取文本指定内容出现乱码如何解决? [打印本页]
作者: hlzj88 时间: 2016-3-20 08:28 标题: [已解决]提取文本指定内容出现乱码如何解决?
本帖最后由 pcl_test 于 2016-3-20 14:12 编辑
实例:新建的文本,粘贴的汉字内容,然后提取关键字,结果里有部分乱码。win7- type 大秦帝国1.txt | find /i "第" | find /i "节">>a.ini
复制代码
代码如上,仅如此。百思不得其姐。
先谢谢了。
如需原文,地址在下
大秦帝国1
作者: codegay 时间: 2016-3-20 08:57
本帖最后由 codegay 于 2016-3-20 09:48 编辑
python- with open("大秦帝国1黑色裂变 (1).txt",encoding="cp936") as f:
- ini=[r for r in f if "第"in r and "章" in r and "节" in r]
- with open("result.ini","w+") as f:
- f.writelines(ini)
复制代码
受楼下的启发,用了str.startswith()- with open("大秦帝国1黑色裂变 (1).txt",encoding="cp936") as f:
- ini=[r for r in f if r.startswith("第") and "章" in r and "节" in r]
- with open("result.ini","w+") as f:
- f.writelines(ini)
复制代码
作者: hlzj88 时间: 2016-3-20 09:17
谢谢,有没有bat的解决办法呢
作者: happy886rr 时间: 2016-3-20 09:35
本帖最后由 pcl_test 于 2016-3-20 14:12 编辑
回复 3# hlzj88 - findstr "^第.*章.*第.*节.*" <大秦帝国1黑色裂变.txt>2.txt
复制代码
作者: WHY 时间: 2016-3-20 10:21
- findstr "第..节" 大秦帝国1黑色裂变.txt>a.ini
复制代码
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |