winbat

Rank: 1

帖子: 41
积分: 60
技术: 0
捐助: 0
注册时间: 2014-12-28

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2015-11-7 10:44 | 只看该作者

[问题求助] [已解决]Python处理数据库数据

图片太大
http://postimg.org/image/mr6mb6ffr/

昨天数据库出了点问题急需解决，学生对Python不太熟所幸有此‘批处理之家’能求助于各路大侠，望请位老师帮助解决，谢谢!
问题如下：
有以下 A,B,C 三个文本，各文本分别指定每一行‘任意’重复行数然后合并输出,效果如 test.txt ;因数据很大多则几佰万少则几十万,所以感觉用Python处理可能会快些,当然别的脚本也行,试过BAT但太慢了。
分开说白了就是: ‘任意’指定文本数据重复行数然后合并3个文本输出,效果如 test.txt

无论能否实现，学生当于En ‘Python 黑帽子.PDF’ 致谢!

附上附件‘数据test文本’，那位大侠能实现么？？

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

2楼

发表于 2015-11-7 16:31 | 只看该作者

本帖最后由依山居于 2015-11-12 07:27 编辑

并不明白你的说什么意思。

python是方便的语言。并不是处理速度快。~~大量数量使用readline读入，for 逐行迭代处理。~~
处理大量数据还要打印到输出，还要交互确认？。不慢才见鬼了。

修正一下，经过我在另的帖子中生成的数据来测试，几百M的文件不算大文件。只要内存不会爆掉，应该都一次读入内存处理。
逐行读，处理，逐行写，这样的顺序可能会很慢。

这个问题本质也是个文本格式化。

TOP

winbat

上等兵

Rank: 1

帖子: 41
积分: 60
技术: 0
捐助: 0
注册时间: 2014-12-28

3楼

发表于 2015-11-7 19:17 | 只看该作者

回复 2# 依山居

I'm Sorry ，可能是我解释的有点问题。

分开说白了就是: 处理 A,B,C 3个文本数据指定每一行、重复多少行（例 test.txt A文本我指每一行是重复6行;B文本指每一行是重复3行;C文本不处理），然后合并输出效果如 test.txt

如此链接图片：http://postimg.org/image/mr6mb6ffr/

大侠这样能实现么？

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

4楼

发表于 2015-11-7 19:36 | 只看该作者

回复 3# winbat

想不想写的问题而已。

TOP

pcl_test

荣誉版主

Rank: 8 Rank: 8

帖子: 3040
积分: 5332
技术: 685
捐助: 0
注册时间: 2014-10-19

5楼

发表于 2015-11-7 19:36 | 只看该作者

本帖最后由 pcl_test 于 2015-11-7 20:00 编辑

vbs

 Dim a(),b(),c(),n
file1 = "A.txt"
file2 = "B.txt"
file3 = "C.txt"
Set fso = CreateObject("Scripting.FileSystemObject")
 
i=0
n = InputBox("输入"&file1&"每行重复的次数：",,1)
Set f = fso.OpenTextFile(file1,1)
Do While f.AtEndOfStream <> True
    str = f.ReadLine
    For j=1 to n
        ReDim Preserve a(i)
        a(i) = str
        i = i+1
    Next
Loop
f.Close
 
i=0
n = InputBox("输入"&file2&"每行重复的次数：",,1)
Set f = fso.OpenTextFile(file2,1)
Do While f.AtEndOfStream <> True
    str = f.ReadLine
    For j=1 to n
        ReDim Preserve b(i)
        b(i) = str
        i = i+1
    Next
Loop
f.Close
 
i=0
n = InputBox("输入"&file3&"每行重复的次数：",,1)
Set f = fso.OpenTextFile(file3,1)
Do While f.AtEndOfStream <> True
    str = f.ReadLine
    For j=1 to n
        ReDim Preserve c(i)
        c(i) = str
        i = i+1
    Next
Loop
f.Close
 
On Error Resume Next
Set f = fso.CreateTextFile("合并.txt",2)
For k=0 to UBound(a)
    f.WriteLine a(k)&","&b(k)&","&c(k)
Next
f.Close
Msgbox "完成"COPY

2 评分人数

winbat: 测试成功，非常感谢 @pcl_test 大大技术 + 1
依山居: 哈哈。技术 + 1

TOP

winbat

上等兵

Rank: 1

帖子: 41
积分: 60
技术: 0
捐助: 0
注册时间: 2014-12-28

6楼

发表于 2015-11-7 19:51 | 只看该作者

回复 5# pcl_test

非常感谢 @pcl_test 大大的热心帮助，vb 测试成功因没在公司。明天去试试看看处理大数据怎样后才结账，再次感谢 @pcl_test

En Python 黑帽子.PDF
链接: http://pan.baidu.com/s/1pJpH7cB 密码: c8ps

TOP

winbat

上等兵

Rank: 1

帖子: 41
积分: 60
技术: 0
捐助: 0
注册时间: 2014-12-28

7楼

发表于 2015-11-7 19:52 | 只看该作者

回复 4# 依山居

嗯，但还是非常感谢你的回答！

En Python 黑帽子.PDF
链接: http://pan.baidu.com/s/1pJpH7cB 密码: c8ps

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

8楼

发表于 2015-11-7 21:05 | 只看该作者

回复 5# pcl_test

楼主说的数量挺大的吧？版主你的代码都是一次读入处理后再写入文件的吗？

TOP

pcl_test

荣誉版主

Rank: 8 Rank: 8

帖子: 3040
积分: 5332
技术: 685
捐助: 0
注册时间: 2014-10-19

9楼

发表于 2015-11-7 21:51 | 只看该作者

回复 8# 依山居

用的逐行读写

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3167
积分: 6481
技术: 320
捐助: 70
注册时间: 2008-8-3

10楼

发表于 2015-11-7 23:36 | 只看该作者

 ed2k://|file|Black%20Hat%20Python%20-%20Python%20Programming%20For%20Hackers%20And%20Pentesters%20-%20Justin%20Seitz%20(No%20Starch%20Press,%202015).pdf|10527596|AA5C5E3170948C5E8D69A6452E485BCC|/
ed2k://|file|Black%20Hat%20Python%20-%20Python%20Programming%20for%20Hackers%20and%20Pentesters%202014-P2P.pdf|10527371|A2E373D2B0DB8B9C69AED7D4B1C57FE8|h=PVEMBL4LSZGMBIYJMLJFKBM2BSMRK3SZ|/
ed2k://|file|Black%20Hat%20Python,%20Python%20Programming%20for%20Hackers%20_%20Pentesters.pdf|10527370|1EB844B6AFEABBD3E80195880AD905DD|/
ed2k://|file|[No%20Starch%20Press]%20Black%20Hat%20Python%20-%20Python%20programming%20for%20hackers%20and%20pentesters%20(2015).pdf|7334960|C4839361F53A667C5E02BB9C6F419FA6|/
ed2k://|file|[No%20Starch%20Press]%20Black%20Hat%20Python%20-%20Python%20programming%20for%20hackers%20and%20pentesters%20(2015).pdf|7226003|4DBDD55D316316E2BD1756E827B6BD53|/
ed2k://|file|BlackHat%202007%20-%20Reverse%20Engineering%20Automation%20with%20Python.pdf|3701524|DD5F4D61D7C9B086C22E830ADDEA63F1|/
ed2k://|file|Black%20Hat%20Python,%20Python%20Programming%20for%20Hackers.pdf|3167049|58CEE78C549C4F4AC17DF7BB86E5788E|/COPY

ED2K

有实体书，因为最近比较颓，已经垫桌角

[url=][/url]

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

11楼

发表于 2015-11-8 01:51 | 只看该作者

回复 10# 523066680

我一直有囤有各种资料。但是就是不看。。。十年间几乎没有完整看过一本书，没有任何进步。

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

12楼

发表于 2015-11-8 16:31 | 只看该作者

本帖最后由依山居于 2015-11-13 22:36 编辑

不小心生成了6百万行数据测试了下。这里的代码大约需要1020秒。将近17分钟。

 #python重复行数合并文件
#题目来源: http://www.bathome.net/viewthread.php?tid=38017
#依山居 4:22 2015/11/8
 
#相关资料 Python按行读文件：
#http://www.cnblogs.com/xuxn/archive/2011/07/27/read-a-file-with-python.html
 
#相关资料 Python迭代器和生成器：
#http://python.jobbole.com/81881/
 
#python3 生成器
#http://t.cn/R2GTPBY
 
#Python关键字yield的解释
#http://pyzh.readthedocs.org/en/latest/the-python-yield-keyword-explained.html
 
#探寻Python中如何同时迭代多个iterable对象
#http://blog.csdn.net/kxcfzyk/article/details/41380017
 
#以下三个函数逐行读取对应文件,n为默认重复次数。
def txta(txta="a.txt",n=6):
    with open(txta) as fa:
        for la in fa:
            la=la.rstrip()+","
            for r in range(n):
                yield la
        
def txtb(txtb="b.txt",n=3):
    with open(txtb) as fb:
        for lb in fb:
            lb=lb.rstrip()+","
            for r in range(n):
                yield lb
 
def txtc(txt="c.txt",n=1):
    with open(txt) as f:
        for l in f:
            l=l.rstrip()+"\n"
            for r in range(n):
                yield l
 
def merge(a,b,c,txt="test.txt"):
    with open(txt,"a+") as f:
        f.write(a+b+c)
        #f.flush()
        
bt=txtb()
at=txta()
for c in txtc():
    b=next(bt)
    a=next(at)
    merge(a,b,c)
 
try:
    input("执行完成,按回车退出")
except SyntaxError:
    passCOPY

1 评分人数

winbat: 非常感觉！技术 + 1

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

13楼

发表于 2015-11-9 03:03 | 只看该作者

本帖最后由依山居于 2015-11-9 03:56 编辑

提升处理速度的办法是原文件拆分成多个任务，同时启动多个脚本分别处理。

TOP

winbat

上等兵

Rank: 1

帖子: 41
积分: 60
技术: 0
捐助: 0
注册时间: 2014-12-28

14楼

发表于 2015-11-10 19:08 | 只看该作者

回复 13# 依山居

嗯，类多线程

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

15楼

发表于 2015-11-10 19:18 | 只看该作者

回复 14# winbat

不是。这是这最简单的办法。以及由于python的GIL ，好像写多线程比较麻烦。

TOP

12 下一页

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[问题求助] [已解决]Python处理数据库数据

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】


	设置关闭开启【页面动态效果 + 卡片式布局】关闭【页面动态效果 + 卡片式布局】开启【代码高亮】关闭【代码高亮】代码高亮主题【亮】代码高亮主题【暗】

[问题求助] [已解决]Python处理数据库数据

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置 关闭

开启 【页面动态效果 + 卡片式布局】 关闭 【页面动态效果 + 卡片式布局】 开启 【代码高亮】关闭 【代码高亮】代码高亮主题 【亮】代码高亮主题 【暗】

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】