本帖最后由 依山居 于 2015-11-22 11:54 编辑
python正则提取CSV文件数据计算导购客单价.py- """
- python正则提取CSV文件数据计算导购客单价.py
- 题目来源 https://github.com/FGFW/FCNNIC
- 依山居 4:36 2015/11/22
- 看了看python自带的csv库貌似也没能解决啥问题,
- 干脆就自己用正则来写了代码量出乎意料的少.
- 在线查本csv表格 http://t.cn/RU3hoB0
- 下载csv表格 http://t.cn/RU3haTL
- 计算公式为:
- 导购日客单价=导购日成交金额/日客单数
- 每个相同的单据编号为1单,也就是去重后得到该导购的日客单数
- 导购日成交金额=导购完成的日所有单总和,也可以小计中倒数第二列直接提取
- 要求:计算出CSV表格中每位导购的客单价.
- 思路是正则匹配(导购)小计得到导购名字,顺便把该导购成交金额提取了。
- 然后再集合解析正则匹配该导购所有单并去重,一条语句得到日客单数。
- """
- import re
- rec=re.compile("\((.+)\)小计.+,.+,(\d+.\d+),.*")
- with open("0914零售数据.csv") as f:
- cf=f.read()
- f.close()
-
- dglist=re.findall(rec,cf) #得到格式如[('顾意珍', '480.00'), ('张彩菊', '505.00'),..]
- for d,t in dglist: #迭代dglist,如d得到顾意珍,t得到她的当天销售额480.00
- rec=re.compile("%s,\d+-\d+-\d+,(\w+-\d+),"%d) #用导购名字拼成正则串,那么匹配到的都是她的单子
- 多少单=len({l for l in re.findall(rec,cf)}) #相同的单号只算一个单,正则查找的结果放在集合,
- #集合中元素不能重复,相当于去重处理,所以len长度可以得到该导购的单量
- 客单价=float(t)/多少单 #t还是字符串,需要转成float再计算
- print("导购:%s 日成交金额: %s 日客单价:%3.2f 日单量:%s" %(d,t,客单价,多少单))
-
- """
- 输出:
- >>>
- 导购:顾意珍 日成交金额: 480.00 日客单价:26.67 日单量:18
- 导购:张彩菊 日成交金额: 505.00 日客单价:28.06 日单量:18
- ...
- """
复制代码
|