Board logo

标题: [问题求助] 【求助】【文本数据处理】【200元】 [打印本页]

作者: 曾经的你    时间: 2024-1-6 15:24     标题: 【求助】【文本数据处理】【200元】

本帖最后由 曾经的你 于 2024-1-6 23:11 编辑

链接:https://pan.baidu.com/s/1nMK3gDVDJugO8gc0abILRw
提取码:c59v
--来自百度网盘超级会员V5的分享

我追加了一份其他直接下载地址
链接:https://cowtransfer.com/s/19f84b4bff094f
口令:2r7srs
【请下载后,将后缀.ddd改为.zip】


该压缩包中存在853个txt文件,每个文件中存储的都是公司名称。
需要将每行中的数据仅保留商号。【类型非常复杂,仅保留商号】
举例:
比如  江苏_无锡_1.txt  文件
原始文件数据为
  1. 无锡茅庄农产品专业合作社
  2. 无锡常锡农产品专业合作社
  3. 锡山区斗山辛巷家庭农场
  4. 锡山区鹅湖翔威家庭农场
  5. ****
  6. 江苏珵硕电子科技有限公司
  7. 无锡靖天环保科技有限公司
  8. 无锡巨一同创科技股份有限公司
复制代码
处理后为
  1. 茅庄
  2. 常锡
  3. 辛巷
  4. 翔威
  5. ****
  6. 珵硕
  7. 靖天
  8. 巨一同创
复制代码
需要处理精确度尽可能的高。
无需处理程序,将结果分享给我就行。

【文本中可能存在少量特殊名称,跳过或者根据实际情况处理即可。】

请下载后测试,能处理的老哥请留言回复,我将继续跟进。
作者: newswan    时间: 2024-1-6 16:22

怎么这么大,1.85g
作者: 曾经的你    时间: 2024-1-6 16:31

回复 2# newswan


    见说明,里边有几百个txt文件
作者: _avatar_    时间: 2024-1-6 16:36

有一个问题,怎么区别一个名称是地名还是商号?
比如: 锡山区斗山辛巷家庭农场  ,商号可能是  辛巷  也可能是  斗山辛巷,
有没有地址列表来作参考?
或者,数据里的地址范围是固定的,只会出现那几个固定的地址?
作者: 曾经的你    时间: 2024-1-6 16:44

本帖最后由 曾经的你 于 2024-1-6 16:46 编辑

回复 4# _avatar_


所以这就是难点所在。不过像是特殊的允许出现一定错误。
我自己搞的几千个地区,处理后依然不正确。(并不是所有的企业名称都是**省***市**县**区**镇**乡等,很多类似这种)
涉及到地区名及行业分类,非常复杂。可能需要机器学习来完成。
我自己写了脚本替换了半天发现问题很大,就来求助了。
作者: newswan    时间: 2024-1-6 16:45

文言一心:
无锡茅庄农产品专业合作社、无锡常锡农产品专业合作社、锡山区斗山辛巷家庭农场和锡山区鹅湖翔威家庭农场这四个公司名称中,可以提取出的商号分别为“茅庄”、“常锡”、“斗山辛巷”和“鹅湖翔威”。

具体来说,商号通常是公司名称中的核心部分,用于标识公司的品牌或业务。例如,“无锡茅庄农产品专业合作社”中的“茅庄”就是商号,表示这是一个以“茅庄”为品牌或业务核心的公司。同样地,“无锡常锡农产品专业合作社”中的“常锡”是商号,“锡山区斗山辛巷家庭农场”中的“斗山辛巷”是商号,“锡山区鹅湖翔威家庭农场”中的“鹅湖翔威”是商号。

需要注意的是,有些公司名称可能比较复杂,包含多个词汇,或者商号和公司名称的界限不清晰。在这种情况下,需要深入理解公司名称的语义和上下文,才能准确地提取商号。同时,不同行业的公司命名规则不同,可以根据行业惯例和品牌命名规则来推断商号。
作者: 曾经的你    时间: 2024-1-6 16:48

回复 6# newswan


    是的,我问过chatgpt他的回答不如文心一言。
这就是难度所在,可能需要机器学习
作者: newswan    时间: 2024-1-6 16:59

https://api.yonyoucloud.com/apil ... f675ac165_true.html
工商api 也不支持
作者: _avatar_    时间: 2024-1-6 17:00

回复 5# 曾经的你


    有没其它下载地址呀,没有百度会员,下载得半天。
作者: 曾经的你    时间: 2024-1-6 18:08

本帖最后由 曾经的你 于 2024-1-6 23:11 编辑

回复 9# _avatar_


链接:https://cowtransfer.com/s/19f84b4bff094f
口令:2r7srs
【请下载后,将后缀.ddd改为.zip】
作者: _avatar_    时间: 2024-1-6 18:47

回复 10# 曾经的你


    下载好啦,

     随机看了几个文档,复杂程度已远超过我的想象。
作者: 曾经的你    时间: 2024-1-6 18:52

回复 11# _avatar_


   
作者: search_Sudoku    时间: 2024-1-6 21:16

回复 1# 曾经的你

可以做
作者: 877    时间: 2024-1-6 22:03

自己训练模型可行
不自己训练就多做几步
也是可以的
作者: search_Sudoku    时间: 2024-1-6 22:27

回复 14# 877

我说训练不可行, 训练要标记数据, 你有标记大量数据的功夫, 人工都解决了. 你不花大量人力标记数据, 训练毫无意义
作者: 曾经的你    时间: 2024-1-6 23:07

回复 13# search_Sudoku

那我等着你,啥时候能搞好
作者: buyiyang    时间: 2024-1-8 19:43

解决了吗?
作者: newswan    时间: 2024-1-8 20:21

围观,ai训练好了没




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2