Board logo

标题: [已解决] sed处理文本后出现乱码 [打印本页]

作者: hlzj88    时间: 2021-9-17 08:13     标题: [已解决] sed处理文本后出现乱码

本帖最后由 hlzj88 于 2021-9-17 08:58 编辑

已解决,版主可以删帖。

缘由,一段网页文本,标点符号全有,就是没有<br>换行,得到的文本也是一段文字。
所以用sed -i “s/。/。<br>\n/g” file来进行强制换行和减小每行长度,出现部分乱码

特点文本如下
那根棍子粗细合适不闲小,我情不自禁的舞了起来。
他的比我的还小,你的是我们中间最大的,今天我才知道是哥哥让着我的。
不过看在小云年龄还小,又不在妈妈身边。
就是啊!你还和我们计较什么。

出现 以 小, 啊!为特点的句子,都会出现乱码,导致后文不能阅读。

文本格式 ansi  win7  sed版本4.7。
求助各位大佬,如何处理,可以避免乱码情况。

在单位win xp 下依据乱码。

更换sed 为4.8 处理正常。 可惜不能删帖,




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2