返回列表 发帖

[文本处理] [已解决]sort能正确处理utf-8格式的文本吗? /L[OCALE] locale 这个参数怎么用?

本帖最后由 killer3k 于 2024-10-7 21:25 编辑

操作系统:win7

用了chcp 65001也没用,输出依然是乱码。
改了CMD窗口的字体,type命令倒是能正确显示utf8格式的文本文件,不会显示乱码,但sort命令输出的依旧是乱码。
如果先把文本转换为ANSI即GBK编码后,用sort命令倒是可以处理了,但这样一来又可能造成文本部分字符丢失。

另外,“/l[ocale] locale”这个参数怎么用?
这个完全搜索不到有用的资料,要么没说,要么照抄帮助文件,要么就是抄
http://www.bathome.net/viewthrea ... &highlight=sort
这篇,文章最后都是这句话,“没讲的内容,/l参数,这个是区域设置相关,我也没弄懂。”

复制一下srt命令帮助:
/L[OCALE] locale            用指定的区域设置替代系统默认区域设置。
                                       ""C"" 区域设置产生最快的排序顺序并且是当前
                                       的唯一其他选择。排序总是不分大小写的。

还有从微软帮助网站上复制来的内容:
/l <locale>         重写由系统默认区域设置(即在安装过程中选择的语言和国家/地区)定义的字符排序顺序。
注解:目前,默认区域设置的唯一替代方法是 C 区域设置,它比自然语言排序更快(它根据字符的二进制编码进行排序)。

26个英文字母的大小写我都试了,除了大写C,其它都会显示“无效的区域设置”,"zh-CN"、“en-US"、"0804"之类的也试过。
至于sort /l "C",这个参数用了也不知道会起什么作用。


最后,我想问一下,type,findstr等命令可以通过改变活动代码页,命令窗口字体等来解决不能正确处理utf8中文文本的问题,那么,sort命令到底有没有办法正确显示utf8文本?如果能确定sort命令本身无论如何都做不到的话,我就死心了,不折腾了。

还有,有没有可以替代sort的第三方程序,要能按拼音排序的。比如说linux下sort的windows版本能做到按拼音排序吗?我在电脑上找到一个十多年前的windows版本的linux下的sort命令,简单试了一下,不太会用,但貌似是按unicode排序,也不知道有没有相关区域设置的参数。

我现在主要用notepad2,notepad2没有指定从第几列开始排序的功能(可以变通做到,但操作不方便),所以是用批处理来辅助完成按指定列排序的功能,但无法处理utf8格式的文本。
notepad2的功能毕竟还是弱了点,所以一直准备换一个,但这些年都没找到十分满意的文本编辑软件。
最近准备好好学习一下VIM怎么用,VIM自身的sort命令依然是只能按照unicode排序,不能按拼音排序(据说要用插件,但是我也没找到)。不过VIM可以调用外部命令,和CMD的sort结合,可以完美解决ansi编码(GBK,cp936)文本按拼音排序的问题,但是无法解决utf8文本按拼音排序的问题。

顺便说一下,我感觉CMD的sort命令排序的速度比我试过的文本编辑软件都快,尤其是那些利用插件提供排序功能的软件。

回复 3# ppll2030

刚又试了一下,还是没用。

TOP

回复 7# buyiyang


    我不懂编程,你写的内容太高深了。
    但这几天看了不少相关文章,感觉你说的是对的,windows下可以直接高API或其它我也不知道叫啥名的术语。但是有很多程序,不光是外国的,就算是国产的,也不按这个来啊,就是单纯按unicode码表的顺序排。
    另外,我看有些讨论怎么按拼音排序来编程的文章,都说要先做一个拼音库,感觉很奇怪,为什么不用现成的呢?比如说notepad2那么小个外国软件,无论是ansi还是utf8下都可以按拼音排序,那么他怎么可能去做一个拼音库呢?
    还有,这几天查了后才知道,GB2312中只有一级汉字是按拼音来排序,二级汉字是按笔划还是偏旁来排的。GBK完全兼容GB2312,那么同样只有GB2312中的一级汉字是按拼音排序。

TOP

回复 8# ppll2030


    又试了几次,还是不行,cp936下有点阵和新宋两种可设,cp65001下有三种字体可设,都不行。会不会是因为我还在用win7的原因呢?

TOP

回复 10# delab-1
在我的win7下,用findstr的话,全是乱码,用find的话,啥都没有。

TOP

回复 12# flashercs


    不懂编程,感觉你说得对。但有些软件就是不按local的来,完全按unicode中的顺序罗列。比如说sublime text等文本编辑软件都是这样,排序后的汉字一看就是unicode的码表中的顺序。

TOP

回复 13# aloha20200628


    谢谢,是那个180M的包中的吗?好东西,我先保存了。
    不过我的是win7,无效。
    估计是 set "lc_all=c" 这个设置在windows或win7以下版本无效吧。这两天搜索资料时见过这个命令,好像是linux下的命令,在windows下只有在cygwin环境下可以设置,设置后linux版的sort命令就可以按拼音排序了。

TOP

回复 19# delab-1


    win7没用,估计和操作系统有关。

TOP

回复 20# ppll2030


    死心了死心了。

TOP

本帖最后由 killer3k 于 2024-10-6 20:55 编辑

非常感谢各位!
死心了,准备试试powershell。
不过我不会powershell,vim也才用两三天,几乎可以说还不会。
win7下默认的powershell才是2.0,估计还得升级,这个还得研究一下。

目前只是搞定了在powershell中简单排序的命令,从指定的第几个字符开始排序还没搞定(即相当于sort /+5的方式)。

因为我的目的是在gvim的命令行模式下用命令调用外部程序,所以
get-content asdf.txt |sort-objectl这种方式可能还不行,sort-objectl前面必须是个变量才行。

估计是我的问题太简单了,所以网上也搜不到有用的资料,尽是些怎么在powershell中使用vimr 文章。

唯一有用的是百度AI给出了一条命令,但说实话,百度AI有时候给出的代码根本用不了,所以我也不知道对不对。
:1,10!powershell -Command "& {$_}" | Sort-Object
感叹号及以前不用管,后面符合powershell语法吗?

刚开始学vim,什么都不会,说的也不一定对。
先简单说一下vim调用外部命令的方式,供没用过vim的朋友参考。

:!外部命令表达式

冒号相当于CMD的命令提示符,感叹号表示调用的外部命令。
vim是用打开一个cmd窗口的方式来调用外部命令,

在CMD提示符后显示的是:
cmd.exe /c (外部命令表达式)

说一下我使用成功的例子

:%!sort /+5          # 对当前文本排序
:'<,'>!sort /+5      # 对当前选中文本排序
:1,3!sort /+5        # 对当前文本的1-3行排序

:1,3!powershell -command "get-content asdf.txt | sort-object"
这条命令如果把双引号去掉的话就会出问题,CMD会把|后面的sort-object当成CMD命令来执行。

显示结果:
'sort-object' 不是内部或外部命令,也不是可运行的程序或批处理文件。

上面我抄来的那条命令就更麻烦了。
:1,10w !powershell -Command "& {$_}" | Sort-Object
(为了方便观察试错,所以在1,10后又加了个w,表示不改写文件,这样就只会在CMD窗口中显示。
因为有"、&、|三个特殊符号,在CMD中执行就会有问题,如果原样执行的话,同样是把sort-object当成了CMD命令。

CMD窗口中的命令行显示的是这样的,供参考:
C:\Windows\system32\cmd.exe /c (^(powershell -command ^"^& {$_}^" ^| sort-object^) ^< C:\Users\用户名\AppData\Local\Temp\V51D7f0.tmp)
'sort-object' 不是内部或外部命令,也不是可运行的程序或批处理文件。
shell returned 255
Hit any key to close this window...

V51D7f0.tmp 这个是vim截取1到10行后生成的临时文件,不用管文件名是什么。

如果前后加上双引号的话,
:1,10w !powershell -Command ""& {$_}" | Sort-Object"

运行显示如下:
C:\Windows\system32\cmd.exe /c (^(powershell -command ^"^"^& {$_}^" ^| sort-object^) ^< C:\Users\用户名\AppData\Local\Temp\V51EC03.tmp)
'{$_}" | sort-object' 不是内部或外部命令,也不是可运行的程序或批处理文件。
shell returned 255
Hit any key to close this window...

加了双引号后,就直接把&符号后的{$_}" | sort-object全部当作是CMD命令了。

可以看出来,vim会自动把特殊符号转义后再用cmd.exe来执行,那么问题就是
powershell -Command "& {$_}" | Sort-Object
这条命令我应该怎么写才能让CMD正确执行?
当然,前提是这条powershell命令是正确的,如果这条命令本身就不正确,那么正确的命令应该怎么写?
我想要的是:
powershell -command 获取当前变量 | sort-object

对了,我电脑powshell目前版本还只是2.0,win7好像最高只能升到5.1,所以请提供适用于5.1以下版本的命令。

还有,我想问一下powshell怎样做才能达到 “sort /+5”这样的目的?
最好是一行代码,这样好执行。
网上也找不什么资料,百度AI倒是给出两个参数 -First 和 -Skip,但是百度一会说这是略过的行,一会说这是略过的字符。
我试了一下,比如说 -first 5 是只显示前5行,-skip 5 是不显示前5行。

TOP

回复 19# delab-1


    昨天没成功,今天又试了一下,可以正确显示汉字了(都是复制的相同的代码)。
    不过感觉还是不能解决汉字排序的问题,set LC_ALL="C" 后就没有本地化设置了,汉字就不能按照拼音排序了。
    简单试了一下,功能比CMD的sort强,但我没找到相当于sort /+n参数的功能,速度不如CMD的sort。

TOP

回复 24# aloha20200628


    非常感谢,写了4段代码,真是费心了,而且我感觉你给的这段代码要比百度AI抄来的好。
    感觉split这个东西很有用啊,好像可以用来处理CSV文件。
    对照着看,大致看懂了,也试了一下,win7 powershell2.0下也完全能运行。
    不过,这个split好像必须有分隔符,我试着把分隔符删掉,好像就是把整行当作一个对象。
    我想要的是相当于 sort /+n 的功能,不根据分隔符,而直接从指定的字符位置来开始排序。
    比如说:
    aaaa张三
    bbbb李四
    cccc王五
    dddd赵六
    忽略掉每行的前四个字符,根据每行的第五个字符及之后的文字来排序,这个功能,powershell能不能实现?如果能我就再研究,如果不能我就考虑别的办法。
    以前总觉得powershell太慢,所以不想学,不过现在感觉好像还是可以学一点的。
    再次感谢。

TOP

本帖最后由 killer3k 于 2024-10-6 20:54 编辑

仔细研究了一下,感觉我目前想通过VIM的命令行来调用powershell,达到对文本排序的目的是不可能实现的。问题出在目前我唯一知道的VIM调用外部命令的方式上(可能VIM还有别方法我没接触到)。
VIM是通过把“全文、指定行、选择行”的内容生成一个临时文件,再把这个临时文件传递给外部命令排序,然后再把排序结果覆盖前述指定的内容。
问题就在VIM调用外部命令的方式是:
在VIM命令行输入
:{指定范围} !外部命令表达式
然后用cmd调用这个外部命令表达式,简化一下:
cmd.exe /c (^(外部命令^) ^< 临时文件)
所以,实际上VIM是直接把这个临时文件用重定向符“<”传递给外部命令来处理,而不是把这个临时文件的路径文件名作为参数传递给外部命令。
简单看了一下powershell的帮助,powershell好像不能通过重定向符“<”来接收文件内容。
实际上,CMD中能通过“<”这个重定向符接收文件内容作为输入的命令也是少之又少。
对了,不知道批处理bat文件有没有办法把重定向符“<”之后文件名作为参数传递到批处理文件内,如果行的话,似乎还有点办法。

感觉还是得通过VIM想办法,可能需要写一个VIM脚本,不过我现在连VIM的配置文件在哪都还没找到,慢慢来吧。

TOP

回复 28# aloha20200628


    非常感谢,成功了。
    就是对长度没到指定位置的字符串不知道是采用什么顺序排的,我试着在文本中添加了 0-9 和 a-z 的单字符,完全看不出是按什么顺序排的。
    不过没关系,我一般不会碰到这种情况,真遇到了就人工处理一下。
    等将来powershell懂得多一点后,估计可以写个脚本,先判断,再排序,慢慢来吧。
    现次感谢。

TOP

回复 29# ppll2030


        非常感谢,也成功了。
        这种方法和前面 sort {$_[2..$_.length]} 相比,如果一行字符长度不到指定位置的话,会有一个错误提示,但不影响排序。
        估计这两种方法可以应用于不同场景,当然,我现在还想不到,慢慢学吧。
        再次感谢。

TOP

返回列表