[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] sort能正确处理utf-8格式的文本吗? /L[OCALE] locale 这个参数怎么用?

操作系统:win7

用了chcp 65001也没用,输出依然是乱码。
改了CMD窗口的字体,type命令倒是能正确显示utf8格式的文本文件,不会显示乱码,但sort命令输出的依旧是乱码。
如果先把文本转换为ANSI即GBK编码后,用sort命令倒是可以处理了,但这样一来又可能造成文本部分字符丢失。

另外,“/l[ocale] locale”这个参数怎么用?
这个完全搜索不到有用的资料,要么没说,要么照抄帮助文件,要么就是抄
http://www.bathome.net/viewthrea ... &highlight=sort
这篇,文章最后都是这句话,“没讲的内容,/l参数,这个是区域设置相关,我也没弄懂。”

复制一下srt命令帮助:
/L[OCALE] locale            用指定的区域设置替代系统默认区域设置。
                                       ""C"" 区域设置产生最快的排序顺序并且是当前
                                       的唯一其他选择。排序总是不分大小写的。

还有从微软帮助网站上复制来的内容:
/l <locale>         重写由系统默认区域设置(即在安装过程中选择的语言和国家/地区)定义的字符排序顺序。
注解:目前,默认区域设置的唯一替代方法是 C 区域设置,它比自然语言排序更快(它根据字符的二进制编码进行排序)。

26个英文字母的大小写我都试了,除了大写C,其它都会显示“无效的区域设置”,"zh-CN"、“en-US"、"0804"之类的也试过。
至于sort /l "C",这个参数用了也不知道会起什么作用。


最后,我想问一下,type,findstr等命令可以通过改变活动代码页,命令窗口字体等来解决不能正确处理utf8中文文本的问题,那么,sort命令到底有没有办法正确显示utf8文本?如果能确定sort命令本身无论如何都做不到的话,我就死心了,不折腾了。

还有,有没有可以替代sort的第三方程序,要能按拼音排序的。比如说linux下sort的windows版本能做到按拼音排序吗?我在电脑上找到一个十多年前的windows版本的linux下的sort命令,简单试了一下,不太会用,但貌似是按unicode排序,也不知道有没有相关区域设置的参数。

我现在主要用notepad2,notepad2没有指定从第几列开始排序的功能(可以变通做到,但操作不方便),所以是用批处理来辅助完成按指定列排序的功能,但无法处理utf8格式的文本。
notepad2的功能毕竟还是弱了点,所以一直准备换一个,但这些年都没找到十分满意的文本编辑软件。
最近准备好好学习一下VIM怎么用,VIM自身的sort命令依然是只能按照unicode排序,不能按拼音排序(据说要用插件,但是我也没找到)。不过VIM可以调用外部命令,和CMD的sort结合,可以完美解决ansi编码(GBK,cp936)文本按拼音排序的问题,但是无法解决utf8文本按拼音排序的问题。

顺便说一下,我感觉CMD的sort命令排序的速度比我试过的文本编辑软件都快,尤其是那些利用插件提供排序功能的软件。

本帖最后由 aloha20200628 于 2024-10-5 22:46 编辑

回复 23# killer3k

以下各段代码在cmd窗口命令行直接运行,在 win7/powershell v2 环境下试一试也许也能通过

采用 powershell v3+ 对(ansi 或 gb2312 编码)文本文件 test.txt 中第3个字段按字符值排序
  1. powershell "gc test.txt | sort {$_.split(',')[2]}"
复制代码
采用 powershell v3+ 对(utf-8 编码)文本文件 test.txt 中第3个字段按字符值排序
  1. powershell "gc test.txt -enc utf8 | sort {$_.split(',')[2]}"
复制代码
采用 powershell v3+ 对文本文件(ansi 或 gb2312 编码) test.txt 中第2个字段按整数值排序
  1. powershell "gc test.txt | sort {[int]$_.split(',')[1]}"
复制代码
采用 powershell v3+ 对文本文件(utf-8 编码) test.txt 中第2个字段按整数值排序
  1. powershell "gc test.txt -enc utf8 | sort {[int]$_.split(',')[1]}"
复制代码
测试文件 test.txt 如下
  1. 簡轉繁,9,zyx
  2. 繁轉簡,222,hijk
  3. 采用powershell_v4排序第n列字段,11,ab
复制代码

TOP

本帖最后由 killer3k 于 2024-10-5 21:12 编辑

非常感谢各位!
死心了,准备试试powershell。
不过我不会powershell,vim也才用两三天,几乎可以说还不会。
win7下默认的powershell才是2.0,估计还得升级,这个还得研究一下。

目前只是搞定了在powershell中简单排序的命令,从指定的第几个字符开始排序还没搞定(即相当于sort /+5的方式)。

因为我的目的是在gvim的命令行模式下用命令调用外部程序,所以
get-content asdf.txt |sort-objectl这种方式可能还不行,sort-objectl前面必须是个变量才行。

估计是我的问题太简单了,所以网上也搜不到有用的资料,尽是些怎么在powershell中使用vimr 文章。

唯一有用的是百度AI给出了一条命令,但说实话,百度AI有时候给出的代码根本用不了,所以我也不知道对不对。
:1,10!powershell -Command "& {$_}" | Sort-Object
感叹号及以前不用管,后面符合powershell语法吗?

刚开始学vim,什么都不会,说的也不一定对。
先简单说一下vim调用外部命令的方式,供没用过vim的朋友参考。

:!外部命令表达式

冒号相当于CMD的命令提示符,感叹号表示调用的外部命令。
vim是用打开一个cmd窗口的方式来调用外部命令,

在CMD提示符后显示的是:
cmd.exe /c (外部命令表达式)

说一下我使用成功的例子

:%!sort /+5          # 对当前文本排序
:'<,'>!sort /+5      # 对当前选中文本排序
:1,3!sort /+5        # 对当前文本的1-3行排序

:1,3!powershell -command "get-content asdf.txt | sort-object"
这条命令如果把双引号去掉的话就会出问题,CMD会把|后面的sort-object当成CMD命令来执行。

显示结果:
'sort-object' 不是内部或外部命令,也不是可运行的程序或批处理文件。

上面我抄来的那条命令就更麻烦了。
:1,10w !powershell -Command "& {$_}" | Sort-Object
(为了方便观察试错,所以在1,10后又加了个w,表示不改写文件,这样就只会在CMD窗口中显示。
因为有"、&、|三个特殊符号,在CMD中执行就会有问题,如果原样执行的话,同样是把sort-object当成了CMD命令。

CMD窗口中的命令行显示的是这样的,供参考:
C:\Windows\system32\cmd.exe /c (^(powershell -command ^"^& {$_}^" ^| sort-object^) ^< C:\Users\用户名\AppData\Local\Temp\V51D7f0.tmp)
'sort-object' 不是内部或外部命令,也不是可运行的程序或批处理文件。
shell returned 255
Hit any key to close this window...

V51D7f0.tmp 这个是vim截取1到10行后生成的临时文件,不用管文件名是什么。

如果前后加上双引号的话,
:1,10w !powershell -Command ""& {$_}" | Sort-Object"

运行显示如下:
C:\Windows\system32\cmd.exe /c (^(powershell -command ^"^"^& {$_}^" ^| sort-object^) ^< C:\Users\用户名\AppData\Local\Temp\V51EC03.tmp)
'{$_}" | sort-object' 不是内部或外部命令,也不是可运行的程序或批处理文件。
shell returned 255
Hit any key to close this window...

加了双引号后,就直接把&符号后的{$_}" | sort-object全部当作是CMD命令了。

可以看出来,vim会自动把特殊符号转义后再用cmd.exe来执行,那么问题就是
powershell -Command "& {$_}" | Sort-Object
这条命令我应该怎么写才能让CMD正确执行?
当然,前提是这条powershell命令是正确的,如果这条命令本身就不正确,那么正确的命令应该怎么写?
我想要的是:
powershell -command 获取当前变量 | sort-object

对了,我电脑powshell目前版本还只是2.0,win7好像日子高只能升到5.1,所以请提供适用于5.1以下版本的命令。

还有,我想问一下powshell怎样做才能达到 “sort /+5”这样的目的?
最好是一行代码,这样好执行。
网上也找不什么资料,百度AI倒是给出两个参数 -First 和 -Skip,但是百度一会说这是略过的行,一会说这是略过的字符。
我试了一下,比如说 -first 5 是只显示前5行,-skip 5 是不显示前5行。

TOP

回复 20# ppll2030


    死心了死心了。

TOP

回复 19# delab-1


    win7没用,估计和操作系统有关。

TOP

回复 15# killer3k


    我是用lucida console字体。前面测试过于简单了。
utf-8编码,type可以正常,sort却不能,我也发现某些汉字依然乱码了。正如上面大佬说的。
所以不用纠结了  换个方式吧。

TOP

回复 13# aloha20200628

目前看,这个运行效果非常好,中文显示完全没有问题,为了方便大家,我把运行程序写在下面:
if exist out_u8.txt del out_u8.txt
copy code2_chksort.txt temp.txt

chcp 65001>nul & set "lc_all=c"
sort76.exe "temp.txt" -r -o "out_u8.txt"
::这个地方注释下,在sort76.exe 下,其输处选项用的是-r (代表倒序) -o是输出文件,这个win自带的sort.exe写法不同,请大家注意。
out_u8.txt

另外论坛自带的sort.exe的下载步骤:
1)进入论坛主界面,在页面最下面的左角有一个“在线第三方下载”
2)点入进入页面以后,在顶部有一个关键词搜索框,在其中输入sort.
3) 就会出现sort版本,点击就可以下载下来了。

再次感谢无私的帮助,再次感谢大家的努力!比较完美的解决了问题

TOP

回复 13# aloha20200628


    谢谢,是那个180M的包中的吗?好东西,我先保存了。
    不过我的是win7,无效。
    估计是 set "lc_all=c" 这个设置在windows或win7以下版本无效吧。这两天搜索资料时见过这个命令,好像是linux下的命令,在windows下只有在cygwin环境下可以设置,设置后linux版的sort命令就可以按拼音排序了。

TOP

回复 12# flashercs


    不懂编程,感觉你说得对。但有些软件就是不按local的来,完全按unicode中的顺序罗列。比如说sublime text等文本编辑软件都是这样,排序后的汉字一看就是unicode的码表中的顺序。

TOP

回复 10# delab-1
在我的win7下,用findstr的话,全是乱码,用find的话,啥都没有。

TOP

回复 8# ppll2030


    又试了几次,还是不行,cp936下有点阵和新宋两种可设,cp65001下有三种字体可设,都不行。会不会是因为我还在用win7的原因呢?

TOP

回复 7# buyiyang


    我不懂编程,你写的内容太高深了。
    但这几天看了不少相关文章,感觉你说的是对的,windows下可以直接高API或其它我也不知道叫啥名的术语。但是有很多程序,不光是外国的,就算是国产的,也不按这个来啊,就是单纯按unicode码表的顺序排。
    另外,我看有些讨论怎么按拼音排序来编程的文章,都说要先做一个拼音库,感觉很奇怪,为什么不用现成的呢?比如说notepad2那么小个外国软件,无论是ansi还是utf8下都可以按拼音排序,那么他怎么可能去做一个拼音库呢?
    还有,这几天查了后才知道,GB2312中只有一级汉字是按拼音来排序,二级汉字是按笔划还是偏旁来排的。GBK完全兼容GB2312,那么同样只有GB2312中的一级汉字是按拼音排序。

TOP

本帖最后由 aloha20200628 于 2024-10-5 21:11 编辑

回复 1# killer3k

能够完好排序包含中文字符的utf-8编码文件的一个可选方案,已在win8.1系统测试通过...》
一。从本坛第三方下载 sort v7.6 (http://bcn.bathome.net/s/tool/index.html?key=sort) 命名其为 sort76.exe 使用
二。切换至65001码页,设置一个环境变量 set "lc_all=c",运行 sort76.exe "in_u8.txt" -o "out_u8.txt",其排序结果须输出到文件,示例代码如下
  1. chcp 65001>nul&set "lc_all=c"
  2. sort76.exe "in_u8.txt" -o "out_u8.txt"
复制代码
三。输出文件继承源文件的换行符格式,如要转换结果文件的unix换行符为pc换行符,可用如下代码(其中 sed.exe 可从本坛第三方下载 http://bcn.bathome.net/s/tool/index.html?key=sed
  1. set "lc_all=" &sed.exe "s/\r/\r\n/g" "out_u8.txt" -o "out_u8.new.txt"
复制代码
测试文件 in_u8.txt 如下,用utf-8编码保存:
  1. D:\music\@artists\Thaïs, Act II:Méditation.mp3
  2. D:\music\@artists\魂縈舊夢 Endless Dreams.flac
  3. D:\music\@artists\沉思 (Deep Thought).flac
  4. D:\music\@artists\Csárdás.mp3
复制代码

TOP

排序跟编码没有关系,只跟Locale有关系,因为排序时比较的都是Unicode字符;只是sort.exe不支持utf-8,会乱码.
系统 "区域和语言"中可以修改 中文排序方式,按照 拼音 或 笔画
中文简体LocaleId是2052,在同样是2052的情况下,排序算法有可能不同.
Windows自带的.sort.exe跟powershell.exe的排序算法是一致的,中文排序是按拼音排序的,跟系统 "区域和语言"设置的 排序无关.
  1. #
  2. $
  3. @
  4. _
  5. 0
  6. 1
  7. 2
  8. 3
  9. a
  10. b
  11. c
  12. d
  13. e
  14. f
  15. 啊a
  16. 吧b
  17. 从c
  18. 的d
  19. 额e
  20. 发f
复制代码
pwsh.exe排序与之不同,1.中文在英文字母前面;2.中文排序跟系统 "区域和语言" 设置的排序规则有关系.
按 拼音 排序
  1. _
  2. @
  3. #
  4. $
  5. 0
  6. 1
  7. 2
  8. 3
  9. 啊a
  10. 吧b
  11. 从c
  12. 的d
  13. 额e
  14. 发f
  15. a
  16. b
  17. c
  18. d
  19. e
  20. f
复制代码
按 笔画 排序
  1. _
  2. @
  3. #
  4. $
  5. 0
  6. 1
  7. 2
  8. 3
  9. 从c
  10. 发f
  11. 吧b
  12. 的d
  13. 啊a
  14. 额e
  15. a
  16. b
  17. c
  18. d
  19. e
  20. f
复制代码
通过比较发现,原来.NET Framework与.NET Core的排序版本不同,后者版本更高.
又发现浏览器JavaScript的string对象的方法localCompare(str2,?locale,?option)可以指定locale,当locale=='zh-cn'时,排序结果与.NET Core版本一致.这说明 Core版本的CompareInfo的版本是最新版.
1

评分人数

    • 77七: 感谢分享技术 + 1
微信:flashercs
QQ:49908356

TOP

本帖最后由 Five66 于 2024-10-5 01:21 编辑

可以试试用unicode,将txt编码保存为unicode(utf16-le)
又或者试试将utf8编码的txt每一行都放进带前缀的变量里,然后:set 前缀|sort
不过建议最好放弃,就如之前(6楼)说的那样,sort不完全支持utf8,用powershel吧,虽然慢了点,但是里面的sort排序结果跟这个sort也差不多,,可以自行指定编码,也可以自定义排序规则

TOP

返回列表