[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] sort能正确处理utf-8格式的文本吗? /L[OCALE] locale 这个参数怎么用?

操作系统:win7

用了chcp 65001也没用,输出依然是乱码。
改了CMD窗口的字体,type命令倒是能正确显示utf8格式的文本文件,不会显示乱码,但sort命令输出的依旧是乱码。
如果先把文本转换为ANSI即GBK编码后,用sort命令倒是可以处理了,但这样一来又可能造成文本部分字符丢失。

另外,“/l[ocale] locale”这个参数怎么用?
这个完全搜索不到有用的资料,要么没说,要么照抄帮助文件,要么就是抄
http://www.bathome.net/viewthrea ... &highlight=sort
这篇,文章最后都是这句话,“没讲的内容,/l参数,这个是区域设置相关,我也没弄懂。”

复制一下srt命令帮助:
/L[OCALE] locale            用指定的区域设置替代系统默认区域设置。
                                       ""C"" 区域设置产生最快的排序顺序并且是当前
                                       的唯一其他选择。排序总是不分大小写的。

还有从微软帮助网站上复制来的内容:
/l <locale>         重写由系统默认区域设置(即在安装过程中选择的语言和国家/地区)定义的字符排序顺序。
注解:目前,默认区域设置的唯一替代方法是 C 区域设置,它比自然语言排序更快(它根据字符的二进制编码进行排序)。

26个英文字母的大小写我都试了,除了大写C,其它都会显示“无效的区域设置”,"zh-CN"、“en-US"、"0804"之类的也试过。
至于sort /l "C",这个参数用了也不知道会起什么作用。


最后,我想问一下,type,findstr等命令可以通过改变活动代码页,命令窗口字体等来解决不能正确处理utf8中文文本的问题,那么,sort命令到底有没有办法正确显示utf8文本?如果能确定sort命令本身无论如何都做不到的话,我就死心了,不折腾了。

还有,有没有可以替代sort的第三方程序,要能按拼音排序的。比如说linux下sort的windows版本能做到按拼音排序吗?我在电脑上找到一个十多年前的windows版本的linux下的sort命令,简单试了一下,不太会用,但貌似是按unicode排序,也不知道有没有相关区域设置的参数。

我现在主要用notepad2,notepad2没有指定从第几列开始排序的功能(可以变通做到,但操作不方便),所以是用批处理来辅助完成按指定列排序的功能,但无法处理utf8格式的文本。
notepad2的功能毕竟还是弱了点,所以一直准备换一个,但这些年都没找到十分满意的文本编辑软件。
最近准备好好学习一下VIM怎么用,VIM自身的sort命令依然是只能按照unicode排序,不能按拼音排序(据说要用插件,但是我也没找到)。不过VIM可以调用外部命令,和CMD的sort结合,可以完美解决ansi编码(GBK,cp936)文本按拼音排序的问题,但是无法解决utf8文本按拼音排序的问题。

顺便说一下,我感觉CMD的sort命令排序的速度比我试过的文本编辑软件都快,尤其是那些利用插件提供排序功能的软件。

我也遇到同样的问题,sort后输出的文件中的中文都变成乱码,测试了很多方法都没有成功。chnp 65001没有任何用处。看看有没有大佬们给与指导

TOP

回复 1# killer3k


    chcp 65001是可以正常显示的,cmd窗口属性,换个字体就可以了。

TOP

回复 3# ppll2030

刚又试了一下,还是没用。

TOP

回复 3# ppll2030


    对sort而言,感觉仅仅写chnp=65001是肯定不行的

TOP

sort的/L参数大概是排序顺序,影响排出来的顺序,无效或许还没实现,只能是C?

chcp 65001时,要在cmd窗口里显示得设置字体,输出到文件可以不用设置字体,只是sortt输出时不知咋的utf8字符的某些字节码被转成问号(?),会导致某些部分乱码,而输出文件的编码是无bom的utf8,文本编辑器打开这个文件时很大概率会将编码识别为ansi(简体中文下是gbk)

type是好像单纯以换行符做为分割点的来输出,输出的内容由cmd根据当前代码也来解读(例如936代码页时按gbk解读,65001代码页时按utf8解读)

finstr貌似不支持非英文的utf8(例如中文),因为asni英文和utf8英文是一样的

TOP

sort的编码转换确实有问题,使用chcp 65001后将结果重定向到控制台可以正确显示,但有一些典型(没有显著编码特征)没有正确转码:比如“联通”“嘉峪关”等等;将结果重定向到文件无法正确显示,使用sort 1.txt | find /v "" 转码一下可以正确显示但也有前面的问题。

/L[OCALE] locale 微软帮助已经说得很清楚了,它默认按照本地语言环境进行自然语言排序和比较,要改的只能用locale C,C是按字符编码排序的,是唯一的。不同的语言环境的排序、日期、货币格式等都有一些不同,比如中文的zh_CN.GB2312给中文排序会按拼音排序,一些拉丁文的希腊字母会排在英文字母前面,一些欧洲文字不区分变体,等等。
说到拼音排序,其实前面提到的本地语言环境就已经规定了排序方式,是中文系统就是按拼音排序(文件资源管理器就是这样的),可以直接调用api,使用strCmpLogicalW函数,比如:
  1. Add-Type @"
  2. using System;
  3. using System.Collections.Generic;
  4. using System.Runtime.InteropServices;
  5. public static class Localsort
  6. {
  7.     [DllImport("Shlwapi.dll", CharSet = CharSet.Unicode)]
  8.     public static extern int StrCmpLogicalW(string p1, string p2);
  9.     public static string[] Sort(string[] s)
  10.     {
  11.         Array.Sort(s, StrCmpLogicalW);
  12.         return s;
  13.     }
  14. }
  15. "@
  16. $inputFile = "origin.txt"
  17. $outputFile = "sorted.txt"
  18. $lines = [IO.File]::ReadAllLines($inputFile)
  19. $sortedLines = [Localsort]::Sort($lines)
  20. [IO.File]::WriteAllLines($outputFile, $sortedLines, [Text.Encoding]::UTF8)
复制代码

TOP

回复 4# killer3k
回复 5# delab-1


    我这边貌似没有问题,不过中文排序可能就不好用

TOP

回复 7# buyiyang


    这个是C语言吧?能直接在批处理中调用吗?我这边不能测试

TOP

回复 7# buyiyang


利用chcp 65001和 sort temp.txt | find / ""组合后,会好很多,大部分中文会正常显示,但是依然会出现奇怪问好“?”等字符。
chcp 65001
sort /R temp.txt | find /v "" >list.txt
list.txt

通过上面的程序,很多中文都正确显示了,但是部分不行。例如,“以色列”,显示为“以色??”

期待大家继续讨论,看看如何解决。

TOP

本帖最后由 Five66 于 2024-10-5 01:21 编辑

可以试试用unicode,将txt编码保存为unicode(utf16-le)
又或者试试将utf8编码的txt每一行都放进带前缀的变量里,然后:set 前缀|sort
不过建议最好放弃,就如之前(6楼)说的那样,sort不完全支持utf8,用powershel吧,虽然慢了点,但是里面的sort排序结果跟这个sort也差不多,,可以自行指定编码,也可以自定义排序规则

TOP

排序跟编码没有关系,只跟Locale有关系,因为排序时比较的都是Unicode字符;只是sort.exe不支持utf-8,会乱码.
系统 "区域和语言"中可以修改 中文排序方式,按照 拼音 或 笔画
中文简体LocaleId是2052,在同样是2052的情况下,排序算法有可能不同.
Windows自带的.sort.exe跟powershell.exe的排序算法是一致的,中文排序是按拼音排序的,跟系统 "区域和语言"设置的 排序无关.
  1. #
  2. $
  3. @
  4. _
  5. 0
  6. 1
  7. 2
  8. 3
  9. a
  10. b
  11. c
  12. d
  13. e
  14. f
  15. 啊a
  16. 吧b
  17. 从c
  18. 的d
  19. 额e
  20. 发f
复制代码
pwsh.exe排序与之不同,1.中文在英文字母前面;2.中文排序跟系统 "区域和语言" 设置的排序规则有关系.
按 拼音 排序
  1. _
  2. @
  3. #
  4. $
  5. 0
  6. 1
  7. 2
  8. 3
  9. 啊a
  10. 吧b
  11. 从c
  12. 的d
  13. 额e
  14. 发f
  15. a
  16. b
  17. c
  18. d
  19. e
  20. f
复制代码
按 笔画 排序
  1. _
  2. @
  3. #
  4. $
  5. 0
  6. 1
  7. 2
  8. 3
  9. 从c
  10. 发f
  11. 吧b
  12. 的d
  13. 啊a
  14. 额e
  15. a
  16. b
  17. c
  18. d
  19. e
  20. f
复制代码
通过比较发现,原来.NET Framework与.NET Core的排序版本不同,后者版本更高.
又发现浏览器JavaScript的string对象的方法localCompare(str2,?locale,?option)可以指定locale,当locale=='zh-cn'时,排序结果与.NET Core版本一致.这说明 Core版本的CompareInfo的版本是最新版.
1

评分人数

    • 77七: 感谢分享技术 + 1
微信:flashercs
QQ:49908356

TOP

本帖最后由 aloha20200628 于 2024-10-5 21:11 编辑

回复 1# killer3k

能够完好排序包含中文字符的utf-8编码文件的一个可选方案,已在win8.1系统测试通过...》
一。从本坛第三方下载 sort v7.6 (http://bcn.bathome.net/s/tool/index.html?key=sort) 命名其为 sort76.exe 使用
二。切换至65001码页,设置一个环境变量 set "lc_all=c",运行 sort76.exe "in_u8.txt" -o "out_u8.txt",其排序结果须输出到文件,示例代码如下
  1. chcp 65001>nul&set "lc_all=c"
  2. sort76.exe "in_u8.txt" -o "out_u8.txt"
复制代码
三。输出文件继承源文件的换行符格式,如要转换结果文件的unix换行符为pc换行符,可用如下代码(其中 sed.exe 可从本坛第三方下载 http://bcn.bathome.net/s/tool/index.html?key=sed
  1. set "lc_all=" &sed.exe "s/\r/\r\n/g" "out_u8.txt" -o "out_u8.new.txt"
复制代码
测试文件 in_u8.txt 如下,用utf-8编码保存:
  1. D:\music\@artists\Thaïs, Act II:Méditation.mp3
  2. D:\music\@artists\魂縈舊夢 Endless Dreams.flac
  3. D:\music\@artists\沉思 (Deep Thought).flac
  4. D:\music\@artists\Csárdás.mp3
复制代码

TOP

回复 7# buyiyang


    我不懂编程,你写的内容太高深了。
    但这几天看了不少相关文章,感觉你说的是对的,windows下可以直接高API或其它我也不知道叫啥名的术语。但是有很多程序,不光是外国的,就算是国产的,也不按这个来啊,就是单纯按unicode码表的顺序排。
    另外,我看有些讨论怎么按拼音排序来编程的文章,都说要先做一个拼音库,感觉很奇怪,为什么不用现成的呢?比如说notepad2那么小个外国软件,无论是ansi还是utf8下都可以按拼音排序,那么他怎么可能去做一个拼音库呢?
    还有,这几天查了后才知道,GB2312中只有一级汉字是按拼音来排序,二级汉字是按笔划还是偏旁来排的。GBK完全兼容GB2312,那么同样只有GB2312中的一级汉字是按拼音排序。

TOP

回复 8# ppll2030


    又试了几次,还是不行,cp936下有点阵和新宋两种可设,cp65001下有三种字体可设,都不行。会不会是因为我还在用win7的原因呢?

TOP

返回列表