Rank: 1

帖子: 23
积分: 39
技术: 0
捐助: 0
注册时间: 2011-4-6

1楼 跳转到 » 倒序看帖

字体大小: tT

发表于前天 20:22 | 只看该作者

[文本处理] sort能正确处理utf-8格式的文本吗？ /L[OCALE] locale 这个参数怎么用？

操作系统：win7

用了chcp 65001也没用，输出依然是乱码。
改了CMD窗口的字体，type命令倒是能正确显示utf8格式的文本文件，不会显示乱码，但sort命令输出的依旧是乱码。
如果先把文本转换为ANSI即GBK编码后，用sort命令倒是可以处理了，但这样一来又可能造成文本部分字符丢失。

另外，“/l[ocale] locale”这个参数怎么用？
这个完全搜索不到有用的资料，要么没说，要么照抄帮助文件，要么就是抄
http://www.bathome.net/viewthrea ... &highlight=sort
这篇，文章最后都是这句话，“没讲的内容，/l参数，这个是区域设置相关，我也没弄懂。”

复制一下srt命令帮助：
/L[OCALE] locale          用指定的区域设置替代系统默认区域设置。
                                    ""C"" 区域设置产生最快的排序顺序并且是当前
                                    的唯一其他选择。排序总是不分大小写的。

还有从微软帮助网站上复制来的内容：
/l <locale> 重写由系统默认区域设置（即在安装过程中选择的语言和国家/地区）定义的字符排序顺序。
注解：目前，默认区域设置的唯一替代方法是 C 区域设置，它比自然语言排序更快（它根据字符的二进制编码进行排序）。

26个英文字母的大小写我都试了，除了大写C，其它都会显示“无效的区域设置”，"zh-CN"、“en-US"、"0804"之类的也试过。
至于sort /l "C"，这个参数用了也不知道会起什么作用。

最后，我想问一下，type，findstr等命令可以通过改变活动代码页，命令窗口字体等来解决不能正确处理utf8中文文本的问题，那么，sort命令到底有没有办法正确显示utf8文本？如果能确定sort命令本身无论如何都做不到的话，我就死心了，不折腾了。

还有，有没有可以替代sort的第三方程序，要能按拼音排序的。比如说linux下sort的windows版本能做到按拼音排序吗？我在电脑上找到一个十多年前的windows版本的linux下的sort命令，简单试了一下，不太会用，但貌似是按unicode排序，也不知道有没有相关区域设置的参数。

我现在主要用notepad2，notepad2没有指定从第几列开始排序的功能（可以变通做到，但操作不方便），所以是用批处理来辅助完成按指定列排序的功能，但无法处理utf8格式的文本。
notepad2的功能毕竟还是弱了点，所以一直准备换一个，但这些年都没找到十分满意的文本编辑软件。
最近准备好好学习一下VIM怎么用，VIM自身的sort命令依然是只能按照unicode排序，不能按拼音排序（据说要用插件，但是我也没找到）。不过VIM可以调用外部命令，和CMD的sort结合，可以完美解决ansi编码（GBK，cp936）文本按拼音排序的问题，但是无法解决utf8文本按拼音排序的问题。

顺便说一下，我感觉CMD的sort命令排序的速度比我试过的文本编辑软件都快，尤其是那些利用插件提供排序功能的软件。

delab-1

上等兵

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2024-8-15

2楼

发表于前天 21:05 | 只看该作者

我也遇到同样的问题，sort后输出的文件中的中文都变成乱码，测试了很多方法都没有成功。chnp 65001没有任何用处

。看看有没有大佬们给与指导

TOP

ppll2030

三级士官

Rank: 3 Rank: 3

帖子: 175
积分: 249
技术: 21
捐助: 0
注册时间: 2023-9-27

3楼

发表于前天 21:35 | 只看该作者

回复 1# killer3k

chcp 65001是可以正常显示的，cmd窗口属性，换个字体就可以了。

TOP

killer3k

列兵

Rank: 1

帖子: 23
积分: 39
技术: 0
捐助: 0
注册时间: 2011-4-6

4楼

发表于前天 22:05 | 只看该作者

回复 3# ppll2030

刚又试了一下，还是没用。

TOP

delab-1

上等兵

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2024-8-15

5楼

发表于前天 22:41 | 只看该作者

回复 3# ppll2030

对sort而言，感觉仅仅写chnp=65001是肯定不行的

TOP

Five66

上尉

Rank: 5 Rank: 5

帖子: 751
积分: 1042
技术: 100
捐助: 0
注册时间: 2021-8-26

6楼

发表于前天 23:00 | 只看该作者

sort的/L参数大概是排序顺序，影响排出来的顺序，无效或许还没实现,只能是C？

chcp 65001时，要在cmd窗口里显示得设置字体，输出到文件可以不用设置字体，只是sortt输出时不知咋的utf8字符的某些字节码被转成问号(?)，会导致某些部分乱码，而输出文件的编码是无bom的utf8，文本编辑器打开这个文件时很大概率会将编码识别为ansi（简体中文下是gbk）

type是好像单纯以换行符做为分割点的来输出，输出的内容由cmd根据当前代码也来解读（例如936代码页时按gbk解读，65001代码页时按utf8解读）

finstr貌似不支持非英文的utf8（例如中文），因为asni英文和utf8英文是一样的

TOP

buyiyang

中尉

Rank: 5 Rank: 5

帖子: 415
积分: 781
技术: 116
捐助: 0
注册时间: 2022-3-26

7楼

发表于前天 23:14 | 只看该作者

sort的编码转换确实有问题，使用chcp 65001后将结果重定向到控制台可以正确显示，但有一些典型（没有显著编码特征）没有正确转码：比如“联通”“嘉峪关”等等；将结果重定向到文件无法正确显示，使用sort 1.txt | find /v "" 转码一下可以正确显示但也有前面的问题。

/L[OCALE] locale 微软帮助已经说得很清楚了，它默认按照本地语言环境进行自然语言排序和比较，要改的只能用locale C，C是按字符编码排序的，是唯一的。不同的语言环境的排序、日期、货币格式等都有一些不同，比如中文的zh_CN.GB2312给中文排序会按拼音排序，一些拉丁文的希腊字母会排在英文字母前面，一些欧洲文字不区分变体，等等。
说到拼音排序，其实前面提到的本地语言环境就已经规定了排序方式，是中文系统就是按拼音排序（文件资源管理器就是这样的），可以直接调用api，使用strCmpLogicalW函数，比如：

Add-Type @"
using System;
using System.Collections.Generic;
using System.Runtime.InteropServices;
public static class Localsort
{
    [DllImport("Shlwapi.dll", CharSet = CharSet.Unicode)]
    public static extern int StrCmpLogicalW(string p1, string p2);

    public static string[] Sort(string[] s)
    {
        Array.Sort(s, StrCmpLogicalW);
        return s;
    }
}
"@
$inputFile = "origin.txt"
$outputFile = "sorted.txt"

$lines = [IO.File]::ReadAllLines($inputFile)
$sortedLines = [Localsort]::Sort($lines)
[IO.File]::WriteAllLines($outputFile, $sortedLines, [Text.Encoding]::UTF8)
复制代码

TOP

ppll2030

三级士官

Rank: 3 Rank: 3

帖子: 175
积分: 249
技术: 21
捐助: 0
注册时间: 2023-9-27

8楼

发表于前天 23:26 | 只看该作者

回复 4# killer3k
回复 5# delab-1

我这边貌似没有问题，不过中文排序可能就不好用

TOP

delab-1

上等兵

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2024-8-15

9楼

发表于前天 23:39 | 只看该作者

回复 7# buyiyang

这个是C语言吧？能直接在批处理中调用吗？我这边不能测试

TOP

delab-1

上等兵

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2024-8-15

10楼

发表于前天 23:51 | 只看该作者

回复 7# buyiyang

利用chcp 65001和 sort temp.txt | find / ""组合后，会好很多，大部分中文会正常显示，但是依然会出现奇怪问好“？”等字符。
chcp 65001
sort /R temp.txt | find /v "" >list.txt
list.txt

通过上面的程序，很多中文都正确显示了，但是部分不行。例如，“以色列”，显示为“以色？？”

期待大家继续讨论，看看如何解决。

TOP

Five66

上尉

Rank: 5 Rank: 5

帖子: 751
积分: 1042
技术: 100
捐助: 0
注册时间: 2021-8-26

11楼

发表于昨天 00:59 | 只看该作者

本帖最后由 Five66 于 2024-10-5 01:21 编辑

可以试试用unicode，将txt编码保存为unicode（utf16-le）
又或者试试将utf8编码的txt每一行都放进带前缀的变量里，然后：set 前缀|sort
不过建议最好放弃，就如之前（6楼）说的那样，sort不完全支持utf8，用powershel吧，虽然慢了点，但是里面的sort排序结果跟这个sort也差不多，，可以自行指定编码，也可以自定义排序规则

TOP

flashercs

少校

Rank: 6 Rank: 6

帖子: 1197
积分: 2094
技术: 256
捐助: 0
注册时间: 2017-3-20

12楼

发表于昨天 11:59 | 只看该作者

排序跟编码没有关系,只跟Locale有关系,因为排序时比较的都是Unicode字符;只是sort.exe不支持utf-8,会乱码.
系统 "区域和语言"中可以修改中文排序方式,按照拼音或笔画
中文简体LocaleId是2052,在同样是2052的情况下,排序算法有可能不同.
Windows自带的.sort.exe跟powershell.exe的排序算法是一致的,中文排序是按拼音排序的,跟系统 "区域和语言"设置的排序无关.

#
$
@
_
0
1
2
3
a
b
c
d
e
f
啊a
吧b
从c
的d
额e
发f
复制代码

pwsh.exe排序与之不同,1.中文在英文字母前面;2.中文排序跟系统 "区域和语言" 设置的排序规则有关系.
按拼音排序

_
@
#
$
0
1
2
3
啊a
吧b
从c
的d
额e
发f
a
b
c
d
e
f
复制代码

按笔画排序

_
@
#
$
0
1
2
3
从c
发f
吧b
的d
啊a
额e
a
b
c
d
e
f
复制代码

通过比较发现,原来.NET Framework与.NET Core的排序版本不同,后者版本更高.
又发现浏览器JavaScript的string对象的方法localCompare(str2,?locale,?option)可以指定locale,当locale=='zh-cn'时,排序结果与.NET Core版本一致.这说明 Core版本的CompareInfo的版本是最新版.

1 评分人数

77七: 感谢分享技术 + 1

微信:flashercs
QQ:49908356

TOP

aloha20200628

上尉

Rank: 5 Rank: 5

帖子: 752
积分: 1274
技术: 169
捐助: 0
注册时间: 2021-10-13

13楼

发表于昨天 16:05 | 只看该作者

本帖最后由 aloha20200628 于 2024-10-5 21:11 编辑

回复 1# killer3k

能够完好排序包含中文字符的utf-8编码文件的一个可选方案，已在win8.1系统测试通过...》
一。从本坛第三方下载 sort v7.6 (http://bcn.bathome.net/s/tool/index.html?key=sort) 命名其为 sort76.exe 使用
二。切换至65001码页，设置一个环境变量 set "lc_all=c"，运行 sort76.exe "in_u8.txt" -o "out_u8.txt"，其排序结果须输出到文件，示例代码如下

chcp 65001>nul&set "lc_all=c"
sort76.exe "in_u8.txt" -o "out_u8.txt"
复制代码

三。输出文件继承源文件的换行符格式，如要转换结果文件的unix换行符为pc换行符，可用如下代码（其中 sed.exe 可从本坛第三方下载 http://bcn.bathome.net/s/tool/index.html?key=sed）

set "lc_all=" &sed.exe "s/\r/\r\n/g" "out_u8.txt" -o "out_u8.new.txt"
复制代码

测试文件 in_u8.txt 如下，用utf-8编码保存：

D:\music\@artists\Thaïs, Act II：Méditation.mp3
D:\music\@artists\魂縈舊夢 Endless Dreams.flac
D:\music\@artists\沉思 (Deep Thought).flac
D:\music\@artists\Csárdás.mp3
复制代码

TOP

killer3k

列兵

Rank: 1

帖子: 23
积分: 39
技术: 0
捐助: 0
注册时间: 2011-4-6

14楼

发表于昨天 19:08 | 只看该作者

回复 7# buyiyang

我不懂编程，你写的内容太高深了。

但这几天看了不少相关文章，感觉你说的是对的，windows下可以直接高API或其它我也不知道叫啥名的术语。但是有很多程序，不光是外国的，就算是国产的，也不按这个来啊，就是单纯按unicode码表的顺序排。
另外，我看有些讨论怎么按拼音排序来编程的文章，都说要先做一个拼音库，感觉很奇怪，为什么不用现成的呢？比如说notepad2那么小个外国软件，无论是ansi还是utf8下都可以按拼音排序，那么他怎么可能去做一个拼音库呢？
还有，这几天查了后才知道，GB2312中只有一级汉字是按拼音来排序，二级汉字是按笔划还是偏旁来排的。GBK完全兼容GB2312，那么同样只有GB2312中的一级汉字是按拼音排序。

TOP

killer3k

列兵

Rank: 1

帖子: 23
积分: 39
技术: 0
捐助: 0
注册时间: 2011-4-6

15楼

发表于昨天 19:10 | 只看该作者

回复 8# ppll2030

又试了几次，还是不行，cp936下有点阵和新宋两种可设，cp65001下有三种字体可设，都不行。会不会是因为我还在用win7的原因呢？

TOP

12 下一页

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] sort能正确处理utf-8格式的文本吗？ /L[OCALE] locale 这个参数怎么用？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]