返回列表发帖

namejm

荣誉版主

Rank: 8 Rank: 8

帖子: 1348
积分: 5192
技术: 145
捐助: 501
注册时间: 2007-10-25

1楼 跳转到 » 正序看帖

打印

字体大小: tT

发表于 2011-7-1 01:25 | 只看该作者

[文本处理] findstr的正则表达式无法以字符类别的方式提取含有中文状态下的短横杠字符？

假设有test.txt的内容如下：

abc-def
123—456

注意：第二行的短横线是在中文输入法状态下输入的
用

findstr "—" test.txt
复制代码

可以搜索到第2行内容
换成：

findstr "[—]" test.txt
复制代码

这种按照字符类别的方式没法搜索到第2行内容
莫非又是findstr的一个bug？

尺有所短寸有所长，学好批处理没商量；
考虑问题复杂化，解决问题简洁化。
心在天山，身老沧州。

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18843
技术: 982
捐助: 100
注册时间: 2010-10-9

4楼

发表于 2011-7-1 13:47 | 只看该作者

莫非 findstr 不是匹配字节的？看来以前的观点碰到反例了
而且试了下，应该和字符集有关，刚刚做了个实验发现在 437 代码页下 find 命令可以匹配半个宽字节，而 findstr 依然不行，在 936 下则都无效

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

TOP

Demon

上尉

Rank: 5 Rank: 5

帖子: 766
积分: 1451
技术: 117
捐助: 0
注册时间: 2010-5-12

3楼

发表于 2011-7-1 11:55 | 只看该作者

同意LS，findstr把双字节当单字节对待了

http://demon.tw

TOP

mxxcgzxxx

中尉

Rank: 5 Rank: 5

帖子: 327
积分: 755
技术: 38
捐助: 0
注册时间: 2011-3-17

2楼

发表于 2011-7-1 07:14 | 只看该作者

本帖最后由 mxxcgzxxx 于 2011-7-1 07:17 编辑

我也试验了一下，应该是无法在字符集内使用双字节的原因

@echo off
:1
set/p p=
echo %p%|findstr "^[—]">nul||echo —
echo %p%|findstr "你好">nul||echo 你好
echo %p%|findstr "[你]">nul||echo 你
pause>nul
goto :1
复制代码

只有"你好"有效，而[—][你]都是无效的，就像[123]并不是识别为123，而是识别为1，2，3一样，所以无法识别做为双字节的中文及中文符号

世界上没有学不会的知识,也没有想得到却做不到的事!

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] findstr的正则表达式无法以字符类别的方式提取含有中文状态下的短横杠字符？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]