Board logo

标题: [文本处理] findstr的正则表达式无法以字符类别的方式提取含有中文状态下的短横杠字符? [打印本页]

作者: namejm    时间: 2011-7-1 01:25     标题: findstr的正则表达式无法以字符类别的方式提取含有中文状态下的短横杠字符?

假设有test.txt的内容如下:
abc-def
123—456

注意:第二行的短横线是在中文输入法状态下输入的
  1. findstr "—" test.txt
复制代码
可以搜索到第2行内容
换成:
  1. findstr "[—]" test.txt
复制代码
这种按照字符类别的方式没法搜索到第2行内容
莫非又是findstr的一个bug?
作者: mxxcgzxxx    时间: 2011-7-1 07:14

本帖最后由 mxxcgzxxx 于 2011-7-1 07:17 编辑

我也试验了一下,应该是无法在字符集内使用双字节的原因
  1. @echo off
  2. :1
  3. set/p p=
  4. echo %p%|findstr "^[—]">nul||echo —
  5. echo %p%|findstr "你好">nul||echo 你好
  6. echo %p%|findstr "[你]">nul||echo 你
  7. pause>nul
  8. goto :1
复制代码
只有"你好"有效,而[—][你]都是无效的,就像[123]并不是识别为123,而是识别为1,2,3一样,所以无法识别做为双字节的中文及中文符号
作者: Demon    时间: 2011-7-1 11:55

同意LS,findstr把双字节当单字节对待了
作者: CrLf    时间: 2011-7-1 13:47

莫非 findstr 不是匹配字节的?看来以前的观点碰到反例了
而且试了下,应该和字符集有关,刚刚做了个实验发现在 437 代码页下 find 命令可以匹配半个宽字节,而 findstr 依然不行,在 936 下则都无效




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2