Board logo

标题: [文本处理] [已解决]用 gawk (或其他第三方)能否实现这个需求 [打印本页]

作者: hnfeng    时间: 2024-5-27 13:03     标题: [已解决]用 gawk (或其他第三方)能否实现这个需求

本帖最后由 hnfeng 于 2024-5-28 07:18 编辑

源文件是 UTF-8 格式,里面有下面字符,其中 PROFILENAME 是唯一,可作为定位
  1. ……其他一些字符
  2. Content-Type: text/plain;
  3. charset="utf-8"
  4. PROFILENAME,2.28_Jun_i2K,成功
  5. 2024-05-27 11:11:49,2024-05-27 11:14:28
  6. 2024-05-27 11:15:23,2024-05-27 11:15:26
  7. ……其他一些字符
复制代码
想提取出来所需内容到一个文本文件(ansi, utf-8 都行):
  1. 2.28_Jun_i2K
  2. 2024-05-27 11:11:49
  3. 2024-05-27 11:14:28
  4. 2024-05-27 11:15:23
  5. 2024-05-27 11:15:26
复制代码
gawk 功能强大,能否实现?谢谢
作者: hnfeng    时间: 2024-5-27 13:05

  1. gawk64.exe -F"," "/PROFILENAME/ {print $2}" "test.eml"
复制代码
可提取 2.28_Jun_i2K,但是跨行的数据怎么提取
作者: newswan    时间: 2024-5-27 13:52

  1. /PROFILENAME/{f=1} f{print $2}
复制代码

作者: ShowCode    时间: 2024-5-27 14:05

回复 1# hnfeng
  1. gawk -F "," "/PROFILENAME/,/^$/{print $1; print $2}" 1.txt | findstr /v "PROFILENAME" > 2.txt
复制代码

作者: hnfeng    时间: 2024-5-27 14:35

gawk -F "," "/PROFILENAME/,/^$/{print $1; print $2}" 1.txt | findstr /v "PROFILENAME" > 2.txt



    完美,高手啊。多谢多谢

想学习 gawk 的使用方法,请问哪里有较好的资料?
作者: hfxiang    时间: 2024-5-27 19:35

回复 5# hnfeng
awk相关学习资,如《AWK Tutorial Guide 中文版.pdf》、《O'Reilly sed & awk 2nd Edition中文高清修订第3版.pdf》等,见:
http://bbs.bathome.net/thread-13203-1-1.html
作者: hnfeng    时间: 2024-5-27 21:54

回复  hnfeng
awk相关学习资,如《AWK Tutorial Guide 中文版.pdf》、《O'Reilly sed & awk 2nd Edition中 ...
hfxiang 发表于 2024-5-27 19:35


谢谢。学习学习……
虽然看上去有点旧,是 1983年的,但基本功能应该差不多
作者: hfxiang    时间: 2024-5-28 10:41

回复 1# hnfeng
用sed( http://bcn.bathome.net/tool/4.9/sed.exe )实现脚本如下:
  1. sed -r -n "/^PROFILENAME/,/^[ \t]*$/{/^PROFILENAME/{s/^.*,(.+),.+$/\1/p};/^[0-9]{4}-[0-9]{2}-[0-9]{2}/s/,/\n/p}" test.eml>out.eml
复制代码





欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2