- 帖子
- 975
- 积分
- 1656
- 技术
- 222
- 捐助
- 0
- 注册时间
- 2021-10-13
|
本帖最后由 aloha20200628 于 2024-9-26 12:13 编辑
去年至今已有但多帖是从网页数据中提取指定字段的题型,本来可以用 vbs/jscript/powershell 先将网页经过 xml 格式转换工具处理,再按字段名批量提取,但此法要求源网页格式须严格符合 xml 规范,故对大量没有严格‘守法’的网页容易出现兼容性问题,对此还真不如 findstr+for/f 组合版来的简明痛快,即先用 findstr 小正则‘粗洗’网页,再用 for/f ‘精切’ 字段,findstr 的正则匹配度越高,留给批处的处理量就越少,for/f 分割器的切口越准,提取目标字段的效率越高 ... 当然此法也有短处,一旦遭遇数据行长度超过8k字符量的实况就会‘罢工’。 |
|