返回列表 发帖
回复 1# lxh623
function getDic() {
param(
[string]$filename
)
$f1 = Get-Content -Encoding UTF8 ( $filename + ".xhtml" )
$f2 = $f1 -join "`n"
$f3 = $f2 -replace '(<span class="text_3">[^<>]+</span><span class="text_1">[(][^()]+[)]</span>)',"`n`$1`n" -split "`n"
$f4 = $f3 -match "text_3"
$f5 = $f4 -replace "<[^<>]+>",""
$f5 | Out-File -Encoding utf8 ( $filename + ".txt" )
}
getDic ".\juans\F28n1071_005"
getDic ".\juans\005"COPY
提取 text_3 text_1 里的字符
怎么替换 005 没明白

TOP

用 xx_00x 里的
<span class="text_3">[^<>]+</span>COPY
替换
00x 里的
<span class="text_3">[^<>]+</span>COPY
按顺序,5个一组

TOP

本帖最后由 newswan 于 2023-4-19 16:42 编辑

"\梵文\${key}_00x.xhtml" "\${epub解包}\juans\00x.xhtml" 两个文件夹里面的文件怎么对应的?

比如 "\梵文\F28n1071_003.xhtml" 和 哪个 "\${epub解包}\juans\003.xhtml" 对应的?
${epub解包} 的实际名字是 "F1071 釋教最上乘秘密藏陀羅尼集" ,怎么和 F28n1071 对应上?

要么把对应的文件放一起,打包

而且,2楼对应两个文件,过滤后,行数不同

TOP

返回列表