批处理之家 - Powered by Discuz! Board

标题: 【取消】150元求xml转xhtml [打印本页]

作者: lxh623 时间: 2023-4-26 11:04 标题: 【取消】150元求xml转xhtml

本帖最后由 lxh623 于 2023-4-27 17:53 编辑

链接：https://pan.baidu.com/s/1X0DhWjKifrjYN79TUaVrtA?pwd=esp1
提取码：esp1
首先是上传的文件夹。里面是epub的解包文件夹。另外有xml文件夹。还有三个文本。
当初，epub制作者没有打算嵌入梵文，所以，只留下罗马字符（转换就有同音字一样的问题）。而且，不知道什么原因，字符乱跳了。所以，想用xml直接转xhtml，不会有前述两个问题。
乱跳的例子。J:\大藏经修改\epub解包后\F1071\OEBPS/002.xhtml中的尒野，应该是后面有一个嚕，跑到前面去了。
B0023_003.xml对应于J:\大藏经修改\epub解包后\B0023\OEBPS\juans\003.html。两个可以互相参照，但是前面三个文件夹，有部分替换。
文件头很长，这个倒是可以自己删除。就是保留<body>后面的，但是，需要重新加入文件头。
类似于<lb ed="F" n="0006a01"/>是代表行号吧。0006是段落号。希望段落内部的转行删除。
类似于<note n="0006a1301" resp="CBETA" type="add">微【CB】，<unclear></unclear>【房山】</note>的，epub好像没有采纳，我倒是觉得可行。他是标注corr。
<rdg wit="【房山】"><unclear></unclear></rdg>，epub好像没有采纳。
里面有些note，替换之后好像加了括号。
我自己设想txt有三种，汉字txt_1，汉字难字txt_2，梵文txt_3。http://www.bathome.net/thread-65828-1-1.html，这里是txt_1的最初处理办法。上传的三个文本，分别是汉字1（难字），首先可以替换，汉字2（难字）随后再来替换。替换梵文。
不好意思，也许不一定表达完全。

不知道能不能做到？
谢谢！

作者: jyswjjgdwtdtj 时间: 2023-4-26 17:22

问题是你要干啥呢？
这样你说xml的格式是什么
对应的xhtml格式是什么

作者: lxh623 时间: 2023-4-27 07:08

问题是你要干啥呢？
这样你说xml的格式是什么
对应的xhtml格式是什么
jyswjjgdwtdtj 发表于 2023-4-26 17:22

这个xml242个，因为这里面梵文不只是罗马字，所以，最后可以显示梵文。而且，避免有些字乱跳的问题。
就是打算替换包里面的xhtml，格式大体一致就差不多。要求能够打包成为epub。

作者: jyswjjgdwtdtj 时间: 2023-4-27 17:03

回复 3# lxh623

那问题又来了能把打包成epub的xhtml格式是什么呢？

欢迎光临批处理之家 (http://www.bathome.net/)