- 帖子
- 418
- 积分
- 811
- 技术
- 2
- 捐助
- 0
- 注册时间
- 2008-11-24
|
【取消】150元求xml转xhtml
本帖最后由 lxh623 于 2023-4-27 17:53 编辑
链接:https://pan.baidu.com/s/1X0DhWjKifrjYN79TUaVrtA?pwd=esp1
提取码:esp1
首先是上传的文件夹。里面是epub的解包文件夹。另外有xml文件夹。还有三个文本。
当初,epub制作者没有打算嵌入梵文,所以,只留下罗马字符(转换就有同音字一样的问题)。而且,不知道什么原因,字符乱跳了。所以,想用xml直接转xhtml,不会有前述两个问题。
乱跳的例子。J:\大藏经修改\epub解包后\F1071\OEBPS/002.xhtml中的尒野,应该是后面有一个嚕,跑到前面去了。
B0023_003.xml对应于J:\大藏经修改\epub解包后\B0023\OEBPS\juans\003.html。两个可以互相参照,但是前面三个文件夹,有部分替换。
文件头很长,这个倒是可以自己删除。就是保留<body>后面的,但是,需要重新加入文件头。
类似于<lb ed="F" n="0006a01"/>是代表行号吧。0006是段落号。希望段落内部的转行删除。
类似于<note n="0006a1301" resp="CBETA" type="add">微【CB】,<unclear></unclear>【房山】</note>的,epub好像没有采纳,我倒是觉得可行。他是标注corr。
<rdg wit="【房山】"><unclear></unclear></rdg>,epub好像没有采纳。
里面有些note,替换之后好像加了括号。
我自己设想txt有三种,汉字txt_1,汉字难字txt_2,梵文txt_3。http://www.bathome.net/thread-65828-1-1.html,这里是txt_1的最初处理办法。上传的三个文本,分别是汉字1(难字),首先可以替换,汉字2(难字)随后再来替换。替换梵文。
不好意思,也许不一定表达完全。
不知道能不能做到?
谢谢! |
|