标题:
【取消】150元求xml转xhtml
[打印本页]
作者:
lxh623
时间:
2023-4-26 11:04
标题:
【取消】150元求xml转xhtml
本帖最后由 lxh623 于 2023-4-27 17:53 编辑
链接:
https://pan.baidu.com/s/1X0DhWjKifrjYN79TUaVrtA?pwd=esp1
提取码:esp1
首先是上传的文件夹。里面是epub的解包文件夹。另外有xml文件夹。还有三个文本。
当初,epub制作者没有打算嵌入梵文,所以,只留下罗马字符(转换就有同音字一样的问题)。而且,不知道什么原因,字符乱跳了。所以,想用xml直接转xhtml,不会有前述两个问题。
乱跳的例子。J:\大藏经修改\epub解包后\F1071\OEBPS/002.xhtml中的尒野,应该是后面有一个嚕,跑到前面去了。
B0023_003.xml对应于J:\大藏经修改\epub解包后\B0023\OEBPS\juans\003.html。两个可以互相参照,但是前面三个文件夹,有部分替换。
文件头很长,这个倒是可以自己删除。就是保留<body>后面的,但是,需要重新加入文件头。
类似于<lb ed="F" n="0006a01"/>是代表行号吧。0006是段落号。希望段落内部的转行删除。
类似于<note n="0006a1301" resp="CBETA" type="add">微【CB】,<unclear></unclear>【房山】</note>的,epub好像没有采纳,我倒是觉得可行。他是标注corr。
<rdg wit="【房山】"><unclear></unclear></rdg>,epub好像没有采纳。
里面有些note,替换之后好像加了括号。
我自己设想txt有三种,汉字txt_1,汉字难字txt_2,梵文txt_3。
http://www.bathome.net/thread-65828-1-1.html
,这里是txt_1的最初处理办法。上传的三个文本,分别是汉字1(难字),首先可以替换,汉字2(难字)随后再来替换。替换梵文。
不好意思,也许不一定表达完全。
不知道能不能做到?
谢谢!
作者:
jyswjjgdwtdtj
时间:
2023-4-26 17:22
问题是你要干啥呢?
这样 你说xml的格式是什么
对应的xhtml格式是什么
作者:
lxh623
时间:
2023-4-27 07:08
问题是你要干啥呢?
这样 你说xml的格式是什么
对应的xhtml格式是什么
jyswjjgdwtdtj 发表于 2023-4-26 17:22
这个xml242个,因为这里面梵文不只是罗马字,所以,最后可以显示梵文。而且,避免有些字乱跳的问题。
就是打算替换包里面的xhtml,格式大体一致就差不多。要求能够打包成为epub。
作者:
jyswjjgdwtdtj
时间:
2023-4-27 17:03
回复
3#
lxh623
那问题又来了 能把打包成epub的xhtml格式是什么呢?
欢迎光临 批处理之家 (http://www.bathome.net/)
Powered by Discuz! 7.2