Board logo

标题: [完成]40元从xml提取数据 [打印本页]

作者: lxh623    时间: 2020-6-22 14:56     标题: [完成]40元从xml提取数据

本帖最后由 lxh623 于 2020-6-23 10:17 编辑

文件夹下有多级子文件夹。总共有近两万个xml文件。附件是例子。来源于大藏经,CBReader 。
比如:
  1. <char xml:id="CB04865">
  2. <charName>CBETA CHARACTER CB04865</charName>
  3. <charProp>
  4. <localName>composition</localName>
  5. <value>[目*丐]</value>
  6. </charProp>
  7. <charProp>
  8. <localName>normalized form</localName>
  9. <value>眄</value>
  10. </charProp>
  11. <mapping type="normal_unicode">U+7704</mapping>
  12. <mapping cb:dec="987905" type="PUA">U+F1301</mapping>
  13. </char>
复制代码
也没有全部研究,大约有五个字段。CBETA CHARACTER、composition、normalized form、unicode、PUA。
想把字段提取到excel。主要的问题是,后面三个字段不是每一个字都有。(提取不到,可以写为0 。)
如果做成制表符分隔的文本,最好是unicode编码。因为汉字的原因。
谢谢!


链接:https://pan.baidu.com/s/1msOq72fmUsI7vrmrU2bTKw
提取码:qfyg
复制这段内容后打开百度网盘手机App,操作更方便哦
作者: zaqmlp    时间: 2020-6-22 15:35

  1. <# :
  2. cls
  3. @echo off
  4. cd /d "%~dp0"
  5. powershell -NoProfile -ExecutionPolicy bypass "Invoke-Command -ScriptBlock ([ScriptBlock]::Create([IO.File]::ReadAllText('%~f0',[Text.Encoding]::Default))) -Args '%~dp0'"
  6. pause
  7. exit
  8. #>
  9. $path=$args[0];
  10. $outfile=$path+'#result.csv';
  11. $enc=[Text.Encoding]::UTF8;
  12. $fs=New-Object System.IO.FileStream($outfile, [System.IO.FileMode]::Create);
  13. $sw=New-Object System.IO.StreamWriter($fs, $enc);
  14. $files=@(dir -liter $path -recurse|?{('.xml' -eq $_.Extension) -and ($_ -is [System.IO.FileInfo])});
  15. for($i=0;$i -lt $files.length;$i++){
  16.     write-host $files[$i].FullName;
  17.     $text=[IO.File]::ReadAllText($files[$i].FullName, $enc);
  18.     $m1=[regex]::matches($text, '<char xml:id="[^"]*?">([\s\S]+?)</char>');
  19.     if($m1.count -ge 1){
  20.         foreach($k in $m1){
  21.             $arr=@('','','','','');
  22.             $a=[regex]::match($k.groups[1].value,'[^>]+(?=</charName>)');
  23.             if($a.success){$arr[0]=$a.groups[0].value;};
  24.             $b=[regex]::match($k.groups[1].value,'composition</localName>\s*?<value>([\s\S]+?)</value>');
  25.             if($b.success){$arr[1]='"'+$b.groups[1].value+'"';};
  26.             $c=[regex]::match($k.groups[1].value,'normalized form</localName>\s*?<value>([\s\S]+?)</value>');
  27.             if($c.success){$arr[2]='"'+$c.groups[1].value+'"';};
  28.             $d=[regex]::match($k.groups[1].value,'<mapping type="[^"]*?unicode">([\s\S]+?)</mapping>');
  29.             if($d.success){$arr[3]=$d.groups[1].value;};
  30.             $e=[regex]::match($k.groups[1].value,'type="PUA">([\s\S]+?)</mapping>');
  31.             if($e.success){$arr[4]=$e.groups[1].value;};
  32.             $line=$arr -join ',';
  33.             $sw.WriteLine($line);
  34.             $sw.Flush();
  35.         };
  36.     };
  37. };
  38. $sw.Close();
  39. $fs.Close();
复制代码

作者: lxh623    时间: 2020-6-22 16:11

本帖最后由 lxh623 于 2020-7-7 15:06 编辑

回复 2# zaqmlp
请查收!
如果想得到下面的字段,怎么操作。谢谢!
<mapping type="PUA" cb:dec="983109">U+F0045</mapping>
作者: WHY    时间: 2020-6-22 23:24

本帖最后由 WHY 于 2020-6-27 13:41 编辑

Test.js
  1. var srcDir = 'E:/Test/X42';  //存放xml的文件夹
  2. var dstFile = 'result.csv';  //输出csv文件名
  3. var out = [];  
  4. var xml = new ActiveXObject('Microsoft.XMLDOM');
  5. var fso = new ActiveXObject('Scripting.FileSystemObject');
  6. var getXMLData = function(fp) {
  7.     xml.load(fp);
  8.     var reg = /<value>([^<>]*)</g;
  9.     var arr = xml.selectNodes('//char'), Len = arr.length;
  10.     for(var i=0; i<Len; i++){
  11.         var s = arr[i].xml;
  12.         var a = ['0', ['0', '0'], '0', '0'];
  13.         var m = s.match(/<charName>([^<>]*)</);
  14.         if(m) a[0] = '"' + m[1] + '"';
  15.    
  16.         var j = 0;
  17.         while( m = reg.exec(s) ) a[1][j++] = '"' + m[1] + '"';
  18.    
  19.         var m = s.match(/[_"]unicode">([^<>]*)</);
  20.         if(m) a[2] = '"' + m[1] + '"';
  21.    
  22.         var m = s.match(/"PUA">([^<>]*)</);
  23.         if(m) a[3] = '"' + m[1] + '"';
  24.         
  25.         out.push( a.join(',') );
  26.     }
  27. }
  28. var writeToCsv = function(dstFile) {
  29.     var ado = new ActiveXObject('ADODB.Stream');
  30.     ado.Mode = 3;
  31.     ado.Type = 2;
  32.     ado.Charset = 'utf-8';
  33.     ado.Open();
  34.     ado.WriteText(out.join('\r\n'));
  35.     ado.SaveToFile(dstFile, 2);
  36. }
  37. var getXmlFile = function(fd){
  38.     var e1 = new Enumerator(fso.getFolder(fd).Files);
  39.     var e2 = new Enumerator(fso.getFolder(fd).SubFolders);
  40.     for(; !e1.atEnd(); e1.moveNext()){
  41.         var fp = e1.item().Path;
  42.         if( !/\.xml$/i.test(fp) ) continue;
  43.         getXMLData(fp);
  44.     }
  45.     for(; !e2.atEnd(); e2.moveNext())getXmlFile(e2.item().Path) ; //递归遍历子目录
  46. }
  47. getXmlFile(srcDir);
  48. writeToCsv(dstFile);
  49. WSH.Echo('Done');
复制代码
out.push(a) 效率非常低,改为 out.push(a.join(','))
贴一个不用正则的办法:
  1. $srcDir = 'E:\Test\X42';
  2. $dstFile = 'Result.CSV';
  3. $fsw = New-Object System.IO.StreamWriter($dstFile, $false, [Text.Encoding]::UTF8);
  4. $files = dir -Literal $srcDir -Filter '*.xml' -Recurse -File;
  5. $count = $files.Count;
  6. for($i=0; $i -lt $count; $i++) {
  7.     [xml]$xml = [IO.File]::ReadAllLines($files[$i].FullName, [Text.Encoding]::UTF8);
  8.     $node = $xml.GetElementsByTagName('char');
  9.     $Len  = $node.Count;
  10.     for($j=0; $j -lt $Len; $j++){
  11.         $arr      = @('0', '0', '0', '0', '0');
  12.         $charName = $node[$j].charName;
  13.         $value    = @( $node[$j].charProp.Value );
  14.         $type     = @( $node[$j].mapping.type );
  15.         $text     = @( $node[$j].mapping.innerText );
  16.         if( $charName -ne $null ) { $arr[0] = '"' + $charName + '"'; }
  17.         for($k=0; $k -lt 2; $k++) {
  18.             if( $value[$k] -ne $null ) { $arr[1+$k] = '"' + $value[$k] + '"'; }
  19.             if( $type[$k] -ne $null ) {
  20.                 if( $type[$k].EndsWith('unicode') ){ $arr[3] = '"' + $text[$k] + '"'; }
  21.                 if( $type[$k] -eq 'PUA' ) { $arr[4] = '"' + $text[$k] + '"'; }
  22.             }
  23.         }
  24.         $fsw.WriteLine( $arr -join  ',' );
  25.     }
  26.     if($i % 1000 -eq 0 ) { $fsw.Flush(); }
  27. }
  28. $fsw.Flush();
  29. $fsw.Close();
  30. pause
复制代码





欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2