Board logo

标题: [文件操作] [已解决]批处理有没有办法统计出多页PDF的页数呢? [打印本页]

作者: 001011    时间: 2015-9-16 11:15     标题: [已解决]批处理有没有办法统计出多页PDF的页数呢?

有很多PDF,都是多页的(也就是说一个pdf文件里面含有多张图)。有没有办法统计出N个PDF的所有页数呢?
比如:有01.PDF(含5张图)、02.PDF(含22张图)、03.PDF(含38张图)  都放到   E:\统计   里面
然后统计出:有三个PDF共含65张图
谢谢
作者: pcl_test    时间: 2015-9-16 16:04

利用网上所说的标识统计法
保存为批处理文件,跟pdf文件放在一起运行
  1. @echo off 2>nul 3>nul
  2. ::需要安装.Net Framework 2.0及以上
  3. ::指定父文件夹
  4. set "fd=E:\统计"
  5. if not exist "%fd%" echo;路径有误&pause&exit
  6. set "netpath=%systemroot%\Microsoft.NET\Framework"
  7. for /f "delims=" %%a in ('dir /ad /b "%netpath%\v?.*"') do (
  8.     if exist "%netpath%\%%a\csc.exe" (
  9.         set "cscpath=%netpath%\%%a\csc.exe"
  10.         goto :0
  11.     )
  12. )
  13. echo;未安装.Net Framework 2.0及以上组件或相关程序丢失&pause&exit
  14. :0
  15. >"%tmp%\$" more +20 "%~f0"
  16. "%cscpath%" /out:"%tmp%\$getpages.exe" "%tmp%\$"
  17. echo;正在统计,稍后……
  18. ::输出到txt文件,下句修改为 >"文本.txt" "%tmp%\$getpages.exe" "%fd%"
  19. "%tmp%\$getpages.exe" "%fd%"
  20. pause&exit
  21. using System;
  22. using System.IO;
  23. using System.Text.RegularExpressions;
  24. namespace GetPages
  25. {
  26.     class PDFPageCount
  27.     {
  28.         static void Main(string[] args)
  29.         {
  30.             int i=0,s=0;
  31.             String path = args[0].ToString();
  32.             String[] files = Directory.GetFiles(path, "*.pdf", SearchOption.AllDirectories);
  33.             foreach (string file in files)
  34.             {
  35.                 FileStream fs = new FileStream(file, FileMode.Open, FileAccess.Read);
  36.                 StreamReader sr = new StreamReader(fs);
  37.                 string pdfText = sr.ReadToEnd();
  38.                 Regex regexp = new Regex(@"/Type\s*/Page[^s]");
  39.                 MatchCollection matches = regexp.Matches(pdfText);
  40.                 i++;
  41.                 s+=matches.Count;
  42.                 Console.WriteLine(file+"\t"+matches.Count);
  43.             }
  44.             Console.WriteLine("----------------------\r\n"+i+" Files\t"+s+" Pages");
  45.         }
  46.     }
  47. }
复制代码

作者: 001011    时间: 2015-9-16 16:42

不知道能不能加一个路径上去   这样可以统计一个文件夹下的所有PDF文件  谢谢
作者: pcl_test    时间: 2015-9-16 17:04

回复 3# 001011

每个文件夹单独统计?还是所有文件夹一起统计?
作者: 001011    时间: 2015-9-16 17:10

所有文件夹一起统计 谢谢
作者: CrLf    时间: 2015-9-16 17:30

回复 2# pcl_test


    这样都可以!!!卧槽!!!卧槽!!!!!
作者: pcl_test    时间: 2015-9-16 17:38

回复 5# 001011

已修改
作者: CrLf    时间: 2015-9-16 17:44

研究了一下,原来 pdf 是基于 postscript,那也可以用 grep、findstr 之类的工具实现
  1. grep -c "Type\s*/Page" *.pdf
复制代码
然后将结果减一即可

不过我好奇的是,严格来讲,如果 pdf 里包含 Type/Page 会怎样呢?
作者: 001011    时间: 2015-9-16 18:05

我貌似遇到高人了啊
连巡查都   卧槽!!!卧槽!!!!!
呵呵
非常感谢高人啊
作者: 001011    时间: 2015-9-16 18:07

只是执行效率有点低   257个PDF 快三分钟了  还没有执行完
我准备把10多万个的PDF  全部统计一遍呢
作者: 001011    时间: 2015-9-16 18:19

貌似是识别完了  没有提示
作者: 回家路上    时间: 2015-9-16 18:25

是啊,PDF没有自带个页数的属性呢,这样通过文本正则解析提取,如果pdf大的话,确实费时。
但能提取就已经是惊喜了。
作者: 001011    时间: 2015-9-16 18:29

呵呵 也是啊
作者: a6236130    时间: 2019-8-9 11:18

为什么没有文本.txt生成出来?我都找过了




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2