编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

利用开源pdf阅读器SumatraPDF抽取文本(1)

wxchong 2024-06-13 03:31:12 开源技术 15 ℃ 0 评论

1, 下载源代码 https://github.com/sumatrapdfreader/sumatrapdf

https://gitee.com/mirrors/SumatraPDF?utm_source=alading&utm_campaign=repo

https://www.sumatrapdfreader.org/free-pdf-reader.html

以上三个网址任选一种

2,编译代码,我本地用的vs 2019

3,如果是想导到xml中(这个xml包括每页的简单信息,及每页中的文本,具体参照以下截图),可以直接用内部工程:enginedump , 此工程可以直接将pdf内容dump到指定的文件中,具体用法:

图中红框指定函数是具体的导出函数,我们只需要在些函数中把输出重定向到了一个xml文件即可,例如我想将pdf导出到test.xml中,只需要加以下代码即可:


这样就能将pdf导出至test.xml,那么具体test.xml具体导出来是个啥样的呢,上图:

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表