扫描版PDF文档转文本方法
很多pdf文档是扫描版的,也就是图片,无法提取文字,使用很不方便。通过结合以下两个利器可以很方便的把pdf转为文本。
1. 把pdf文档转为多张图片
可以通过XpdfReader工具把pdf文档转为一组图片。
假设要把1.pdf转为一组jpg图片,放到test目录下。可以使用以下命令:
|
|
下载地址:https://www.xpdfreader.com/download.html
2. 通过OCR识别图片中的文字
使用谷歌的OCR识别工具tesseract把文字提取出来。
把图片1.jpg转为文字保存在1.txt中,可以使用以下命令:
|
|
后面的参数 -l chi_sim表示要转换的文字是中文。
如果想一次转换很多张图片,可以把要转换的图片文件路径写入到一个文本文件中,比如in.txt:
|
|
使用以下命令一次性全部转换保存到out.txt中:
|
|
下载地址:https://github.com/tesseract-ocr/tesseract
搞定,收工,如有疑问或建议欢迎留言讨论。