编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

AI革新OCR:LLM-Aided OCR,让PDF文本提取飞起来!

wxchong 2024-09-12 21:55:15 开源技术 19 ℃ 0 评论

大家好!今天要给大家带来一个令人振奋的消息——一款名为LLM-Aided OCR的开源工具,它刚刚开源就吸引了13000人围观。这不仅仅是一个OCR工具,更是一个能够将PDF文件转化为清晰、准确Markdown文档的神器!



项目简介:AI与OCR的完美结合

LLM-Aided OCR,一个基于多模态大语言模型(LLM)的开源OCR工具,它用AI的魔法,将扫描版PDF文本转换成格式正确、易于阅读的Markdown文档。这不再是简单的文字识别,而是一场精度与排版的革命。

高效的PDF文本提取流程:从模糊到清晰

LLM-Aided OCR的处理流程简洁而高效,只需几个步骤:

  • PDF转换为图像:将PDF转化为图像,为OCR扫描做好准备。
  • OCR提取文本:利用OCR技术,从图像中提取文本内容。
  • LLM智能纠错:通过LLM技术对文本进行纠错和格式调整,确保准确性和可读性。
  • 生成Markdown:将文本转换为Markdown格式,方便编辑和使用。

为什么LLM-Aided OCR值得你拥有?

  • 提高工作效率:告别手动校对,LLM-Aided OCR的智能修正功能让工作效率飞跃提升。
  • 高质量输出:生成的Markdown文档格式规范,文本准确,几乎无需二次编辑。
  • 免费且开源:免费使用,开源定制,根据需求自由修改。
  • 灵活性强:支持本地LLM或API连接外部模型,适应不同需求和预算。

现实中的应用场景

想象一下,你需要从一份复杂的合同扫描版PDF中提取关键条款,或是从技术手册中提取代码示例。使用LLM-Aided OCR,这些任务将变得轻松许多,自动化的错误修正和格式调整,让你的工作更加高效和省心。

安装方法

  1. 安装 Pyenv 和 Python 3.12(如果需要):
# Install Pyenv and python 3.12 if needed and then use it to create venv:if ! command -v pyenv &> /dev/null; then
sudo apt-get update
sudo apt-get install -y build-essential libssl-dev zlib1g-dev libbz2-dev \
libreadline-dev libsqlite3-dev wget curl llvm libncurses5-dev libncursesw5-dev \
xz-utils tk-dev libffi-dev liblzma-dev python3-openssl git
git clone https://github.com/pyenv/pyenv.git ~/.pyenv
echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc
echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.zshrc
echo 'eval "$(pyenv init --path)"' >> ~/.zshrc
source ~/.zshrcficd ~/.pyenv && git pull && cd -
pyenv install 3.12

2.设置项目:

# Use pyenv to create virtual environment:
git clone https://github.com/Dicklesworthstone/llm_aided_ocr cd llm_aided_ocr
pyenv local 3.12
python -m venv venvsource venv/bin/activate
python -m pip install --upgrade pip
python -m pip install wheel
python -m pip install --upgrade setuptools wheel
pip install -r requirements.txt

3.安装 Tesseract OCR 引擎(如果尚未安装):

对于 Ubuntu:sudo apt-get install tesseract-ocr

对于 macOS:brew install tesseract

对于 Windows:https://github.com/UB-Mannheim/tesseract/wiki

4,在文件中设置环境变量:.env

USE_LOCAL_LLM=False
API_PROVIDER=OPENAI
OPENAI_API_KEY=your_openai_api_key
ANTHROPIC_API_KEY=your_anthropic_api_key

用法

将您的 PDF 文件放在项目目录中。

使用您的 PDF 文件名更新函数中的变量。input_pdf_file_pathmain()

运行脚本:

python llm_aided_ocr.py

该脚本将生成多个输出文件,包括最终的后处理文本。

GitHub地址https://github.com/Dicklesworthstone/llm_aided_ocr

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表