网站首页 > 开源技术正文

AI革新OCR:LLM-Aided OCR，让PDF文本提取飞起来!

wxchong 2024-09-12 21:55:15 开源技术 39 ℃ 0 评论

大家好！今天要给大家带来一个令人振奋的消息——一款名为LLM-Aided OCR的开源工具，它刚刚开源就吸引了13000人围观。这不仅仅是一个OCR工具，更是一个能够将PDF文件转化为清晰、准确Markdown文档的神器！

项目简介：AI与OCR的完美结合

LLM-Aided OCR，一个基于多模态大语言模型（LLM）的开源OCR工具，它用AI的魔法，将扫描版PDF文本转换成格式正确、易于阅读的Markdown文档。这不再是简单的文字识别，而是一场精度与排版的革命。

高效的PDF文本提取流程：从模糊到清晰

LLM-Aided OCR的处理流程简洁而高效，只需几个步骤：

PDF转换为图像：将PDF转化为图像，为OCR扫描做好准备。
OCR提取文本：利用OCR技术，从图像中提取文本内容。
LLM智能纠错：通过LLM技术对文本进行纠错和格式调整，确保准确性和可读性。
生成Markdown：将文本转换为Markdown格式，方便编辑和使用。

为什么LLM-Aided OCR值得你拥有？

提高工作效率：告别手动校对，LLM-Aided OCR的智能修正功能让工作效率飞跃提升。
高质量输出：生成的Markdown文档格式规范，文本准确，几乎无需二次编辑。
免费且开源：免费使用，开源定制，根据需求自由修改。
灵活性强：支持本地LLM或API连接外部模型，适应不同需求和预算。

现实中的应用场景

想象一下，你需要从一份复杂的合同扫描版PDF中提取关键条款，或是从技术手册中提取代码示例。使用LLM-Aided OCR，这些任务将变得轻松许多，自动化的错误修正和格式调整，让你的工作更加高效和省心。

安装方法

安装 Pyenv 和 Python 3.12（如果需要）：

# Install Pyenv and python 3.12 if needed and then use it to create venv:if ! command -v pyenv &> /dev/null; then
sudo apt-get update
sudo apt-get install -y build-essential libssl-dev zlib1g-dev libbz2-dev \
libreadline-dev libsqlite3-dev wget curl llvm libncurses5-dev libncursesw5-dev \
xz-utils tk-dev libffi-dev liblzma-dev python3-openssl git
git clone https://github.com/pyenv/pyenv.git ~/.pyenv
echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc
echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.zshrc
echo 'eval "$(pyenv init --path)"' >> ~/.zshrc
source ~/.zshrcficd ~/.pyenv && git pull && cd -
pyenv install 3.12

2.设置项目：

# Use pyenv to create virtual environment:
git clone https://github.com/Dicklesworthstone/llm_aided_ocr cd llm_aided_ocr
pyenv local 3.12
python -m venv venvsource venv/bin/activate
python -m pip install --upgrade pip
python -m pip install wheel
python -m pip install --upgrade setuptools wheel
pip install -r requirements.txt

3.安装 Tesseract OCR 引擎（如果尚未安装）：

对于 Ubuntu：sudo apt-get install tesseract-ocr
对于 macOS：brew install tesseract
对于 Windows：https://github.com/UB-Mannheim/tesseract/wiki

4，在文件中设置环境变量：.env

USE_LOCAL_LLM=False
API_PROVIDER=OPENAI
OPENAI_API_KEY=your_openai_api_key
ANTHROPIC_API_KEY=your_anthropic_api_key

用法

将您的 PDF 文件放在项目目录中。

使用您的 PDF 文件名更新函数中的变量。input_pdf_file_pathmain()

运行脚本：

python llm_aided_ocr.py

该脚本将生成多个输出文件，包括最终的后处理文本。

GitHub地址：https://github.com/Dicklesworthstone/llm_aided_ocr

上一篇： python使用(一) virtualenv实现原理解析
下一篇：多人在用，一款实用的Python开发环境管理神器

网站首页 > 开源技术正文

AI革新OCR:LLM-Aided OCR，让PDF文本提取飞起来!

项目简介：AI与OCR的完美结合

高效的PDF文本提取流程：从模糊到清晰

为什么LLM-Aided OCR值得你拥有？

现实中的应用场景

安装方法

用法

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 开源技术 正文

AI革新OCR:LLM-Aided OCR，让PDF文本提取飞起来!

项目简介：AI与OCR的完美结合

高效的PDF文本提取流程：从模糊到清晰

为什么LLM-Aided OCR值得你拥有？

现实中的应用场景

安装方法

用法

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 开源技术正文

取消回复欢迎你发表评论: