网站首页 > 开源技术 正文
大家好!今天要给大家带来一个令人振奋的消息——一款名为LLM-Aided OCR的开源工具,它刚刚开源就吸引了13000人围观。这不仅仅是一个OCR工具,更是一个能够将PDF文件转化为清晰、准确Markdown文档的神器!
项目简介:AI与OCR的完美结合
LLM-Aided OCR,一个基于多模态大语言模型(LLM)的开源OCR工具,它用AI的魔法,将扫描版PDF文本转换成格式正确、易于阅读的Markdown文档。这不再是简单的文字识别,而是一场精度与排版的革命。
高效的PDF文本提取流程:从模糊到清晰
LLM-Aided OCR的处理流程简洁而高效,只需几个步骤:
- PDF转换为图像:将PDF转化为图像,为OCR扫描做好准备。
- OCR提取文本:利用OCR技术,从图像中提取文本内容。
- LLM智能纠错:通过LLM技术对文本进行纠错和格式调整,确保准确性和可读性。
- 生成Markdown:将文本转换为Markdown格式,方便编辑和使用。
为什么LLM-Aided OCR值得你拥有?
- 提高工作效率:告别手动校对,LLM-Aided OCR的智能修正功能让工作效率飞跃提升。
- 高质量输出:生成的Markdown文档格式规范,文本准确,几乎无需二次编辑。
- 免费且开源:免费使用,开源定制,根据需求自由修改。
- 灵活性强:支持本地LLM或API连接外部模型,适应不同需求和预算。
现实中的应用场景
想象一下,你需要从一份复杂的合同扫描版PDF中提取关键条款,或是从技术手册中提取代码示例。使用LLM-Aided OCR,这些任务将变得轻松许多,自动化的错误修正和格式调整,让你的工作更加高效和省心。
安装方法
- 安装 Pyenv 和 Python 3.12(如果需要):
# Install Pyenv and python 3.12 if needed and then use it to create venv:if ! command -v pyenv &> /dev/null; then
sudo apt-get update
sudo apt-get install -y build-essential libssl-dev zlib1g-dev libbz2-dev \
libreadline-dev libsqlite3-dev wget curl llvm libncurses5-dev libncursesw5-dev \
xz-utils tk-dev libffi-dev liblzma-dev python3-openssl git
git clone https://github.com/pyenv/pyenv.git ~/.pyenv
echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc
echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.zshrc
echo 'eval "$(pyenv init --path)"' >> ~/.zshrc
source ~/.zshrcficd ~/.pyenv && git pull && cd -
pyenv install 3.12
2.设置项目:
# Use pyenv to create virtual environment:
git clone https://github.com/Dicklesworthstone/llm_aided_ocr cd llm_aided_ocr
pyenv local 3.12
python -m venv venvsource venv/bin/activate
python -m pip install --upgrade pip
python -m pip install wheel
python -m pip install --upgrade setuptools wheel
pip install -r requirements.txt
3.安装 Tesseract OCR 引擎(如果尚未安装):
对于 Ubuntu:sudo apt-get install tesseract-ocr
对于 macOS:brew install tesseract
对于 Windows:https://github.com/UB-Mannheim/tesseract/wiki
4,在文件中设置环境变量:.env
USE_LOCAL_LLM=False
API_PROVIDER=OPENAI
OPENAI_API_KEY=your_openai_api_key
ANTHROPIC_API_KEY=your_anthropic_api_key
用法
将您的 PDF 文件放在项目目录中。
使用您的 PDF 文件名更新函数中的变量。input_pdf_file_pathmain()
运行脚本:
python llm_aided_ocr.py
该脚本将生成多个输出文件,包括最终的后处理文本。
GitHub地址:https://github.com/Dicklesworthstone/llm_aided_ocr
猜你喜欢
- 2024-09-12 python安装并使用虚拟环境virtualenv
- 2024-09-12 Python 开发工具链全解(python开发工具选择)
- 2024-09-12 送给Python初学者的几点建议(python初学者推荐书籍)
- 2024-09-12 JSShell:一个基于python的交互式Shell
- 2024-09-12 多人在用,一款实用的Python开发环境管理神器
- 2024-09-12 python使用(一) virtualenv实现原理解析
- 2024-09-12 使用python的虚拟环境virtualenv(python虚拟环境作用)
- 2024-09-12 终极版Python学习教程:一篇文章讲清楚Python虚拟环境
- 2024-09-12 编程语言哪家强?谁是王者谁是青铜?
- 2024-09-12 删除系统 Python 引发的惨案(python3.8.5怎么删除)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- jdk (81)
- putty (66)
- rufus (78)
- 内网穿透 (89)
- okhttp (70)
- powertoys (74)
- windowsterminal (81)
- netcat (65)
- ghostscript (65)
- veracrypt (65)
- asp.netcore (70)
- wrk (67)
- aspose.words (80)
- itk (80)
- ajaxfileupload.js (66)
- sqlhelper (67)
- express.js (67)
- phpmailer (67)
- xjar (70)
- redisclient (78)
- wakeonlan (66)
- tinygo (85)
- startbbs (72)
- webftp (82)
- vsvim (79)
本文暂时没有评论,来添加一个吧(●'◡'●)