OCR2Chart – 智能文档分析与可视化助手
OCR2Chart 是一款基于前沿大模型技术的智能文档分析与可视化工具。它能够将静态的文档图片(如报表截图、扫描件)一键转化为动态的可视化图表,实现了从“像素”到“洞见”的自动化闭环。
本系统无缝集成了 Gitee AI Serverless API,利用 Qwen-VL 等多模态大模型精准识别复杂的文档布局与文字内容,再通过 DeepSeek 等 NLP 大模型对数据进行深度语义理解与结构化提取,最后自动生成 Python 代码并渲染出专业的交互式图表。
✨ 核心功能
- 智能 OCR 识别:利用 Vision LLM (Qwen2-VL-72B) 高精度识别图片中的文字、表格和排版结构。
- 语义结构化:自动理解文本语义,将非结构化信息提取为标准的 JSON 数据。
- 自动图表生成:根据数据特征自动编写 Matplotlib 绘图代码,生成柱状图、折线图等专业图表。
- 中文优化:针对中文字体渲染进行了专门的系统级适配,解决 Matplotlib 中文乱码问题。
- 交互式界面:基于 Gradio 构建的现代化 Web 界面,无需手动输入 API Key(通过环境变量注入),操作极简。
🛠️ 环境准备 (推荐 WSL)
为了获得最佳的字体渲染效果和开发体验,强烈建议在 Windows Subsystem for Linux (WSL) 环境下运行本项目。
1. 系统依赖 (WSL/Ubuntu)
需要安装中文字体库,否则生成的图表中文可能会显示为方框。
sudo apt-get update
sudo apt-get install -y fonts-noto-cjk fonts-wqy-microhei fontconfig
fc-cache -fv
2. Python 依赖
建议使用 Python 3.10+。
pip install -r requirements.txt
requirements.txt 核心依赖:gradio, openai, pandas, matplotlib, pillow。
🚀 启动指南
我们采用环境变量注入的方式配置 API Key,既安全又方便,无需在网页端重复输入。
推荐启动命令 (WSL)
请将下面的 YOUR_API_KEY 替换为你实际的 Gitee AI API Key:
export MY_API_KEY='YOUR_API_KEY
python3 app.py
- 访问地址:启动成功后,浏览器访问
http://localhost:7860 - 端口冲突:如果端口被占用,程序会自动寻找下一个可用端口(如 7861)。
⚙️ 模型配置
默认配置如下,经过测试效果最佳:
- OCR 模型:
Qwen2-VL-72B(视觉识别能力强) - NLP 模型:
DeepSeek-V3(语义理解和代码生成能力强) - 绘图模型:
DeepSeek-V3
❓ 常见问题
Q: 图表中的中文显示为方框? A: 请确保已在 WSL 中安装了 fonts-noto-cjk 字体包,并清理 Matplotlib 缓存:
rm -rf ~/.cache/matplotlib
重启应用即可。
Q: 报错 OSError: Cannot find empty port? A: Gradio 应用现在会自动寻找可用端口,无需手动处理。如果依然报错,请检查是否有残留的 python 进程占用端口。
Q: 报错 401 Unauthorized? A: 请检查启动命令中的 MY_API_KEY 是否正确,或者 API Key 是否已过期
仅作整理分享版权归原作者所有,查看或者使用表示同意
点击查看协议











暂无评论内容