图表数据-图片生成图表-在线工具

OCR2Chart – 智能文档分析与可视化助手

OCR2Chart 是一款基于前沿大模型技术的智能文档分析与可视化工具。它能够将静态的文档图片(如报表截图、扫描件)一键转化为动态的可视化图表,实现了从“像素”到“洞见”的自动化闭环。

本系统无缝集成了 Gitee AI Serverless API,利用 Qwen-VL 等多模态大模型精准识别复杂的文档布局与文字内容,再通过 DeepSeek 等 NLP 大模型对数据进行深度语义理解与结构化提取,最后自动生成 Python 代码并渲染出专业的交互式图表。

✨ 核心功能

  • 智能 OCR 识别:利用 Vision LLM (Qwen2-VL-72B) 高精度识别图片中的文字、表格和排版结构。
  • 语义结构化:自动理解文本语义,将非结构化信息提取为标准的 JSON 数据。
  • 自动图表生成:根据数据特征自动编写 Matplotlib 绘图代码,生成柱状图、折线图等专业图表。
  • 中文优化:针对中文字体渲染进行了专门的系统级适配,解决 Matplotlib 中文乱码问题。
  • 交互式界面:基于 Gradio 构建的现代化 Web 界面,无需手动输入 API Key(通过环境变量注入),操作极简。

🛠️ 环境准备 (推荐 WSL)

为了获得最佳的字体渲染效果和开发体验,强烈建议在 Windows Subsystem for Linux (WSL) 环境下运行本项目。

1. 系统依赖 (WSL/Ubuntu)

需要安装中文字体库,否则生成的图表中文可能会显示为方框。

sudo apt-get update
sudo apt-get install -y fonts-noto-cjk fonts-wqy-microhei fontconfig
fc-cache -fv

2. Python 依赖

建议使用 Python 3.10+。

pip install -r requirements.txt

requirements.txt 核心依赖:gradioopenaipandasmatplotlibpillow

🚀 启动指南

我们采用环境变量注入的方式配置 API Key,既安全又方便,无需在网页端重复输入。

推荐启动命令 (WSL)

请将下面的 YOUR_API_KEY 替换为你实际的 Gitee AI API Key:

export MY_API_KEY='YOUR_API_KEY
python3 app.py
  • 访问地址:启动成功后,浏览器访问 http://localhost:7860
  • 端口冲突:如果端口被占用,程序会自动寻找下一个可用端口(如 7861)。

⚙️ 模型配置

默认配置如下,经过测试效果最佳:

  • OCR 模型Qwen2-VL-72B (视觉识别能力强)
  • NLP 模型DeepSeek-V3 (语义理解和代码生成能力强)
  • 绘图模型DeepSeek-V3

❓ 常见问题

Q: 图表中的中文显示为方框? A: 请确保已在 WSL 中安装了 fonts-noto-cjk 字体包,并清理 Matplotlib 缓存:

rm -rf ~/.cache/matplotlib

重启应用即可。

Q: 报错 OSError: Cannot find empty port A: Gradio 应用现在会自动寻找可用端口,无需手动处理。如果依然报错,请检查是否有残留的 python 进程占用端口。

Q: 报错 401 Unauthorized A: 请检查启动命令中的 MY_API_KEY 是否正确,或者 API Key 是否已过期

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容