# 一键启动 LocalAI docker run -d -p 8080:8080 -v $PWD/models:/models -e MODELS_PATH=/models localai/localai:latest

在 models/ 目录下创建模型配置文件：

Q：CPU 跑大模型速度能接受吗？A：取决于 CPU 和模型大小。i7/8 核跑 7B 模型大约 5-10 tokens/s，做对话还行。13B+ 模型建议 GPU。

# 一键启动 LocalAI docker run -d -p 8080:8080 -v $PWD/models:/models -e MODELS_PATH=/models localai/localai:latest

在 models/ 目录下创建模型配置文件：

Q：CPU 跑大模型速度能接受吗？A：取决于 CPU 和模型大小。i7/8 核跑 7B 模型大约 5-10 tokens/s，做对话还行。13B+ 模型建议 GPU。

LocalAI - 本地AI推理服务Docker部署

每个 AI 项目都交 API 费，长期下来不划算

用 OpenAI 的 API 很方便，每月账单也不大——但架不住项目多啊。一个聊天机器人、一个文档总结工具、一个代码助手，三个项目加起来每月几百块就没了。如果是长期运行的服务，一年几千上万的 API 费用不是小数目。

既然大模型已经有很多开源的了，为什么不直接在本地部署推理服务呢？一次部署，永久免费调用。

🌐API 层兼容 OpenAI API，你的代码一行不改
🧠模型层LLM / 图像生成 / 语音 / 嵌入 多模型支持
⚙️推理层llama.cpp / diffusers / whisper.cpp 后端引擎
💻硬件层CPU / GPU / Metal / CUDA 自动适配

💬LLM 推理

兼容 OpenAI 接口，支持 Llama/Qwen/Mistral 等主流模型

🎨图像生成

Stable Diffusion 文生图/图生图，API 与 DALL-E 兼容

🔊语音处理

Whisper 语音转文字 + Bark 文字转语音

📊嵌入模型

文本嵌入生成，兼容 text-embedding-ada-002

CPU

无独显也能跑
8 核可运行 7B 模型

GPU

CUDA/Metal 加速
6GB 显存跑 13B

API

完全兼容 OpenAI
现有代码零迁移

包含：LocalAI 功能与架构、Docker 一键部署、模型配置与加载、API 调用与集成、性能优化与监控

仅作整理分享版权归原作者所有，查看或者使用表示同意

THE END