# 基础安装（CPU） pip install whisperx

说话人分离使用 pyannote.audio 模型进行说话人嵌入自动检测音频中有几个不同说话人为每段话分配说话人标签（SPEAKER_00, SPEAKER_01…）支持指定说话人数量：–num_speakers 3 常见问题

Q：支持哪些语言？A：WhisperX 继承 Whisper 的多语言能力，支持 90+ 语言，包括中文、英文、日文、韩文等。

# 基础安装（CPU） pip install whisperx

说话人分离使用 pyannote.audio 模型进行说话人嵌入自动检测音频中有几个不同说话人为每段话分配说话人标签（SPEAKER_00, SPEAKER_01…）支持指定说话人数量：–num_speakers 3 常见问题

Q：支持哪些语言？A：WhisperX 继承 Whisper 的多语言能力，支持 90+ 语言，包括中文、英文、日文、韩文等。

WhisperX - 带说话人识别的语音转文字工具

会议录音转完文字——谁说了什么完全分不清

市面上语音转文字工具不少，但大部分只能做一件事：把声音变成文字。一场会议四五个人同时说话，转出来的文本混在一起，根本分不清哪句是谁说的。

更别说准确率了。带口音的普通话、专业术语、英文单词混杂——传统语音识别遇到这些场景准确率直线下降。转完还得人工听一遍校正，等于白做。

传统转录 vs WhisperX

📼

传统语音转文字

纯文本输出，无法区分说话人；准确率依赖通用模型；无时间戳或只有句子级；处理速度慢，长音频容易崩

🎯

WhisperX

自动分离说话人（说话人识别）；字级时间戳精确定位；VAD 过滤静音提升准确率；支持 GPU 加速批量处理

核心能力

字级

时间戳精度
定位到每个字

说话人

自动识别分离
多人对话清晰

加速

GPU 批处理
速度提升 5-10x

音频处理质量示意

🎤 说话人活动检测（VAD）

说话人A

35%

说话人B

28%

说话人C

22%

静音

15%

🔐 付费内容：语音转文字准确率不高处理慢？WhisperX 带说话人识别的精准转录

包含：WhisperX 功能与原理介绍、环境安装与 GPU 配置、基础转录命令与参数、说话人分离实战、批处理与高级优化

此处内容已隐藏，请付费后查看

仅作整理分享版权归原作者所有，查看或者使用表示同意

点击查看协议

THE END

AI 工具推荐

语音转文字准确率不高处理慢？WhisperX 带说话人识别的精准转录