OddTTS更新：十年前老笔记本以纯CPU跑中英混合语音合成

上个星期分别测试了一下两个轻量级的语音合成模型，分别是：

其中Kokoro以更低的CPU要求，可完美达成我的小落同学项目的实时语音交互的需求，因此现在我已经将我的小落同学的主打语音合成在OddTTS上切到了kokoro v1.1。

这里要特别感谢一下一位大佬：路遥。因为前面我以为Kokoro不支持中英混合，所以一开始是准备用MeloTTS的（对CPU要求相对较高），在他的提示下才发现原来Kokoro也可以通过将创建英文和中文两个pipeline来实现中英混合。

以下是一些相关的介绍。

一. 安装 OddTTS

pip install -i https://pypi.org/simple/ oddtts

二. 启动 OddTTS

在命令行中输入下面的命令即可启动：

oddtts

启动后，浏览器打开地址：http://127.0.0.1:9001

默认的参数启动：绑定127.0.0.1环回地址，默认使用9001端口。
自定义参数启动：若要允许其他IP访问，请使用以下命令启动服务，将host设置为0.0.0.0，端口也可以改成你自定义的端口。

oddtts --host 0.0.0.0 --port 8080

启动后，浏览器打开地址：http://your_ip_addr:8080

注：

首先使用需要从huggingface下载模型，模型文件+语音文件大概400M左右，耗时要看你的网速。
国内访问huggingface.co存在问题，可通过在运行 oddtts 命令前在命令行中输入以下命令来绕过。
Windows:

set HF_ENDPOINT=https://hf-mirror.com

Linux/MacOS:

export HF_ENDPOINT=https://hf-mirror.com

三. 使用 OddTTS

OddTTS支持自定义协议的API，也支持OpenAI兼容接口的API，一般用户建议用OpenAI兼容接口来使用，三行代码搞定语音合成。

def openai_tts_api_synthesize(voice_id, text_cn_en_mixed):
    print(f"测试使用语音 {voice_id} 合成文本语音")

    client = OpenAI(api_key="dummy", base_url="http://localhost:9001/v1")
    response = client.audio.speech.create(model="oddtts-1", input=text_cn_en_mixed, voice=voice_id, response_format="mp3")
    response.write_to_file("output.mp3")

其他的API接口可以看OddTTS项目的API接口说明。

四、一些测试数据

1. 合成的语音的效果

合成的语音的效果可以看我之前的测试文章：

正常语速wav格式
正常语速mp3格式
3倍语速mp3格式

2. 合成的速度

这个是在我的这台十年前的老笔记本上跑的数据：

首次运行某一个模型的时间需要下载模型，并初始化模型，可能需要耗时几十秒到几分钟，具体时间跟你的电脑的配置，以及你的网速直接相关。在我的这个老笔记本上首次运行Kokoro耗时42.8秒左右。
若是加载了模型后，再来合成语音速度就上去了，合成我的一个口号：“关注我的公众号：奥德元，一起学习 AI，一起追赶时代。Good good study, day day up.”，耗时约3.5秒。

注：这个3.5秒可认为是首字时延，后面由于合成的速度比播放的速度要快得多的多，所以在长文（需切句子）合成的情况下，实际体验的时延可以做到趋近到500ms以内。

若是合成11字的文字，耗时（首字时延）约在1.6秒左右。

具体如下图所示。

3. 切换不同的TTS模型/引擎

OddTTS有集成了多种不同的TTS模型，包括：

OddGPT-SoVITS – 基于GPT-SoVITS的语音合成引擎（建议6G以上GPU）
EdgeTTS – 微软Edge浏览器的在线TTS服务(无需GPU)
ChatTTS – 专为对话场景设计的TTS引擎（建议4G以上GPU）
Bert-VITS2 – 基于BERT和VITS的语音合成（已禁用）
Bert-VITS2 V2 – Bert-VITS2的升级版本（已禁用）
Kokoro – 轻量级多语言TTS引擎（纯CPU，中文）
Kokoro V1.1 – Kokoro引擎的1.1版本（纯CPU，中英混合）

OddTTS提供了一个简单的管理、测试界面，在启动了OddTTS后可以在浏览器里打开oddtts，然后动态切换TTS模型/引擎。

五、注意事项

模型下载问题

Kokoro的模型放在huggingface.co上，在国内访问存在问题，解决方案：

Windows

set HF_ENDPOINT=https://hf-mirror.com
set HF_HOME=F:/ai_share/models

Linux/MacOS

export HF_ENDPOINT=https://hf-mirror.com
export HF_HOME=/opt/ai_share/models

输出wav正常，输出MP3报错

OddTTS的依赖里有加了ffmpeg，但是如果你机器上原先就有安装过ffmpeg有可能会报错，若是报错了，请再手动安装一下ffmpeg即可。

服务启动失败

检查端口是否被占用
确认所有依赖包已正确安装
查看日志文件获取详细错误信息

语音合成失败

检查TTS引擎配置是否正确
确认选择的语音存在于当前TTS引擎中
对于某些需要联网的引擎，确认网络连接正常（如: EdgeTTS）

如何切换TTS引擎

现在可以直接在oddtts的web界面上手动修改、切换TTS引擎/模型了
修改 oddtts_config.py 文件中的 tts_type 配置项
重启服务使配置生效

输出格式

默认输出格式为mp3
可以通过 response_format 参数指定其他格式，如wav、mp3等

环境要求

Python 3.12+（低版本也能用，但是建议用3.12+)
至少 2GB 可用磁盘空间（模型350M，再加python依赖，语音合成临时文件）
推荐 4GB+ 内存

若有其他问题，也可提issue到OddTTS的项目里。

Published 2025-03-24

ASR引擎测试：FunASR，必须给阿里点一个赞

前两天试了一下小红书开源出来的FireRedASR，整体感觉是小红书团队只是把关键的语音识别的模型开放出来了（也只开放了-L的模型），但是由于缺了一些前处理(语音VAD检测）、后处理（标点，多人语音聚类，热词等）相关的功能，普通用户拿到他们这个模型也根本没法直接拿来用，所以个人的观点是对于开源FireRedASR来说，小红书团队的诚意是不够的。而光嘴巴说他们诚意不够是不能令人信服的，所以咱把阿里在2年多前开源出来的FunASR拿出来介绍一下，诚意够不够让大家自己体会。一、FunASR介绍 FunASR是一个由阿里巴巴达摩院开发的开源语音识别工具包，旨在为学术研究和工业应用提供桥梁。它支持多种语音识别功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。FunASR提供了便捷的脚本和教程，支持预训练模型的推理与微调，帮助用户快速构建高效的语音识别服务。支持各种音视频格式输入，可以把几十个小时的长音频与视频识别成带标点的文字，支持上百路请求同时进行转写支持中文、英文、日文、粤语和韩语等。在线体验：https://www.funasr.com/ 注： FunASR是支持GPU推理加速的，不像阿云早先的一个私有云版本的ASR引擎那样，只用CPU来推理的。二、FunAsr核心功能 1. 功能列表 2. 离线语音识别拥有完整的语音识别链路，结合了语音端点检测、语音识别、标点等模型，可以将几十个小时的长音频与视频识别成带标点的文字，而且支持上百路请求同时进行转写。输出为带标点的文字，含有字级别时间戳，支持ITN与用户自定义热词等。 3. 实时听写 FunASR实时语音听写软件包，集成了实时版本的语音端点检测模型、语音识别、语音识别、标点预测模型等。采用多模型协同，既可以实时的进行语音转文字，也可以在说话句尾用高精度转写文字修正输出，输出文字带有标点，支持多路请求。依据使用者场景不同，支持实时语音听写服务（online）、非实时一句话转写（offline）与实时与非实时一体化协同（2pass）3种服务模式。三、安装部署 1. Requirements 2.创建虚拟环境 […]