轻量级TTS – OddMeta

一、项目背景 OddTTS：一个统一多引擎的 TTS 语音合成 API 封装工具，现已支持 OpenAI TTS API 兼容 OddTTS 诞生于作者的一个实际需求——为项目「小落同学」提供文字转语音能力。由于受限于99元/年的阿里云ECS服务器硬件条件，最初只能使用 EdgeTTS，但作者本人的电脑配置尚可（十年前买的老笔记本，呵呵），尝试了多种 TTS 引擎后，决定为这些模型创建一个统一的封装层。于是，OddTTS 应运而生——一个强大的多引擎文本转语音服务，提供统一的 API 接口和友好的 Web 界面，让你用一套接口就能对接多个主流 TTS 引擎。二、核心功能支持多种 TTS 引擎：我自己目前使用的主要是：EdgeTTS和Kokoro-82M-v1.1-zh这两个模型，分别用在阿里云ECS和我自己的十年前老笔记本上。注：市面上还有许多其他的轻量级的TTS模型，但是由于我自己的使用场景里，主要的语言是中文，所以我选择的都是必须要支持中文的轻量级模型，不支持的一概忽略。多种调用方式：在OddTTS自带的Demo的web上都有演示。好用的 Web 界面：基于 Flask 构建的可视化操作界面，支持文本输入、语音选择、参数调节、音频生成与下载，开箱即用。三、近期更新亮点 API 请求耗时日志 — 现在每个 API 请求都会打印时耗日志，启动时也会显示当前运行的 TTS 引擎名称，方便监控和调试。模型下载异常修复 — […]

Speech Tech

OddTTS更新：修复Kokoro_v1.1中英混合模型下载异常问题

上个星期分别测试了一下两个轻量级的语音合成模型，分别是：其中Kokoro以更低的CPU要求，可完美达成我的小落同学项目的实时语音交互的需求，因此现在我已经将我的小落同学的主打语音合成在OddTTS上切到了kokoro v1.1。这里要特别感谢一下一位大佬：路遥。因为前面我以为Kokoro不支持中英混合，所以一开始是准备用MeloTTS的（对CPU要求相对较高），在他的提示下才发现原来Kokoro也可以通过将创建英文和中文两个pipeline来实现中英混合。以下是一些相关的介绍。一. 安装 OddTTS 二. 启动 OddTTS 在命令行中输入下面的命令即可启动：启动后，浏览器打开地址：http://127.0.0.1:9001 启动后，浏览器打开地址：http://your_ip_addr:8080 注： Linux/MacOS: 三. 使用 OddTTS OddTTS支持自定义协议的API，也支持OpenAI兼容接口的API，一般用户建议用OpenAI兼容接口来使用，三行代码搞定语音合成。其他的API接口可以看OddTTS项目的API接口说明。四、一些测试数据 1. 合成的语音的效果合成的语音的效果可以看我之前的测试文章：正常语速wav格式正常语速mp3格式3倍语速mp3格式 2. 合成的速度这个是在我的这台十年前的老笔记本上跑的数据：注：这个3.5秒可认为是首字时延，后面由于合成的速度比播放的速度要快得多的多，所以在长文（需切句子）合成的情况下，实际体验的时延可以做到趋近到500ms以内。具体如下图所示。 3. 切换不同的TTS模型/引擎 OddTTS有集成了多种不同的TTS模型，包括： OddTTS提供了一个简单的管理、测试界面，在启动了OddTTS后可以在浏览器里打开oddtts，然后动态切换TTS模型/引擎。五、注意事项模型下载问题 Kokoro的模型放在huggingface.co上，在国内访问存在问题，解决方案： set HF_ENDPOINT=https://hf-mirror.comset HF_HOME=F:/ai_share/models export HF_ENDPOINT=https://hf-mirror.comexport HF_HOME=/opt/ai_share/models 输出wav正常，输出MP3报错 OddTTS的依赖里有加了ffmpeg，但是如果你机器上原先就有安装过ffmpeg有可能会报错，若是报错了，请再手动安装一下ffmpeg即可。服务启动失败语音合成失败如何切换TTS引擎输出格式 […]

Speech Tech