kokoro – OddMeta

一、前言前两天针对轻量级TTS引擎Kokoro做了一些测试（ https://mp.weixin.qq.com/s/xKBLfAkfImwHrjYIml0KuA ），测试下来发现效果居然挺好的，而且自带8种音色的支持，纯CPU跑，速度还快，测完了我就停不下来了，当时就想把它整合到我的OddTTS项目，今天周末终于有空，于是就简单搞了一下，现在已经在我的小落同学上用上了。二、主要更新先看效果正常语速wav格式正常语速mp3格式更新内容三、如何使用 1. 安装 pip install -i https://pypi.org/simple/ oddtts 2. 启动 oddtts 启动后，浏览器打开地址：http://127.0.0.1:9001 若要允许其他IP访问，请使用以下命令启动服务，将host设置为0.0.0.0，端口也可以改成你自定义的端口。启动后，浏览器打开地址：http://your_ip_addr:8080 3. API调用示例以下是一个OddTTS的API调用的示例，建议用OpenAI 兼容接口四、注意事项模型下载问题 Kokoro的模型放在huggingface.co上，在国内访问存在问题，解决方案： set HF_ENDPOINT=https://hf-mirror.comset HF_HOME=F:/ai_share/models export HF_ENDPOINT=https://hf-mirror.comexport HF_HOME=/opt/ai_share/models 输出wav正常，输出MP3报错 OddTTS的依赖里有加了ffmpeg，但是如果你机器上原先就有安装过ffmpeg有可能会报错，若是报错了，请再手动安装一下ffmpeg即可。服务启动失败语音合成失败如何切换TTS引擎输出格式环境要求

Speech Tech

OddTTS：加入Kokoro语音合成支持，完全纯本地CPU跑语音合成

1 comment

一、前言你是否遇到过这样的场景：想给项目添加语音合成功能，却被各种问题困扰——要么模型太大动辄几GB，要么必须依赖GPU云端API，要么商用授权一团糟。对于个人开发者和小型团队来说，一个理想的TTS方案应该满足三个条件：轻量到能在CPU上跑、免费可商用、效果足够自然。今天要介绍的 Kokoro-82M，就是这样一款满足所有条件的神器。它只有82M参数，却能输出相当自然的中文语音；体积小巧到只需几百MB，却支持8种不同音色。更重要的是——它完全开源，Apache 2.0许可，零成本商用。二、方案介绍概念定义 Kokoro-82M 由 hexgrad 开发的轻量级TTS模型，仅82M参数，支持8种中文音色 ONNX优化模型经过ONNX优化，可在CPU上高效推理，无需GPU 语音管道(Pipeline) Kokoro 的核心API，负责分词、音素转换、语音合成全流程音色(Voice) 预训练的音色模型，不同音色适合不同场景为什么选择 Kokoro？指标数值参数规模 82M 模型大小 ~165MB 输出采样率 24kHz 支持语言中文、英语、日语、韩语等8种中文音色数 8种（4女4男）推理设备 CPU / GPU 许可协议 Apache 2.0 对比同级别模型，Kokoro 在中文场景下表现尤为突出——不仅音色自然，而且对中文多音字的处理也相当不错。对于没有GPU的个人开发者来说，这可能是目前最优的中文TTS本地方案。先实际听一下用kokoro合成的音频我用kokoro生成了一下奥德元的口号：关注我的公众号：奥德元，一起学习 A I，一起追赶时代。，一个男声，一个女声，大家可以实际听下、感受一下合成的语音的效果。男声： zm_yunyang： kokoro_zm_yunyang.wav女声： […]

Speech Tech