OddTTS：加入Kokoro语音合成支持，完全纯本地CPU跑语音合成

一、前言

前两天针对轻量级TTS引擎Kokoro做了一些测试（ https://mp.weixin.qq.com/s/xKBLfAkfImwHrjYIml0KuA ），测试下来发现效果居然挺好的，而且自带8种音色的支持，纯CPU跑，速度还快，测完了我就停不下来了，当时就想把它整合到我的OddTTS项目，今天周末终于有空，于是就简单搞了一下，现在已经在我的小落同学上用上了。

二、主要更新

先看效果

正常语速wav格式

正常语速mp3格式

3倍语速mp3格式

更新内容

demo前端从gradio改成flask（降低依赖）
BaseTTS接口调整
MP3、WAV格式转换
Kokoro 中文引擎支持。

三、如何使用

1. 安装

pip install -i https://pypi.org/simple/ oddtts

2. 启动

默认的参数启动：绑定127.0.0.1环回地址，默认使用9001端口。

oddtts

启动后，浏览器打开地址：http://127.0.0.1:9001

自定义参数启动

若要允许其他IP访问，请使用以下命令启动服务，将host设置为0.0.0.0，端口也可以改成你自定义的端口。

oddtts --host 0.0.0.0 --port 8080

启动后，浏览器打开地址：http://your_ip_addr:8080

3. API调用示例

以下是一个OddTTS的API调用的示例，建议用OpenAI 兼容接口

from openai import OpenAI

base_url = "http://localhost:9001/v1"
model = "oddtts-1"
api_key = "dummy"
voice = "zf_xiaobei"

text = "欢迎关注我的公众号: 奥德元。一起学习AI，一起追赶时代！Good good study, day day up!"

def test_openai_tts_api(voice_id):
    client = OpenAI(
        api_key=api_key,
        base_url=base_url
    )

    response = client.audio.speech.create(
        model=model,
        input=text,
        voice=voice_id,
        response_format="mp3"
    )
    response.write_to_file("output.mp3")

if __name__ == "__main__":
    test_openai_tts_api(voice)

四、注意事项

模型下载问题

Kokoro的模型放在huggingface.co上，在国内访问存在问题，解决方案：

Windows

set HF_ENDPOINT=https://hf-mirror.com
set HF_HOME=F:/ai_share/models

Linux/MacOS

export HF_ENDPOINT=https://hf-mirror.com
export HF_HOME=/opt/ai_share/models

输出wav正常，输出MP3报错

OddTTS的依赖里有加了ffmpeg，但是如果你机器上原先就有安装过ffmpeg有可能会报错，若是报错了，请再手动安装一下ffmpeg即可。

服务启动失败

检查端口是否被占用
确认所有依赖包已正确安装
查看日志文件获取详细错误信息

语音合成失败

检查TTS引擎配置是否正确
确认选择的语音存在于当前TTS引擎中
对于某些需要联网的引擎，确认网络连接正常（如: EdgeTTS）

如何切换TTS引擎

修改 oddtts_config.py 文件中的 tts_type 配置项
重启服务使配置生效

输出格式

默认输出格式为mp3
可以通过 response_format 参数指定其他格式，如wav、mp3等

环境要求

Python 3.12+（低版本也能用，但是建议用3.12+)
至少 2GB 可用磁盘空间（模型350M，再加python依赖，语音合成临时文件）
推荐 4GB+ 内存

Published 2025-03-24

ASR引擎测试：FunASR，必须给阿里点一个赞

前两天试了一下小红书开源出来的FireRedASR，整体感觉是小红书团队只是把关键的语音识别的模型开放出来了（也只开放了-L的模型），但是由于缺了一些前处理(语音VAD检测）、后处理（标点，多人语音聚类，热词等）相关的功能，普通用户拿到他们这个模型也根本没法直接拿来用，所以个人的观点是对于开源FireRedASR来说，小红书团队的诚意是不够的。而光嘴巴说他们诚意不够是不能令人信服的，所以咱把阿里在2年多前开源出来的FunASR拿出来介绍一下，诚意够不够让大家自己体会。一、FunASR介绍 FunASR是一个由阿里巴巴达摩院开发的开源语音识别工具包，旨在为学术研究和工业应用提供桥梁。它支持多种语音识别功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。FunASR提供了便捷的脚本和教程，支持预训练模型的推理与微调，帮助用户快速构建高效的语音识别服务。支持各种音视频格式输入，可以把几十个小时的长音频与视频识别成带标点的文字，支持上百路请求同时进行转写支持中文、英文、日文、粤语和韩语等。在线体验：https://www.funasr.com/ 注： FunASR是支持GPU推理加速的，不像阿云早先的一个私有云版本的ASR引擎那样，只用CPU来推理的。二、FunAsr核心功能 1. 功能列表 2. 离线语音识别拥有完整的语音识别链路，结合了语音端点检测、语音识别、标点等模型，可以将几十个小时的长音频与视频识别成带标点的文字，而且支持上百路请求同时进行转写。输出为带标点的文字，含有字级别时间戳，支持ITN与用户自定义热词等。 3. 实时听写 FunASR实时语音听写软件包，集成了实时版本的语音端点检测模型、语音识别、语音识别、标点预测模型等。采用多模型协同，既可以实时的进行语音转文字，也可以在说话句尾用高精度转写文字修正输出，输出文字带有标点，支持多路请求。依据使用者场景不同，支持实时语音听写服务（online）、非实时一句话转写（offline）与实时与非实时一体化协同（2pass）3种服务模式。三、安装部署 1. Requirements 2.创建虚拟环境 […]