Search

Search
- Search

Speech Tech

OddAsr更新：将默认模型从moonshine改回paraformer

by jacky|Published 2026-04-18

前两天研究了一下Moonshine Voice，当时拿了几个简单的音频文件测试了一下，感觉效果还可以，所以我就开始将其整合到了OddASR项目里。

但是在完成了整合后，再进行测试的时候发现一些比较严重的问题，所以，我又赶紧把我刚刚上传到pypi的OddASR给撤了，然后重新将主力模型改回到paraformer-zh-streaming和paraformer-zh。

当前OddAsr最新版本：v2.1.0，已恢复paraformer模型。

以下是在OddAsr自带的测试界面上分别跑paraformer-zh和moonshine base模型的效果

测试音频

前面一段和后面一段的声音都是干净的，转写效果非常好，准确率基本可认为100%；
中间一段模拟了一些背景噪声与嘈杂环境，无论是持续的空调嗡鸣、键盘敲击声，还是突发的交通噪音、旁人交谈，都会干扰ASR模型，导致其识别错误甚至完全遗漏词语。

具体的声音情况可以看这个视频：

https://mp.weixin.qq.com/s/y4l-YtaUhayV9k9EDatCzw

注：这个视频中并未使用我的OddASR，效果差不是我OddAsr项目的锅。相反，下面我后来有将这个视频中的音频提取出来，专门作为OddAsr的一个测试集，每次测试不同的ASR模型的时候都会来测试一下这种场景。比如：这次的Moonshine base中文模型的测试。

测试效果

测试使用的音频就是上面那个视频里提取出来的音频。

paraformer模型效果

只想用一个字来形容：bravo！

moonshine base模型效果

看上去转写出来的每个发音都是对的，但是。。。。这些个字呢。。。。好像就没几个是对的。

总结

唉，如果不是因为我这个用了超过十年的老笔记本CPU不太够用，我也完全不想去折腾一些其他的轻量级的ASR模型。

Published 2026-04-04

OddTTS更新：十年前老笔记本以纯CPU跑中英混合语音合成

上个星期分别测试了一下两个轻量级的语音合成模型，分别是：其中Kokoro以更低的CPU要求，可完美达成我的小落同学项目的实时语音交互的需求，因此现在我已经将我的小落同学的主打语音合成在OddTTS上切到了kokoro v1.1。这里要特别感谢一下一位大佬：路遥。因为前面我以为Kokoro不支持中英混合，所以一开始是准备用MeloTTS的（对CPU要求相对较高），在他的提示下才发现原来Kokoro也可以通过将创建英文和中文两个pipeline来实现中英混合。以下是一些相关的介绍。一. 安装 OddTTS 二. 启动 OddTTS 在命令行中输入下面的命令即可启动：启动后，浏览器打开地址：http://127.0.0.1:9001 启动后，浏览器打开地址：http://your_ip_addr:8080 注： Linux/MacOS: 三. 使用 OddTTS OddTTS支持自定义协议的API，也支持OpenAI兼容接口的API，一般用户建议用OpenAI兼容接口来使用，三行代码搞定语音合成。其他的API接口可以看OddTTS项目的API接口说明。四、一些测试数据 […]

Published 2026-04-12

轻量级语音变声方案：FFmpeg 实现指南

前言最近在折腾 OddTTS 项目，涉及语音合成后的处理。发现一个很香的轻量级变声方案——直接用 FFmpeg 就能搞定，不需要复杂的模型部署。本文记录 FFmpeg 变声的核心方法、性能数据、以及在 OddTTS 项目中的实际应用场景。先来听听效果原始声音：变声：卡通声：一、FFmpeg 变声原理解析 1.1 核心滤镜：asetrate + aresample FFmpeg […]

Vosk

Published 2025-04-20

可能是最紧凑、最轻量级的ASR模型：Vosk实战解析

前面在我的笔记本上用FunASR和PaddleSpeech为小落同学整合了一下ASR的功能，但是发现在我的阿里云ECS上跑不动，由于是乎就想找一个最轻量级的ASR模型，让小落同学也可以用上免费白嫖的ASR功能。我的要求很简单：翻烂Google, Baidu, Bing，搜遍github之后，当前收到的评估是：Vosk 是最紧凑、最轻量级的语音转文本引擎之一，可以支持20多种语言或方言，包括：英语、中文、葡萄牙语、波兰语、德语等，还可以支持Windows, Linux, Android、iOS和Raspberry Pi，而且Vosk 提供了小型语言模型，不占用太多空间，理想情况下，大约只有50MB。然而，一些大型模型可以占用高达1.4GB。该工具响应速度快，可以连续将语音转换为文本，还提供流媒体API（与流行的语音识别python包不同），还支持说话人识别（这个我暂时还没试过）。既然如此，我只能说：兄弟，就是你了。以下是关于Vosdk从技术原理到实战代码。一、Vosk相关介绍在众多 ASR 工具中，Vosk 凭借以下核心优势脱颖而出：二、Vosk 项目核心信息三、快速安装指南（以 Python 为例） 1. 环境准备 […]

ASR引擎测试：FireRedASR只能说小红书的诚意不够

Published 2025-03-21

ASR引擎测试：FireRedASR只能说小红书的诚意不够

小红书开源了他们的自动语音识别模型FireRedASR，宣称很牛逼。今天咱也部署一下，并对它做一下测试。项目地址: https://github.com/FireRedTeam/FireRedASR 为节省大家的时间，直接上结论：这玩意儿拿来学习不错，想拿来做产品不行。如果你是想评估FireRedASR是不是可以直接拿来做产品，那这边劝你放弃吧，但是如果你是想做ASR底层算法的研究，想了解一下它的具体情况的，可以继续往下看。 # 一、FireRedAsr介绍 FireRedASR 据介绍是一个工业级自动语音识别模型，支持普通话、中文方言和英语。该模型在普通话 ASR 基准测试中达到了新的最佳水平（SOTA），并在歌词识别方面表现出色。 ## 版本它包括了两个版本，分别是FireRedASR-LLM和FireRedASR-AED。 – FireRedASR-LLM：专注于极致的语音识别精度。基于大型语言模型（LLM）的能力，实现 SOTA 性能，支持无缝端到端语音交互。在普通话基准测试中平均字符错误率（CER）为 3.05%，相比之前的 SOTA 模型（3.33%）降低了 8.4%。 – […]