OddASR：基于FunASR的API封装，支持离线转写+流式转写

由于我在做的小落同学（https://x.oddmeta.net)项目需要用到ASR功能，之前针对 FunASR、FireRedAsr、Vosk等ASR项目也做了一些评测，但是总体跑下来发现还是FunASR的整体表现最好，所以我就将FunASR给封装了一下，做了一个OddAsr的项目。

而考虑到ASR功能的用途广泛，之前也有一些朋友私下问过我相关的一些使用和封装的问题，尤其是流式ASR的支持（github上有好多FunASR的API封装，但是全是离线文件转写的，没有一个同时支持离线文件转写和流式转写的API封装项目），想了一下干脆直接把它开源出来吧。希望对有ASR需求的同学有帮助。

项目地址： https://github.com/oddmeta/oddasr

之前关于ASR相关的一些测试

ASR引擎测试：FireRedASR只能说小红书的诚意不够，https://www.oddmeta.net/archives/144
ASR引擎测试：FunASR，必须给阿里点一个赞，https://www.oddmeta.net/archives/165
可能是最紧凑、最轻量级的ASR模型：Vosk实战解析，https://www.oddmeta.net/archives/201

项目简介

OddASR是一个简单的ASR API服务器，基于强大的开源语音识别库FunASR构建。FunASR由ModelScope开发，提供了丰富的预训练模型和工具，可用于各种语音识别任务。
OddASR的目标是简化FunASR的部署，满足非实时音频处理的需求，同时也为实时流式转写提供了支持。

项目具有以下特点：

简化部署：提供易于使用的REST API，方便进行ASR转录。
本地参考：有独立的Python实现，可在本地进行ASR转录。
Docker支持：提供GPU和CPU部署的Dockerfile，简化服务器部署。
易于使用：通过简单的API请求即可实现音频文件转录。

安装步骤

1. 克隆仓库

git clone https://github.com/oddmeta/oddasr.git
cd oddasr

2. 安装依赖

pip install -r requirements.txt

使用方法

1. 启动REST API服务器

python main_server.py

服务器将在http://127.0.0.1:12340上启动。

2. 测试文件ASR API

使用testAPI.py脚本测试API：

python testAPI.py test_en_steve_jobs_10s.wav txt

也可以使用curl命令发送音频文件到REST API：

curl -X POST -F "audio=@path/to/audio.wav" http://127.0.0.1:12340/v1/v1/asr

3. 测试流ASR API

使用testStreamAPI.py脚本测试API：

python testStreamAPI.py 111.pcm

4. 示例输出

text模式

是开始这个呃实时的一个转写。 
对， 然后是转写的一个效果， 大概大概就是这个样子。 
然后的话那个在这里边你也可以去给他那个加一个人。 
比如说是嗯我随便给他取一个名字， 
就是连云端的还是自己算的连云端的吧。

spk模式

发言人 0: 是开始这个呃实时的一个转写。
发言人 0: 对，
发言人 0: 然后是转写的一个效果，
发言人 0: 大概大概就是这个样子。
发言人 0: 然后的话那个在这里边你也可以去给他那个加一个人。
发言人 0: 比如说是嗯我随便给他取一个名字，
发言人 1: 就是连云端的还是自己算的连云端的吧。
发言人 0: 呃本地的本地的本地的对，
发言人 0: 不用连看能调吧。
发言人 2: 这个还有对呀，
发言人 0: 然后这里边可以给他加格。

srt模式

0 00:00:01,010 --> 00:00:04,865 发言人 0: 是开始这个呃实时的一个转写。 
1 00:00:06,040 --> 00:00:06,280 发言人 0: 对， 
2 00:00:06,640 --> 00:00:08,660 发言人 0: 然后是转写的一个效果， 
3 00:00:08,680 --> 00:00:10,280 发言人 0: 大概大概就是这个样子。 
4 00:00:10,280 --> 00:00:14,500 发言人 0: 然后的话那个在这里边你也可以去给他那个加一个人。 
5 00:00:14,660 --> 00:00:19,665 发言人 0: 比如说是嗯我随便给他取一个名字， 
6 00:00:20,440 --> 00:00:23,200 发言人 1: 就是连云端的还是自己算的连云端的吧。 
7 00:00:23,240 --> 00:00:25,340 发言人 0: 呃本地的本地的本地的对， 
8 00:00:25,340 --> 00:00:27,275 发言人 0: 不用连看能调吧。 
9 00:00:29,120 --> 00:00:31,480 发言人 2: 这个还有对呀， 
10 00:00:32,130 --> 00:00:33,885 发言人 0: 然后这里边可以给他加格。

5. Docker部署

GPU部署

docker build -t asr-service-gpu:v0.1.0.
docker run --gpus all -d -p 12340:12340 --name asr-service asr-service-gpu:v0.1.0

CPU部署

docker build -f Dockerfile_CPU -t asr-service-cpu:v0.1.0.
docker run -d -p 12340:12340 --name asr-service asr-service-cpu:v0.1.0

项目待办事项

添加更多模型和功能：不断丰富模型库，提供更多实用功能。
支持实时ASR：进一步优化实时流式转写的性能。
添加更多自定义选项：如--mode、--output_format、--hotword等。
简单UI展示：开发简单的用户界面，方便用户使用。
支持声纹识别：满足特定场景下的声纹识别需求。
其他增强功能：如设置并发发送线程数、支持不同格式的音频输入等。

参考资料

FunASR：本项目使用的ASR框架。
Flask：用于构建REST API的Web框架。
funasr-python-api：FunASR服务器的Python API。

如果你对语音识别技术感兴趣，不妨试试OddASR。它简单易用，功能强大，能为你的语音转文字工作带来极大的便利。快来体验吧！

Published 2025-03-24

ASR引擎测试：FunASR，必须给阿里点一个赞

前两天试了一下小红书开源出来的FireRedASR，整体感觉是小红书团队只是把关键的语音识别的模型开放出来了（也只开放了-L的模型），但是由于缺了一些前处理(语音VAD检测）、后处理（标点，多人语音聚类，热词等）相关的功能，普通用户拿到他们这个模型也根本没法直接拿来用，所以个人的观点是对于开源FireRedASR来说，小红书团队的诚意是不够的。而光嘴巴说他们诚意不够是不能令人信服的，所以咱把阿里在2年多前开源出来的FunASR拿出来介绍一下，诚意够不够让大家自己体会。一、FunASR介绍 FunASR是一个由阿里巴巴达摩院开发的开源语音识别工具包，旨在为学术研究和工业应用提供桥梁。它支持多种语音识别功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。FunASR提供了便捷的脚本和教程，支持预训练模型的推理与微调，帮助用户快速构建高效的语音识别服务。支持各种音视频格式输入，可以把几十个小时的长音频与视频识别成带标点的文字，支持上百路请求同时进行转写支持中文、英文、日文、粤语和韩语等。在线体验：https://www.funasr.com/ 注： FunASR是支持GPU推理加速的，不像阿云早先的一个私有云版本的ASR引擎那样，只用CPU来推理的。二、FunAsr核心功能 1. 功能列表 2. 离线语音识别拥有完整的语音识别链路，结合了语音端点检测、语音识别、标点等模型，可以将几十个小时的长音频与视频识别成带标点的文字，而且支持上百路请求同时进行转写。输出为带标点的文字，含有字级别时间戳，支持ITN与用户自定义热词等。 3. 实时听写 FunASR实时语音听写软件包，集成了实时版本的语音端点检测模型、语音识别、语音识别、标点预测模型等。采用多模型协同，既可以实时的进行语音转文字，也可以在说话句尾用高精度转写文字修正输出，输出文字带有标点，支持多路请求。依据使用者场景不同，支持实时语音听写服务（online）、非实时一句话转写（offline）与实时与非实时一体化协同（2pass）3种服务模式。三、安装部署 1. Requirements 2.创建虚拟环境 […]