小红书开源了他们的自动语音识别模型FireRedASR,宣称很牛逼。今天咱也部署一下,并对它做一下测试。 项目地址: https://github.com/FireRedTeam/FireRedASR 为节省大家的时间,直接上结论:这玩意儿拿来学习不错,想拿来做产品不行。如果你是想评估FireRedASR是不是可以直接拿来做产品,那这边劝你放弃吧,但是如果你是想做ASR底层算法的研究,想了解一下它的具体情况的,可以继续往下看。 # 一、FireRedAsr介绍 FireRedASR 据介绍是一个工业级自动语音识别模型,支持普通话、中文方言和英语。该模型在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),并在歌词识别方面表现出色。 ## 版本 它包括了两个版本,分别是FireRedASR-LLM和FireRedASR-AED。 – FireRedASR-LLM:专注于极致的语音识别精度。基于大型语言模型(LLM)的能力,实现 SOTA 性能,支持无缝端到端语音交互。在普通话基准测试中平均字符错误率(CER)为 3.05%,相比之前的 SOTA 模型(3.33%)降低了 8.4%。 – FireRedASR-AED:平衡了高准确率与推理效率。采用基于注意力的编码器-解码器(AED)架构,平衡高性能和计算效率,可作为基于 LLM 的语音模型中的有效语音表示模块。在普通话基准测试中平均 CER 为 3.18%,优于拥有超过 12B 参数的 Seed-ASR。 ## 技术原理 – FireRedASR-LLM:结合了大型语言模型(LLM)的能力,实现 SOTA 性能; – FireRedASR-AED 利用经典的 AED 架构,确保高效推理。 # 二、硬件环境 租的AutoDL的GPU服务器做的测试 – 软件环境 PyTorch 2.5.1、Python 3.12(ubuntu22.04)、Cuda […]
小红书
1 post