经过一个周末的努力,EasyIPCam终于可以发布第一个版本了,且可以同时支持音频和视频。其中视频暂只支持MPEG4格式,音频暂只支持ALAW,但可同时支持RTP over TCP 和 RTP over UDP两种模式,这样,可以保证在Wifi和3G网络下都能正常工作。
不过,可以肯定的是还存在很多问题有待改进,慢慢来吧,有空就弄弄,没空就拖拖,呵呵。
经过一个周末的努力,EasyIPCam终于可以发布第一个版本了,且可以同时支持音频和视频。其中视频暂只支持MPEG4格式,音频暂只支持ALAW,但可同时支持RTP over TCP 和 RTP over UDP两种模式,这样,可以保证在Wifi和3G网络下都能正常工作。
不过,可以肯定的是还存在很多问题有待改进,慢慢来吧,有空就弄弄,没空就拖拖,呵呵。
I was building webrtc on my notebook which OS is Win7 when I ran into this issue. I followed my previous steps […]
RTP/RTCP入门 Getting started with RTP/RTCP [gview file=”getting-started-with-rtp-rtcp.pdf” save=”0″]
The VLC media player includes file cache and stream buffer options to enable fine-grained control over video playback on machines with limited […]
前两天试了一下小红书开源出来的FireRedASR,整体感觉是小红书团队只是把关键的语音识别的模型开放出来了(也只开放了-L的模型),但是由于缺了一些前处理(语音VAD检测)、后处理(标点,多人语音聚类,热词等)相关的功能,普通用户拿到他们这个模型也根本没法直接拿来用,所以个人的观点是对于开源FireRedASR来说,小红书团队的诚意是不够的。 而光嘴巴说他们诚意不够是不能令人信服的,所以咱把阿里在2年多前开源出来的FunASR拿出来介绍一下,诚意够不够让大家自己体会。 一、FunASR介绍 FunASR是一个由阿里巴巴达摩院开发的开源语音识别工具包,旨在为学术研究和工业应用提供桥梁。它支持多种语音识别功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。FunASR提供了便捷的脚本和教程,支持预训练模型的推理与微调,帮助用户快速构建高效的语音识别服务。 支持各种音视频格式输入,可以把几十个小时的长音频与视频识别成带标点的文字,支持上百路请求同时进行转写 支持中文、英文、日文、粤语和韩语等。 在线体验:https://www.funasr.com/ 注: FunASR是支持GPU推理加速的,不像阿云早先的一个私有云版本的ASR引擎那样,只用CPU来推理的。 二、FunAsr核心功能 1. 功能列表 2. 离线语音识别 拥有完整的语音识别链路,结合了语音端点检测、语音识别、标点等模型,可以将几十个小时的长音频与视频识别成带标点的文字,而且支持上百路请求同时进行转写。输出为带标点的文字,含有字级别时间戳,支持ITN与用户自定义热词等。 3. 实时听写 FunASR实时语音听写软件包,集成了实时版本的语音端点检测模型、语音识别、语音识别、标点预测模型等。采用多模型协同,既可以实时的进行语音转文字,也可以在说话句尾用高精度转写文字修正输出,输出文字带有标点,支持多路请求。依据使用者场景不同,支持实时语音听写服务(online)、非实时一句话转写(offline)与实时与非实时一体化协同(2pass)3种服务模式。 三、安装部署 1. Requirements 2.创建虚拟环境 […]