语音聊天 – OddMeta

回首当年，咱要练习听力，就是看美剧，但是现在时代不一样了。刚才看到一个新闻，说吴彦祖跨界教英语！而Catherine同学去年春考英语没考好，由于也拿不到考试的实际结果，不能明确知道到底是哪儿丢了多少分，但是猜测一部分的原因就在于听力那里不知道是开个个小差，还是怎么样，反正大概率就是在那里丢了不少分。考虑到去年跟Catherine一起学习了一些智能相关的东西，心想是不是刚好可以把这个作为一个课题来练习？等Catherine这个星期五从学校放学回来了，跟她再商量商量。不过，我自己的计划可以先做起来。同时也是为了庆祝，咱这个公众号终于通过了实名认证，中间的千波万折咱就不提了。另外，也敬告阿祖，这次别收手了。想做一个练习听力的功能 – 将Catherine前面做的聊天机器人后台改一下，加个TTS(Text to speech)的功能。 – 给聊天机器人加一个system prompt（系统人设），让TA不管你跟TA用什么语言来说话，统一都只用英语来回复。 – 然后前端在收到后台LMM返回的文字后，再去调用一下后台的TTS引擎，生成音频，再返回给前端，由前端来将其播放出来。 – 其它。。。省略一万字，各种暂时还没想到的功能或流程跟“阿祖教英语”的区别互动方式不同：阿祖教英语实际上就是看视频；咱要做一个实时互动的聊天。问了下deepseek：视频教学和实时互动教学的区别 Deepseek说：视频教学和实时互动教学是两种主流在线教育形式，其核心区别及对初学者的适用性可从以下维度分析：对比维度视频教学实时互动教学互动性单向输出，缺乏即时反馈双向交流，可实时提问、纠错灵活性自主安排学习时间，支持反复观看固定时间参与，需同步在线学习氛围标准化内容，适合基础知识点传递可根据学生水平调整难度，针对性强教学深度缺乏社交属性，易产生孤独感师生 / 同学互动增强参与感技术要求低（仅需播放设备）高（需稳定网络、互动工具操作能力）如果是用AI来做的话，那上面提到的实时互动教学的“灵活性”一条，也可以不需要固定时间参与，不需要同步在线了。为什么只做听力，不做口语？一句话来说就是：臣妾做不到啊。以下是借口：如果要练习口语的话，考虑到现有的STT(Speech-to-text)语音转文字/ASR语音识别的功能不太合适，如果你发音不对的话，直接在STT这一环就被识别错误，到了文本大模型就已经是一段错误的文本，现有的、我掌握的技术路径下，无法做到用一个音频大模型来覆盖开放式的口语发音的学习的功能，现有的口语训练校正都是封闭式的，如：给出一段固定的文字，然后后台配置一个标准发音的音频，然后再将用户说出来的音频来做一个对比，看匹配度多少，以此来打分，这个打分功能就跟KTV里的卡拉OK打分一样，可能是非常不准确的，许多时候重要的只是音量，不是实际的发音。立个Flag 我要开工了，这次一定不半途而废。不管这个练习听力的功能最终的实际效果会怎么样，适不适应这个应用场景，现在我也不知道，但是退一步讲，这个功能即使最终发现不适合，那单纯这个TTS文字转语音的功能也是日后虚拟人标配必须的功能。希望利用这个星期的下班时间搞一搞。

ProjectXL

想用大模型做一个训练英语听力的东西

1 comment

Open WebUI：手把手教你用语音跟大模型沟通(附http网页开麦克风权限)

同之前的Open WebUI联网搜索功能异常问题一样，一样步骤很简单。下载STT模型先得启用一下Open WebUI的STT(Speech To Text）语音转文本的功能，用管理员登录进去，然后点OpenWebUI的右上角Admin Panel（管理面板）设置，再到Setting的Audio设置项，如下图所示，先在STT Model那里填一个wisper模型名，如：base（截图的时候忘记填了），然后点击一下那个下载按钮。若是点了后没任何响应，看下后台的日志，如果碰到诸如此类的报错：那我只能说，你没有任何错，只是错在你身处的这个网络（需要科学上网）在服务器上，执行下面的命令设置一下huggingface的镜像站，然后再重新下载一下。若是还是没有任何响应，确认一下STT Model那里的wisper模型名有没有填，有填的话填的对不对。解决http地址无法访问麦克风问题 http网页默认情况下是不允许开麦克风和摄像头的，但是如果是为了测试功能，我们可以通过如下步骤在chrome里来给打开然后在Insecure origins treated as secure里将默认的Disabled改成Enabled，并将你要访问的地址填一下到里边（可以多个）。填完后会提示你重启浏览器生效。重启后你就可以在这个地址开麦克风、摄像头了。解决了http无法开麦克风问题后，到Open WebUI就可以录音频的方式去问问题了。

LLM