回首当年,咱要练习听力,就是看美剧,但是现在时代不一样了。

刚才看到一个新闻,说吴彦祖跨界教英语!
而Catherine同学去年春考英语没考好,由于也拿不到考试的实际结果,不能明确知道到底是哪儿丢了多少分,但是猜测一部分的原因就在于听力那里不知道是开个个小差,还是怎么样,反正大概率就是在那里丢了不少分。
考虑到去年跟Catherine一起学习了一些智能相关的东西,心想是不是刚好可以把这个作为一个课题来练习?等Catherine这个星期五从学校放学回来了,跟她再商量商量。不过,我自己的计划可以先做起来。
同时也是为了庆祝,咱这个公众号终于通过了实名认证,中间的千波万折咱就不提了。
另外,也敬告阿祖,这次别收手了。
想做一个练习听力的功能
– 将Catherine前面做的聊天机器人后台改一下,加个TTS(Text to speech)的功能。
– 给聊天机器人加一个system prompt(系统人设),让TA不管你跟TA用什么语言来说话,统一都只用英语来回复。
– 然后前端在收到后台LMM返回的文字后,再去调用一下后台的TTS引擎,生成音频,再返回给前端,由前端来将其播放出来。
– 其它。。。省略一万字,各种暂时还没想到的功能或流程
跟“阿祖教英语”的区别
互动方式不同:阿祖教英语实际上就是看视频;咱要做一个实时互动的聊天。
问了下deepseek:视频教学和实时互动教学的区别
Deepseek说:
视频教学和实时互动教学是两种主流在线教育形式,其核心区别及对初学者的适用性可从以下维度分析:
对比维度 | 视频教学 | 实时互动教学 |
互动性 | 单向输出,缺乏即时反馈 | 双向交流,可实时提问、纠错 |
灵活性 | 自主安排学习时间,支持反复观看 | 固定时间参与,需同步在线 |
学习氛围 | 标准化内容,适合基础知识点传递 | 可根据学生水平调整难度,针对性强 |
教学深度 | 缺乏社交属性,易产生孤独感 | 师生 / 同学互动增强参与感 |
技术要求 | 低(仅需播放设备) | 高(需稳定网络、互动工具操作能力) |
如果是用AI来做的话,那上面提到的实时互动教学的“灵活性”一条,也可以不需要固定时间参与,不需要同步在线了。
为什么只做听力,不做口语?
一句话来说就是:臣妾做不到啊。
以下是借口:
如果要练习口语的话,考虑到现有的STT(Speech-to-text)语音转文字/ASR语音识别的功能不太合适,如果你发音不对的话,直接在STT这一环就被识别错误,到了文本大模型就已经是一段错误的文本,现有的、我掌握的技术路径下,无法做到用一个音频大模型来覆盖开放式的口语发音的学习的功能,现有的口语训练校正都是封闭式的,如:给出一段固定的文字,然后后台配置一个标准发音的音频,然后再将用户说出来的音频来做一个对比,看匹配度多少,以此来打分,这个打分功能就跟KTV里的卡拉OK打分一样,可能是非常不准确的,许多时候重要的只是音量,不是实际的发音。
立个Flag
我要开工了,这次一定不半途而废。不管这个练习听力的功能最终的实际效果会怎么样,适不适应这个应用场景,现在我也不知道,但是退一步讲,这个功能即使最终发现不适合,那单纯这个TTS文字转语音的功能也是日后虚拟人标配必须的功能。希望利用这个星期的下班时间搞一搞。
One thought on “想用大模型做一个训练英语听力的东西”