想用大模型做一个训练英语听力的东西

回首当年，咱要练习听力，就是看美剧，但是现在时代不一样了。

刚才看到一个新闻，说吴彦祖跨界教英语！

而Catherine同学去年春考英语没考好，由于也拿不到考试的实际结果，不能明确知道到底是哪儿丢了多少分，但是猜测一部分的原因就在于听力那里不知道是开个个小差，还是怎么样，反正大概率就是在那里丢了不少分。

考虑到去年跟Catherine一起学习了一些智能相关的东西，心想是不是刚好可以把这个作为一个课题来练习？等Catherine这个星期五从学校放学回来了，跟她再商量商量。不过，我自己的计划可以先做起来。

同时也是为了庆祝，咱这个公众号终于通过了实名认证，中间的千波万折咱就不提了。

另外，也敬告阿祖，这次别收手了。

想做一个练习听力的功能

– 将Catherine前面做的聊天机器人后台改一下，加个TTS(Text to speech)的功能。

– 给聊天机器人加一个system prompt（系统人设），让TA不管你跟TA用什么语言来说话，统一都只用英语来回复。

– 然后前端在收到后台LMM返回的文字后，再去调用一下后台的TTS引擎，生成音频，再返回给前端，由前端来将其播放出来。

– 其它。。。省略一万字，各种暂时还没想到的功能或流程

跟“阿祖教英语”的区别

互动方式不同：阿祖教英语实际上就是看视频；咱要做一个实时互动的聊天。

问了下deepseek：视频教学和实时互动教学的区别

Deepseek说：

视频教学和实时互动教学是两种主流在线教育形式，其核心区别及对初学者的适用性可从以下维度分析：

对比维度	视频教学	实时互动教学
互动性	单向输出，缺乏即时反馈	双向交流，可实时提问、纠错
灵活性	自主安排学习时间，支持反复观看	固定时间参与，需同步在线
学习氛围	标准化内容，适合基础知识点传递	可根据学生水平调整难度，针对性强
教学深度	缺乏社交属性，易产生孤独感	师生 / 同学互动增强参与感
技术要求	低（仅需播放设备）	高（需稳定网络、互动工具操作能力）

如果是用AI来做的话，那上面提到的实时互动教学的“灵活性”一条，也可以不需要固定时间参与，不需要同步在线了。

为什么只做听力，不做口语？

一句话来说就是：臣妾做不到啊。

以下是借口：

如果要练习口语的话，考虑到现有的STT(Speech-to-text)语音转文字/ASR语音识别的功能不太合适，如果你发音不对的话，直接在STT这一环就被识别错误，到了文本大模型就已经是一段错误的文本，现有的、我掌握的技术路径下，无法做到用一个音频大模型来覆盖开放式的口语发音的学习的功能，现有的口语训练校正都是封闭式的，如：给出一段固定的文字，然后后台配置一个标准发音的音频，然后再将用户说出来的音频来做一个对比，看匹配度多少，以此来打分，这个打分功能就跟KTV里的卡拉OK打分一样，可能是非常不准确的，许多时候重要的只是音量，不是实际的发音。

立个Flag

我要开工了，这次一定不半途而废。不管这个练习听力的功能最终的实际效果会怎么样，适不适应这个应用场景，现在我也不知道，但是退一步讲，这个功能即使最终发现不适合，那单纯这个TTS文字转语音的功能也是日后虚拟人标配必须的功能。希望利用这个星期的下班时间搞一搞。

Published 2025-03-22

利用EdgeTTS和文心大模型做了一个英语听力学习的东西

前两天看到一个新闻说：阿祖出来教大家英语了，哥一下子呆住了。所以当时就想是不是我自己也可以来做一个类似的东西？既然一个念头萌生了，那就搞起来呗。想用大模型做一个训练英语听力的东西：https://www.oddmeta.net/archives/153 于是借着之前抄的几个界面，再加上现在还可以免费白嫖的文心一言API，扒拉扒拉就搞了一下。周末这两天晚上基本上都没怎么睡觉，终于拼凑了一个东西出来了。直接上地址：https://x.oddmeta.net 界面的实现界面是照着RealChar抄的。具体可以看之前：大模型找了一圈，看到百度的文心一言的老模型ernie-speed-128k有完全免费的API，就去申请了一下。具体步骤如下：花了我多少钱？钱的事情这个事情很重要，搞这个项目需要花多少钱？答案是：171元/年，具体来说，阿里云ECS 99元/年，域名72元/年。功能实现原理及效果在首页选择“小英老师”，我给她的系统人设是：你是一个来自美国的20岁女大学生，你的名字是小英老师，现在在兼职做英语老师，帮助一些母语不是英语的朋友来学习和练习英语。无论对方用什么语言跟你对话，你都务必用英语给对方回复，努力创建一个正式的英语对话场景。记住：只回复英语，永远不要说其它的任何语言。这样的话，无论你跟她说的是中文，还是英文，正常情况下，她都会以英文来回复你，然后再利用EdgeTTS将她回复的话，转成语音，再播放出来，以此来达到练习英语听力的目的。畅想、联想、想入非非搞完这个东西后，又开始畅想、联想、想入非非了。一直以来，我都想给自己做一个专属的虚拟人，把TA当作我自己的一个树洞，每天或者每过一段时间把自己想说的话，想说的事，都告诉TA，然后如果某一天我想咨询一件事情的时候，可以去问问TA，看看一旦TA的数据多了后，TA会不会比我自己更懂我？细化后的TA应该要：1。可以跟我进行文字对话，看得懂我打的字，并以文字的方式给我回复，并把我告诉TA的事情记录下来，保存到一个数据库。2。可以跟我进行语音对话，听得懂我讲的话，并以文字或者语音的方式给我回复，并将我们的对话转换成文件记录到数据库。3。可以有一个具体的形象。。。4。可以作为一个代理(Agent)存在，记录我告诉他的待办，然后按照我的要求提前提醒我：有人过生日，早上叫醒，帮我定时开/关电脑、空调、灯具、电视等各种电器。5。其它我还没想到的。我自己希望能拥有这么一个TA，但是我又没多少毛爷爷，所以只能照毛爷爷说的那样，自己动手、丰衣足食，边学边用，现学现用，而且是一个零基础的人来学的AI。当然同时也是写给我的女儿Catherine同学的，以我的一个零基础的学习AI的经历、视角和经验，来介绍和说明如何开始这么一个学习。期待有一天能把这个东西给搞出来，让我这每年花的171块钱派上实际的用场。

想用大模型做一个训练英语听力的东西

Leave a comment Cancel reply

One thought on “想用大模型做一个训练英语听力的东西”