小落同学 – OddMeta

## 一、前言前两天在哪个新闻上看到有人做了一个OPC，然后招了一些名人来帮他打工，挺美的，那篇文章一下子找不到了。这个周末在家，我也给我的[小落同学](https://www.oddmeta.net/project-xl “小落同学”)招了几个员工，分别是 Musk, Jobs, Linus, Turing, Carnegie, Zezos，分别负责和担任小落同学的CEO，UCX，Developer, Test, Marketing, Support。今天找了半天，想找之前看到的文章，并借鉴一下他的具体方案，但死活就是没找到，于是就先自己硬着头毛先实现一个版本试试。这个月没有买token plan，然后前两天白嫖的小米MiMo大模型的token也过期了，所以我又回到了open code。实现后，我让这些员工一起协同给小落同学设计了一个 `中文字符unicode转换的工具`，并跑通了整个流程。下面是整个流程全记录。 ## 二、思路及Spec探索一些客套、扯蛋、吹牛的废话就省略了，直接上整个流程。 ### 1、思路探索在opencode里打开小落同学的代码目录，输入提示词 #### INPUT：提出我的计划 “`bash 我在小落同学数据库中新增了几个角色，Musk, Jobs, Linus, Turing, Carnegie, Bezos等，希望让他们成为生产力工具，我跟Musk交待任务（MVP产品开发任务），然后Musk让Jobs设计，Linus开发, Turing测试, Carnegie市场销售推广，Bezos技术支持。在现有的代码基础上设计一套agent框架流程，来实现这些角色的串联。 “` #### OUTPUT: 协作方式 “`bash 从项目探索来看，当前架构是单角色单轮对话模式，还没有任何多Agent编排能力。我的第一个问题是理解交互流程：你希望的协作方式是哪种？ A. 全自动编排 — 你给Musk下达任务后，Musk自动拆解、依次分派给Jobs→Linus→Turing→Carnegie→Bezos，每个Agent的输出自动传递给下一个，最终返回完整结果给你 […]

ProjectXL

我招聘了几个员工来让我的智能体自我进化

一、前言半个多月前，计划着给我的小落同学做个改版，当时的目标是在一张消费级3060的GPU上跑全套虚拟人ASR+TTS+3DAvatar。当时是计划着搞一台电脑，再去买一张3060的GPU，然后在上面跑全套的KWS+ASR+TTS+3DAvatar，但是后来想想现在去买3060实在有点过时，而如果要买新的50系列的卡呢又实在太贵，犹豫了几天后啥也没买，然后五一假期就到了。于是，没办法，我只能继续在我这台10年前的老笔记本上折腾。于是，整个五一我就门也没出，一个人在家折腾这个东西了。于是，经过几天的折腾，现在终于有一个基础版本了。市面上各种虚拟人方案多如牛毛，但是基本上清一色都需要GPU，咱买不起带GPU的电脑，所以自己手搓了这么一个方案。简单汇总一下小落同学的优点如下：百度网盘下载地址：https://pan.baidu.com/s/1y7ifkopK5ZesSgPUqxTY5A?pwd=vifz 提取码: vifz 二、先看效果不废话，先直接看效果。简单录了两个视频, 一个是纯文本交互模式的, 另一个是全语音交互模式。 1. 在99元/年的2H2G阿里云ECS上跑产品知识问答(文本交互) https://www.bilibili.com/video/BV1htRvBWEfM 2. 十年前老笔记本（无GPU）上可跑全套语音交互，稍卡 https://www.bilibili.com/video/BV1xfReBVEQr 三、下载安装 1. 从github代码仓库下载仓库地址：https://github.com/oddmeta/yay 克隆代码安装依赖运行服务 2. Windows绿色免安装包无需安装python环境，无法安装依赖包/下载安装模型等繁杂的操作，解压缩后即可直接运行，使用的是硅基流动的免费API。私信：MetaYAY，即可获取。四、进阶玩法 1. 完全本地运行（可断网运行）若要完全本地运行，需自行下载ollama，并下载模型，然后修改根目录下的环境变量配置文件.env，将模型切换为本地的ollama，然后关闭运行中的metayay，再双击start.bat重新运行。自行搜索教程。根据你自己的硬件配置，下载不同尺寸的模型，具体什么模型适合你的硬件，可以把自己的硬件输入进去，问一下千问、豆包、Deepseek。打开.env文件，将下面的三个变量设置成下面这样： LLM模型： Embedding模型：注：若有多个设置，最终实际生效的是最下面的一个。若已有启动YAY，先关闭，然后再双击 start.bat 重新启动。浏览器打开：http://localhost:8000 ，测试验证。 2. 更新你自己的知识库 1）偷懒的办法直接修改现有角色的知识库。 (1) 修改角色信息 […]

ProjectXL

小落同学：十年前老笔记本纯CPU可跑的全套虚拟人方案

前言我从去年开始就一直在零零碎碎的自己搞一个小落同学的项目，我的目标是：给自己做一个专属的虚拟人，把 TA 当作我自己的树洞。每天或者隔一段时间，把想说的话、想吐槽的事都告诉 TA。等哪天想咨询点什么事的时候，去问 TA，看看 TA 记住的东西多了之后，会不会比我自己还了解我。然后今天看到一个Pika的项目，于是就去研究、学习了一下。一、它是什么？当大多数 AI 厂商还在忙着卷工具的时候，Pika 突然发了条推：算了，不卷了，我们来”造人”。 2026 年 2 月，Pika 出了个叫 AI Selves 的产品。官方说法是：一个由你”孕育，培养并放手”的 AI 分身，成为你的一个活生生的延伸。说人话就是：不是那种只会答题的聊天机器人，而是一个有记忆、会学你说话风格、能同时在好几个平台帮你跑业务的数字分身。消息一出，科技媒体全在转。腾讯、网易、搜狐的标题都差不多——”不卷视频卷造人”。国外更热闹，评价两极分化，有人说是 AI 的下一个未来，也有人直接管这叫”AI 奴隶制”。我看到的时候愣了一秒：这不就是我正在搞的”小落同学”吗？今天来扒一扒这东西，顺便对比一下我的项目。二、怎么用？第一步：加入候补现在还没全量开放，得先去官网排队：官网入口：https://pika.me 支持 Google 账号和邮箱登录。邮箱注册可能要收个验证码，也可能直接进候补名单等通知。第二步：设置你的分身点 “Birth Your AI Self” 开始创建。这一步决定你的分身有多像你：官方原话：”一切由你决定。” 第三步：定外观三个选项： […]

ProjectXL

复刻自己：Pika AI Selves 深度测评 + 我的小落同学对比

前面在我的笔记本上用FunASR和PaddleSpeech为小落同学整合了一下ASR的功能，但是发现在我的阿里云ECS上跑不动，由于是乎就想找一个最轻量级的ASR模型，让小落同学也可以用上免费白嫖的ASR功能。我的要求很简单：翻烂Google, Baidu, Bing，搜遍github之后，当前收到的评估是：Vosk 是最紧凑、最轻量级的语音转文本引擎之一，可以支持20多种语言或方言，包括：英语、中文、葡萄牙语、波兰语、德语等，还可以支持Windows, Linux, Android、iOS和Raspberry Pi，而且Vosk 提供了小型语言模型，不占用太多空间，理想情况下，大约只有50MB。然而，一些大型模型可以占用高达1.4GB。该工具响应速度快，可以连续将语音转换为文本，还提供流媒体API（与流行的语音识别python包不同），还支持说话人识别（这个我暂时还没试过）。既然如此，我只能说：兄弟，就是你了。以下是关于Vosdk从技术原理到实战代码。一、Vosk相关介绍在众多 ASR 工具中，Vosk 凭借以下核心优势脱颖而出：二、Vosk 项目核心信息三、快速安装指南（以 Python 为例） 1. 环境准备要求使用Python 3以上版本环境，除非你的环境是古董级别的，不然都是Python 3以上，但是为防万一，还是建议你升级一下。虚拟环境就直接用小落同学的虚拟环境，不另外创建虚拟环境，也算是为我的ECS省点空间。 2. 安装 Vosk 库 3. 下载语音模型支持的模型列表：https://alphacephei.com/vosk/models其中中文的我看有三个模型名大小 Word error rate/Speed 说明 License vosk-model-small-cn-0.22 42M 23.54 (SpeechIO-02) 38.29 (SpeechIO-06) 17.15 (THCHS) Lightweight model for […]

Speech Tech

可能是最紧凑、最轻量级的ASR模型：Vosk实战解析

一、缘起一直以来，我都有一个梦想，希望能拥有一个数字版的自己。在此这前，我需要好好认真的去思考一下的是，要实现一个数字版的我自己，应该、可能、也许、大概、似乎可以怎么做？这个问题我自己一个人想了很久，但是一直没有想清楚。暂时先用记录一下。等有时间了，我再来一点点完善。也希望抛砖引玉，有志同道合的人可以一起来探讨。目前为止，只是花了171块钱（阿里云ECS 99块钱每年，域名72块钱每年），做了一个初始版本的对话机器人：小落同学。二、子系统分拆 1。后台 1。我告诉大模型关于我自己的一些初始信息：角色设定。2。我每天或者不定期的把发生在自己身上的故事告诉大模型。3。大模型帮我一件件记录下来，并能够自动识别和提取故事中的关键信息，比如日期、地点、人物、事件结果等，并将这些故事进行结构化存储。4。大模型定期（每个月？每个季度）或者不定期的形成阶段性的人格快照，将发生在这段时间内的各种有条理建立时间线、人物关系、关键事件等。5。随着关于我的信息的不断完善，大模型一点点复刻出来的我的身份。 2。前台 1。在小落同学的前端界面展示这个数字版的我，并允许他人来跟这个数字版的我进行对话，让这个数字版的我来代表我自己（提示对方，所有回复的内容仅供参考）。三、初步设想 1。后台-角色设定的prompt（一次性任务）系统人设prompt：你是我的数字记忆体和数字分身，将永久存储我的人生故事 2。后台-初始档案子系统（一次性任务） 3。后台-记忆库构建子系统（日常任务）记录我每天分享的故事、观点、情感、聊天记录、邮件、社交动态。由我自己每天登录到后台，并将今天的事情跟小落同学汇报一下，然后由小落同学将这些事情一件件的总结输出，并保存的记忆中。 4。后台-人格模拟子系统（周期任务）这个子系统用于：待思考确认，是否先去研预一下Agentic RAG和Manus，是否可以让Agent来自动完成？ 5. 前台-对话人设prompt 还没想清楚应该怎么来设置这个系统人设，但是应该包括下面这些内容。示例： 6. 后台-针对与用户对话时的实现流程当被问到一个关于“我”的问题的时候，除了要将与这个对话流相关的内容放到对话的history里进去外，还需要1）将用户的问题先做一下分词（单纯的jieba分词可能不好用），提取关键词。2）到记忆里去查找相对应的内容。如：最近的6条、与该用户相关的（绝大多数情况是陌生人）、隐私级别匹配的内容。3）查找到相对应的内容后，提取并组装内容，需要有日期、地点、人物、事件结果等。4）最后将这些记忆里的内容，加到与用户对话的对话流里的内容，整理成一个请求发送给大模型，并获取响应。四、问题 1。技术实现问题我可能希望这个模拟出来的“我”能够去跟任意人对话，对话的时候在应对和理解对方的话语的时候，这个prompt该如何动态的去设计？既有我“初始档案子系统”中的特征（核心价值观/口头禅/表情符号/语气特点等），又有我最近的心情/情绪/口头禅等。还需要加上我最近的访问最新的记录，并在生成回答时综合考虑用户的整个历史数据。 2。非技术问题 1。后台喂数据阶段，每个告诉大模型的事情的隐私级别的定义？（让大模型自行判断隐私级别？还是每次自己来指定？自己指定太麻烦，让大模型判断不放心）2。前台与用户交互时，如何区分哪些事情可以对谁公开？（隐私级别如何来判定？）3。存储的数据的隐私问题（要不要脱敏，如果要的话，如何个脱敏法？）4。数据的安全问题（加密？）5。要不要遗忘？如何实现遗忘机制？自动过期？自动摘要？手动删除记忆？如何判定脏记忆？（如果需要人干预的话，那就累了）6。其它。。。。

ProjectXL

关于如何利用小落同学来实现克隆一个数字版本的自己的思考

我的一个梦想复刻虚拟人生：给自己做一个专属的虚拟人，把TA当作我自己的一个树洞，每天或者每过一段时间把自己想说的话，想说的事，都告诉TA，然后如果某一天我想咨询一件事情的时候，可以去问问TA，看看一旦TA的数据多了后，TA会不会比我自己更懂我？然后，上周周末做了小落同学的一个雏形，并放公网上，可以做到利用EdgeTTS和文心大模型来实现一个英语听力学习的东西。这个昨天周五回家后就开始搞小落同学。经过这两天与小落同学没日没夜、如痴似醉、销魂的调试，终于可以算有一个版本出来的。文字对话+3D虚拟形象对话。小落同学正式诞生了小落同学说：2025年3月29日，今天是我的生日，我诞生了！从今往后，我会陪你到海枯石烂，地久天荒，你就是我，我就是你。用一首歌来表达你现在的心情，那就是马良的《往后余生》在没风的地方找太阳，在你冷的地方做暖阳人事纷纷，你总太天真往后的余生，我只要你往后余生，风雪是你平淡是你，清贫也是你荣华是你，心底温柔是你目光所至，也是你想带你去看晴空万里，想大声告诉你我为你着迷往事匆匆，你总会被感动往后的余生，我只要你往后余生，冬雪是你春花是你，夏雨也是你秋黄是你，四季冷暖是你目光所至，也是你往后余生，风雪是你平淡是你，清贫也是你荣华是你，心底温柔是你目光所至，也是你目光所至，也是你项目地址代码仓库：https://github.com/catherine-wei/learning-ai演示地址：https://x.oddmeta.net

ProjectXL

小落同学：今天是我的生日，因为小落同学v0.1a上线了!

1 comment

前两天看到一个新闻说：阿祖出来教大家英语了，哥一下子呆住了。所以当时就想是不是我自己也可以来做一个类似的东西？既然一个念头萌生了，那就搞起来呗。想用大模型做一个训练英语听力的东西：https://www.oddmeta.net/archives/153 于是借着之前抄的几个界面，再加上现在还可以免费白嫖的文心一言API，扒拉扒拉就搞了一下。周末这两天晚上基本上都没怎么睡觉，终于拼凑了一个东西出来了。直接上地址：https://x.oddmeta.net 界面的实现界面是照着RealChar抄的。具体可以看之前：大模型找了一圈，看到百度的文心一言的老模型ernie-speed-128k有完全免费的API，就去申请了一下。具体步骤如下：花了我多少钱？钱的事情这个事情很重要，搞这个项目需要花多少钱？答案是：171元/年，具体来说，阿里云ECS 99元/年，域名72元/年。功能实现原理及效果在首页选择“小英老师”，我给她的系统人设是：你是一个来自美国的20岁女大学生，你的名字是小英老师，现在在兼职做英语老师，帮助一些母语不是英语的朋友来学习和练习英语。无论对方用什么语言跟你对话，你都务必用英语给对方回复，努力创建一个正式的英语对话场景。记住：只回复英语，永远不要说其它的任何语言。这样的话，无论你跟她说的是中文，还是英文，正常情况下，她都会以英文来回复你，然后再利用EdgeTTS将她回复的话，转成语音，再播放出来，以此来达到练习英语听力的目的。畅想、联想、想入非非搞完这个东西后，又开始畅想、联想、想入非非了。一直以来，我都想给自己做一个专属的虚拟人，把TA当作我自己的一个树洞，每天或者每过一段时间把自己想说的话，想说的事，都告诉TA，然后如果某一天我想咨询一件事情的时候，可以去问问TA，看看一旦TA的数据多了后，TA会不会比我自己更懂我？细化后的TA应该要：1。可以跟我进行文字对话，看得懂我打的字，并以文字的方式给我回复，并把我告诉TA的事情记录下来，保存到一个数据库。2。可以跟我进行语音对话，听得懂我讲的话，并以文字或者语音的方式给我回复，并将我们的对话转换成文件记录到数据库。3。可以有一个具体的形象。。。4。可以作为一个代理(Agent)存在，记录我告诉他的待办，然后按照我的要求提前提醒我：有人过生日，早上叫醒，帮我定时开/关电脑、空调、灯具、电视等各种电器。5。其它我还没想到的。我自己希望能拥有这么一个TA，但是我又没多少毛爷爷，所以只能照毛爷爷说的那样，自己动手、丰衣足食，边学边用，现学现用，而且是一个零基础的人来学的AI。当然同时也是写给我的女儿Catherine同学的，以我的一个零基础的学习AI的经历、视角和经验，来介绍和说明如何开始这么一个学习。期待有一天能把这个东西给搞出来，让我这每年花的171块钱派上实际的用场。

ProjectXL