## 一、前言 前两天在哪个新闻上看到有人做了一个OPC,然后招了一些名人来帮他打工,挺美的,那篇文章一下子找不到了。 这个周末在家,我也给我的[小落同学](https://www.oddmeta.net/project-xl “小落同学”)招了几个员工,分别是 Musk, Jobs, Linus, Turing, Carnegie, Zezos,分别负责和担任小落同学的CEO,UCX,Developer, Test, Marketing, Support。 今天找了半天,想找之前看到的文章,并借鉴一下他的具体方案,但死活就是没找到,于是就先自己硬着头毛先实现一个版本试试。 这个月没有买token plan,然后前两天白嫖的小米MiMo大模型的token也过期了,所以我又回到了open code。 实现后,我让这些员工一起协同给小落同学设计了一个 `中文字符unicode转换的工具`,并跑通了整个流程。下面是整个流程全记录。 ## 二、思路及Spec探索 一些客套、扯蛋、吹牛的废话就省略了,直接上整个流程。 ### 1、思路探索 在opencode里打开小落同学的代码目录,输入提示词 #### INPUT:提出我的计划 “`bash 我在小落同学数据库中新增了几个角色,Musk, Jobs, Linus, Turing, Carnegie, Bezos等,希望让他们成为生产力工具,我跟Musk交待任务(MVP产品开发任务),然后Musk让Jobs设计,Linus开发, Turing测试, Carnegie市场销售推广,Bezos技术支持。 在现有的代码基础上设计一套agent框架流程,来实现这些角色的串联。 “` #### OUTPUT: 协作方式 “`bash 从项目探索来看,当前架构是单角色单轮对话模式,还没有任何多Agent编排能力。 我的第一个问题是理解交互流程: 你希望的协作方式是哪种? A. 全自动编排 — 你给Musk下达任务后,Musk自动拆解、依次分派给Jobs→Linus→Turing→Carnegie→Bezos,每个Agent的输出自动传递给下一个,最终返回完整结果给你 […]
Monthly Archives: May 2026
## 一、前言 之前聊了三篇了。Embedding 搜索、Reranker 精排、向量索引加速。文本侧的 RAG 管线基本捋顺了。但有读者问了一个现阶段我还没法回答的问题:**小落同学能不能听懂人话?** 不是 NLP 层面的”理解”,是物理意义上的。你对着手机说一句话,它翻译成另一种语言,再读出来。实时的那种。 小落同学目前跑在一台十年前的笔记本和一台 99 块的 ECS 上,2GB 内存,纯 CPU。这个硬件跑 Whisper 语音识别?想都不用想。但手机就不一样了——现在的 Android 手机,哪怕是个中端机,也塞了 8GB 内存和一堆 NPU/DSP 加速单元。 RTranslator 就是干这个的。开源的,离线的,实时的,一个 Android 翻译 App。翻译用 Meta 的 NLLB,语音识别用 OpenAI 的 Whisper。全在手机上跑,不联网,没服务器。 RTranslator 在 GitHub 上 10k+ stars 了,v2.1.5 已经发了,v3.0 还在搞。这篇就是想看看它能不能帮小落同学实现同声传译——能不能把手机变成小落同学的耳朵和嘴巴。 ## 二、方案介绍 先把概念拉出来: | 概念 […]
一、前言 半个多月前,计划着给我的小落同学做个改版,当时的目标是在一张消费级3060的GPU上跑全套虚拟人ASR+TTS+3DAvatar。 当时是计划着搞一台电脑,再去买一张3060的GPU,然后在上面跑全套的KWS+ASR+TTS+3DAvatar,但是后来想想现在去买3060实在有点过时,而如果要买新的50系列的卡呢又实在太贵,犹豫了几天后啥也没买,然后五一假期就到了。 于是,没办法,我只能继续在我这台10年前的老笔记本上折腾。于是,整个五一我就门也没出,一个人在家折腾这个东西了。于是,经过几天的折腾,现在终于有一个基础版本了。 市面上各种虚拟人方案多如牛毛,但是基本上清一色都需要GPU,咱买不起带GPU的电脑,所以自己手搓了这么一个方案。 简单汇总一下小落同学的优点如下: 百度网盘下载地址:https://pan.baidu.com/s/1y7ifkopK5ZesSgPUqxTY5A?pwd=vifz 提取码: vifz 二、先看效果 不废话,先直接看效果。简单录了两个视频, 一个是纯文本交互模式的, 另一个是全语音交互模式。 1. 在99元/年的2H2G阿里云ECS上跑产品知识问答(文本交互) https://www.bilibili.com/video/BV1htRvBWEfM 2. 十年前老笔记本(无GPU)上可跑全套语音交互,稍卡 https://www.bilibili.com/video/BV1xfReBVEQr 三、下载安装 1. 从github代码仓库下载 仓库地址:https://github.com/oddmeta/yay 克隆代码 安装依赖 运行服务 2. Windows绿色免安装包 无需安装python环境,无法安装依赖包/下载安装模型等繁杂的操作,解压缩后即可直接运行,使用的是硅基流动的免费API。私信:MetaYAY,即可获取。 四、进阶玩法 1. 完全本地运行(可断网运行) 若要完全本地运行,需自行下载ollama,并下载模型,然后修改根目录下的环境变量配置文件.env,将模型切换为本地的ollama,然后关闭运行中的metayay,再双击start.bat重新运行。 自行搜索教程。 根据你自己的硬件配置,下载不同尺寸的模型,具体什么模型适合你的硬件,可以把自己的硬件输入进去,问一下千问、豆包、Deepseek。 打开.env文件,将下面的三个变量设置成下面这样: LLM模型: Embedding模型: 注:若有多个设置,最终实际生效的是最下面的一个。 若已有启动YAY,先关闭,然后再双击 start.bat 重新启动。 浏览器打开:http://localhost:8000 ,测试验证。 2. 更新你自己的知识库 1)偷懒的办法 直接修改现有角色的知识库。 (1) 修改角色信息 […]