我招聘了几个员工来让我的智能体自我进化

## 一、前言

前两天在哪个新闻上看到有人做了一个OPC，然后招了一些名人来帮他打工，挺美的，那篇文章一下子找不到了。

这个周末在家，我也给我的[小落同学](https://www.oddmeta.net/project-xl “小落同学”)招了几个员工，分别是 Musk, Jobs, Linus, Turing, Carnegie, Zezos，分别负责和担任小落同学的CEO，UCX，Developer, Test, Marketing, Support。

今天找了半天，想找之前看到的文章，并借鉴一下他的具体方案，但死活就是没找到，于是就先自己硬着头毛先实现一个版本试试。

这个月没有买token plan，然后前两天白嫖的小米MiMo大模型的token也过期了，所以我又回到了open code。

实现后，我让这些员工一起协同给小落同学设计了一个 `中文字符unicode转换的工具`，并跑通了整个流程。下面是整个流程全记录。

## 二、思路及Spec探索

一些客套、扯蛋、吹牛的废话就省略了，直接上整个流程。

### 1、思路探索

在opencode里打开小落同学的代码目录，输入提示词

#### INPUT：提出我的计划

“`bash
我在小落同学数据库中新增了几个角色，Musk, Jobs, Linus, Turing, Carnegie, Bezos等，希望让他们成为生产力工具，我跟Musk交待任务（MVP产品开发任务），然后Musk让Jobs设计，Linus开发, Turing测试, Carnegie市场销售推广，Bezos技术支持。

在现有的代码基础上设计一套agent框架流程，来实现这些角色的串联。
“`

#### OUTPUT: 协作方式

“`bash
从项目探索来看，当前架构是单角色单轮对话模式，还没有任何多Agent编排能力。

我的第一个问题是理解交互流程：

你希望的协作方式是哪种？

A. 全自动编排 — 你给Musk下达任务后，Musk自动拆解、依次分派给Jobs→Linus→Turing→Carnegie→Bezos，每个Agent的输出自动传递给下一个，最终返回完整结果给你

B. 手动分派 — 你给Musk任务，Musk产出一份计划/需求文档，然后你手动触发不同Agent去执行不同环节（类似选择谁去做什么）

C. 混合模式 — 自动走完MVP开发流程（设计→开发→测试→市场→支持），但每个环节输出需要你确认后再继续

D. 实时协作文档 — 所有Agent并行工作，你通过类似飞书/Notion的界面看到每个Agent的实时输出和协作进展
混合模式 — 自动走完MVP开发流程（设计→开发→测试→市场→支持），但每个环节输出需要你确认后再继续
“`

我选择
> 混合模式：各Agent的串联流程自动执行，但每个环节产出的结果需要你确认后再进入下一步。

#### OUTPUT: 交互界面

“`bash
下一个问题：你和Agent之间的交互界面是什么？

A. 现有的聊天界面 — 同一个WebSocket对话，Agent的输出以消息流形式呈现，你回复”确认”或”修改意见”来推进流程

B. 新增一个项目管理界面 — 前端新增类似Trello/Jira的面板，每个Agent的任务卡片需要你点击”批准”才进入下一阶段

C. 聊天为主+简单控制按钮 — 聊天框里看到每个Agent的输出，附加”批准/驳回/修改建议”的快捷按钮
“`

我选择
> 新增一个项目管理界面 — 前端新增类似Trello/Jira的面板，每个Agent的任务卡片需要你点击”批准”才进入下一阶段

#### OUTPUT：Agent的产出物是什么格式

“`bash
下一个问题：Agent的产出物是什么格式？比如Jobs完成设计后，产出的”交付物”是什么类型？

A. 纯文本/文档 — 设计文档、需求规格、测试用例、市场方案等都是可读的长文本

B. 结构化的多文件产出 — Jobs产出UI描述/原型描述，Linus产出代码文件，Turing产出测试用例，Carnegie产出营销文案等

C. 仅做决策建议 — 每个Agent只是分析和建议，最终由你来决定和执行
“`

我选择
> 仅做决策建议 — 每个Agent只是分析和建议，最终由你来决定和执行

#### OUTPUT：SUMMARY

“`bash
好，当前版本每个Agent产出分析建议（长文本），未来版本再支持结构化输出。

下一个问题：当Agent产出建议后，你审批时的交互细节？

A. 只需点击”通过” — 点击通过后自动进入下一阶段，不需要你输入文字

B. 通过/驳回+意见 — 可以选择通过，或驳回并附上修改意见（Agent会根据意见重新产出）

C. 通过/驳回/要求补充 — 三个选项，”要求补充”会让Agent在当前阶段补充更多细节
“`

我选择
> C. 通过/驳回/要求补充

#### OUTPUT: 三个初选方案

“`bash
方案 A：Workflow 引擎扩展现有架构 ✅ 推荐
在现有 engine/ 层新增 engine/agent/ 模块，包含：

AgentWorkflow — 工作流状态机（定义6个Agent的编排顺序）
AgentTask — 单个Agent执行单元（加载对应角色的prompt + 上下文 → 调用LLM → 产出内容）
新的DB模型：Project 和 ProjectTask，持久化项目状态
前端新增看板页面（新路由），REST API 做CRUD + 审批
优点：复用现有LLM、Prompt、Character基础设施；数据结构清晰，重启不丢状态；可扩展（未来加Agent、加并行都很自然）缺点：需要新增前后端较多代码

方案 B：纯聊天的轻量流水线
不新增DB模型，不增加前端看板页面。用户→Musk聊天，Agent输出依次通过WebSocket回传，前端用时间线/对话流展示。审批通过快捷按钮（通过/驳回/备注）实现。

优点：最快实现；无新DB，无新路由缺点：无状态持久化；没有结构化的任务视图；复杂审批逻辑不好做

方案 C：独立的Agent编排微服务
独立的 agent_orchestrator 服务，Redis消息队列，完整的状态机框架。

优点：最干净的架构分离，未来可支持并行Agent 缺点：当前阶段过度设计，基础设施成本太高

推荐方案A — 理由是：你的需求已经包含了持久化项目管理 + 看板 + 多状态审批 + 重做机制，这些都需要结构化数据和状态管理，纯聊天模式不够。方案A在现有代码基础上增量添加，不会破坏现有功能。
“`

我选择
> 方案A：Workflow 引擎扩展现有架构

开始输出一个第一个版本的spec。

### 2. Spec确认

看了整个spec后，我提出了一些问题：

– 在当前的设计中，如果一个任务还未结束，前端又给我的CEO Musk交待一个新的任务会怎么样？
– 一整个项目的流程下来，整个上下文可能会很长，我使用的大模型（免费白嫖的模型、或者本地部署的模型）总上下文不够，可以如何优化？
– 每个不同角色的提示词需要设计一下，当前我自己给CEO、CTO、UXD、TEST、SUPPORT、MARKET等角色写的提示词需优化
– 这些prompt保存到数据库表格llmpromptmodel，进行统一管理，同时在角色表里可以自定义每个角色的prompt
– 在聊天界面用 /project 命令给我的CEO交待了一个任务，但是执行报错
– 执行任务报错了，看板上的任务都处于等待执行状态，无法再进行下去了

### 3. 开发

在经过几轮次的交互后，superpowers终于确认了整个Spec，并给出了一个开发计划，然后opencode就开始写代码，大概过了十几分钟，或者最多半个钟头，终于给出了一个版本，但是实际上还会有一些问题，再经过几轮次的测试、验证，就搞定了。

后面用一个实际的例子来跑了一下整个工作流，详见下文。

## 三、测试

在代码完成后，重启一下小落同学的的后台，然后再重新打开一下小落同学前端：`http://localhost:8000` ，并在那时选择与我们家CEO 马斯克聊天，然后跟他讲：

“`bash
/project 给本项目加一个中文字符unicode转换的工具
“`

> 注：
1. 项目命令：`/project 项目描述`
2. 只有马斯克同学才会接项目。你跟其他任何人讲都没用，只有马斯克才会理你。
3. 这个是我在前面specs中做的要求的。

### 1. CEO 马斯克列出产品计划

看看马斯克同学用他的第一性原理做出来的产品计划
![plan](/wp-content/uploads/2026/05/plan-300×198.png){.alignnone}

### 2. 首席设计师乔布斯做好的设计

乔布斯同学的眼光以及他的Reality Distortion Field (RDF)

– ![design](/wp-content/uploads/2026/05/design-300×146.png){.alignnone}
– ![design-result](/wp-content/uploads/2026/05/design-result-300×192.png){.alignnone}

### 3. 首席开发Linus做出来开发计划

我的CEO马斯克同学说这个功能需要4周出一个MVP，其中开发2周
![develop](/wp-content/uploads/2026/05/develop-300×148.png){.alignnone}

我们首席开发Linus同学说这个功能开发需要3周，并且没有实际实现代码。
![develop-result-1](/wp-content/uploads/2026/05/develop-result-1-300×200.png){.alignnone}

将问题进一步反馈给Linus: 没有实际实现代码
![develop-2](/wp-content/uploads/2026/05/develop-2-300×153.png){.alignnone}

Linus同学再次输出结果，但还是没有实现代码。所以他现在只能talk，不能 show me the code。
![develop-2-result](/wp-content/uploads/2026/05/develop-2-result-300×200.png){.alignnone}

> Linus同学还是没有实际写代码实现功能。不过，补充反馈后开发计划跟CEO Musk同学的计划同步了。实际情况可能是不应该是这样，应该要回去跟CEO讨价还价。

### 4. 首席质量官图灵上场

首席质量官图灵同学的情况跟Linus一样，在现有的prompt+模型下，都只能输出计划。暂先跳过，这个应该需要单独给配一个Coder的大模型来搞，后面再说。
![test](/wp-content/uploads/2026/05/test-300×158.png){.alignnone}

![test-result](/wp-content/uploads/2026/05/test-result-300×183.png){.alignnone}

### 5. 首席销售卡耐基来了

我这个搞了一辈子技术的人，对销售比较好奇，看看我的首席销售卡耐基同学怎么说。
– ![marketing](/wp-content/uploads/2026/05/marketing-300×148.png){.alignnone}
– ![marketing-result](/wp-content/uploads/2026/05/marketing-result-300×182.png){.alignnone}

### 6. 首席客户体验官：贝索斯，登场

最后压轴登场的是我的首席客户体验官：贝索斯
– ![support](/wp-content/uploads/2026/05/support-300×149.png){.alignnone}
– ![support-result](/wp-content/uploads/2026/05/support-result-300×189.png){.alignnone}

最后，整个流程走完，从马斯克规划产品，一路到卖出去，让贝索斯来做技术支持，全部顺利走通。

## 四、阶段总结

总的来说，因为搞这个实验，所以这个周末还是充实的。但是一下子没找到思路源的那位大佬的文章，也记不清楚他的具体方案是如何的了，所以还是需要再好好摸索一下。

目前已经有许多需要改善的地方：

### 1. 给每个分解出来的子任务配置专用的模型来处理

如果真的想做一下可以实际干活的智能体的话，白嫖的小模型肯定是不行的，并且每一个不同的任务可能需要的模型也是不一样的，比如：
– 做设计：你可以用一些通用的大模型
– 写代码：必须用Coder的大模型
– 意图分析：必须用Instruct模型（前置的OddAgent模块）
– 知识库：必须用Emedding+Reranker的模型（需要让Musk规划功能的时候必须遵循小落同学现在的技术架构）
– 其他：若有一些专业的知识的，可能还需要用一些定制的行业大模型

### 2. 智能体框架优化

目前的每个分支，从产品规划到设计，到开发，到测试，到市场，到支持，每个步骤里都还在用上一代的技术，走是还是prompt提示词，正确的姿势应该是用skill/harness来替代prompt。

### 3. 项目生命周期前后端联动

目前的项目创建的入口是在前端，通过输入产品、项目需求（如：`/project 给小落同学增加一个xxx功能`），但是整个产品、项目的推进，及其生命周期的管理是在后端，需要让前端也可实时的看到整个产品、项目的推进和进展。

### 4. 必须上真正的大模型

由于小落同学的初衷是复刻一个数字版本的我自己，所以我一直以来的态度都是目前阶段所有的功能和代码全都是没有价值的，**唯一有价值的只是那些关于我自己的数据**（当然还有RAG召回的准确率，所以[前阵子一直在看和测RAG相关的一些技术](https://www.oddmeta.net/archives/10449.html “前阵子一直在看和测RAG相关的一些技术”)），因此，一直以来我主要都是在收集我自己一些各种各样的数据，也正因如此，到目前为止我一直在用一些4B、7B、8B的小模型，而且还是量化后的版本，真要做这么个功能的话，小模型肯定是不行的，可能必须要上大模型（全都需要Money啊。。。）

## 五、未完待续

折腾了一个周末，没想明白后面到底要不要继续把这个功能搞起来，搭一个架子是简单，真正要搞的话决不是三两下就能把这个功能搞成一个实际可用的东西的，尤其是在我这个10年前的老笔记本上，需要投入的不仅仅是时间，还需要好多Money来支撑才行，不幸的是，现在我个时间和金钱都缺缺，公司那边一堆事情忙成狗，还有一个新产品即将投入预研。
下个周末再说吧。

Published 2025-05-04

Three.js:经过一番痛苦的思想斗争，我还是放弃了3D虚拟，转投2D

一、前言在过去的一段时间里，我花费了大量精力钻研three.js技术，期望能将小落同学的形象塑造为3D虚拟人，实现与用户的交互功能。为此，我对vrm/obj/fbx模型进行了反复调整，还结合mixamo的动作资源进行适配。然而，无论我如何努力，始终无法达到理想的效果。在实际展示中，模型与动作之间总是存在各种问题，比如部分动作出现模型撕裂现象，或是动作呈现出不自然的颤抖，这让我十分苦恼。经过五一假期的深思熟虑，我决定暂时搁置3D方案，转向2D领域寻求解决办法。这意味着之前为three.js所做的模型构建、动作设计、表情制作等工作可能要暂时搁置，虽然心中满是遗憾，但也只能期待未来有机会能让它们重新发挥作用。二、选定2D解决方案对于2D虚拟人的实现，其实有多种方案可供选择。在大型商业化直播场景中，许多虚拟人采用VTuber的解决方案。不过，该方案对硬件配置要求较高，以我目前使用的每年仅需99元的阿里云ECS服务器而言，难以满足其运行需求。综合各方面因素考虑，我最终选定了Live2D技术。它不仅技术成熟度高，而且非常适合用于基于Web的虚拟人项目开发，能够很好地满足我的需求。三、Live2D练手在Github平台上，有众多关于Live2D的开源项目。其中，目前仍保持活跃状态的项目之一是https://github.com/stevenjoezhang/live2d-widget。我按照该项目提供的步骤进行安装实践，发现当使用远程CDN上的配置时，系统能够正常运行。但当我尝试配置本地的autoload.js时，却始终遭遇“initWidget is not defined”的报错。尽管多次排查尝试，依然未能找到问题的根源，无奈之下只能放弃该项目。最终，我成功运行了https://github.com/JokerPan12/live2d项目。接下来，我计划先将这个Live2D看板安装到网站上，积累经验后再应用到小落同学的项目中。四、将Live2D看板安装到wordpress网站上以下是详细的操作步骤： 1. 下载代码通过执行以下命令克隆项目代码： 2. 安装SDK代码及live2D模型从克隆的仓库中，选取live2d、asteroids、icons这三个目录，并上传至网站服务器。我的服务器目录结构如下： 3. 修改wordpress的theme 上传完SDK和模型后，需要对wordpress的主题进行修改，以启用live2d功能。进入wordpress的主题目录：wp-content/themes/{正在使用的主题名}，找到其中的header.php以及footer.php文件。修改header.php […]

Leave a comment Cancel reply