2025 – Page 4 – OddMeta

关于BF8 DeepSeek R1和DeepSeek V3都是默认BF8精度，是一种低精度的浮点数格式。BF8的全称是”Brain Floating Point”，由Google提出，主要用于大规模计算任务。与常见的16位浮点数（FP16）不同，BF8采用了8位尾数和8位指数的结构，能够在保证精度的同时减少计算和内存开销。 BF8的设计目标是减少计算量并保持数值稳定性，特别是在机器学习模型训练中，能在加速硬件上提供比FP32更好的性能。硬件选择采用“强推理、弱训练”的硬件配置：如选择国产芯片、或者采购DeepSeek一体机、甚至是选择MacMini集群等，都是不错的选择。这些硬件模型训练性能较弱，但推理能力强悍，对于一些不需要进行模型训练和微调、只需要推理（也就是对话）的场景来说，是个非常不错的选择。例如45万左右成本，就能购买能运行DeepSeek R1满血版模型的Mac Mini集群，相比购买英伟达显卡，能够节省很大一部分成本。但劣势在于Mac M系列芯片并不适合进行模型训练和微调。蒸馏模型采用DeepSeek R1 Distill蒸馏模型：DeepSeek R蒸馏模型组同样推理性能不俗，且蒸馏模型尺寸在1.5B到70B之间，可以适配于任何硬件环境和各类不同的使用需求。采用KTransformers •KTransformers主页： https://github.com/kvcache-ai/ktransformers采用KTransformers（Quick Transformers）技术：这是一项由清华大学团队提出的，可以在模型运行过程中灵活的将专家模型加载到CPU上，同时将MLA/KVCache卸载到GPU上，从而深度挖掘硬件性能，实现更低的显存运行更大尺寸的模型。该技术目前的实践效果，可以实现480G内存+13G显存（长尺寸输出或多并发时达到20G显存），即可运行DeepSeek R1 Q_4_K_M量化版模型（类似INT4量化），并且响应速度能够达到15token/s。传统情况下，8卡 A100 GPU服务器才能运行DeepSeek R1 INT4模型，成本接近200万。而480G内存+单卡4090服务器，总成本不到5万。采用Unsloth动态量化 •Unsloth主页：https://unsloth.ai/采用Unsloth动态量化技术：不同于KT将不同的专家加载到CPU上，通过内存分担显存的方法保证R1 Q4KM模型运行。技术方案是在确保模型性能的基础上，更深度的进行模型量化（最多量化到1.58Bit），并且执行不同任务时将激活的专家加载到GPU上，从而压缩模型运行所需硬件条件。该技术能够实现单卡24G显存运行1.58bit到2.51bit的DeepSeek R1模型，并且提供了一整套动态方案，支持从单卡24G到双卡80G服务器运行动态量化的R1模型，并且对于内存和CPU没有任何要求。通常意义下量化程度越深，模型效果越差，但由于Unsloth出色的技术能力，导致哪怕是1.58bit量化情况下，量化模型仍能拥有大部分原版模型的能力。 CPU AMX指令 CPU AMX（Advanced Matrix Extensions）是Intel在其Sapphire Rapids系列处理器中推出的一种新型硬件加速指令集，旨在提升矩阵运算的性能，尤其是针对深度学习和人工智能应用。

LLM

KTransformers, Deepseek相关的一些名词说明

[TOC] 由于模型、权重文件已经下载好了，所以跳过这些步骤。open-webui也在昨天已经安装好，同样跳过。无废话流程硬件环境租的AutoDL的GPU服务器做的测试•软件环境PyTorch 2.5.1、Python 3.12(ubuntu22.04)、Cuda 12.4•硬件环境￮GPU：RTX 4090(24GB) * 4（实际只使用一张GPU）￮CPU：64 vCPU Intel(R) Xeon(R) Gold 6430￮内存：480G（至少需要382G）￮硬盘：1.8T（实际使用需要380G左右）一、创建环境创建虚拟环境安装 PyTorch、packaging、ninja 安装flash-attn 安装libstdcxx-ng 二、编译安装ktransformers 修改./install.sh，加入： export MAX_JOBS=64export CMAKE_BUILD_PARALLEL_LEVEL=64 三、运行运行ktransformer 启动命令行聊天启动本地聊天API端点运行open-webui 建立 ssh转发等服务器上webui和api端点都起来后，在本地PC上，建一个ssh转发规则打开浏览器进行测试 http://localhost:3000 四、参数调整将cpu_info降低，观察tps变化直接上结论，数据看后面： cpu_info = 64 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True python3 ktransformers/server/main.py –gguf_path /root/autodl-tmp/DeepSeek-R1-GGUF/ –model_path /root/autodl-tmp/DeepSeek-R1 –model_name […]

LLM

再来一遍，以验证安装流程

20250303 实战：ktransformers+deepseek r1 671b

[TOC] Ktransformer+Deepseek R1 671B实操一、测试目标验证并确认Ktransformer+Deepseek R1 671B的效果是否能满足公司的需求，并得出最终的硬件要求，以最终自行购置一台服务器来跑Deepseek R1 671B. 二、目标硬件要求根据网上的测评，拿到一个硬件要求如下：•软件环境：PyTorch 2.5.1、Python 3.12(ubuntu22.04)、Cuda 12.4•硬件环境：￮GPU：RTX 4090(24GB) * 4（实际只使用一张GPU）￮CPU：64 vCPU Intel(R) Xeon(R) Gold 6430￮内存：480G（至少需要382G）￮硬盘：1.8T（实际使用需要380G左右）三、GPU服务器租用-选AutoDL 阿里云、腾讯云、百度云、华为云这些都有GPU服务器，但是他们的GPU都是企业级的GPU，而我们最终的目标是自建，所以只能选消费级的GPU来测试。因此首选AutoDL，但是他的服务器白天基本上一直忙，早上一大早就需要去抢才能抢到，单台服务器的内存最高120，购置4台可满足要求，其中一台硬盘要可扩到至少600G。四、服务器环境 python版本返回Python 3.12.3 CUDA版本返回nvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2023 NVIDIA CorporationBuilt on Mon_Apr__3_17:16:06_PDT_2023Cuda compilation tools, release 12.1, V12.1.105Build cuda_12.1.r12.1/compiler.32688072_0 torch版本返回2.6.0+cu124 […]

LLM

20250303 实战：ktransformers+deepseek r1 671b

摘要「Ray-Ban Meta 的成功不是因为踩中了风口，而是（Meta）打造了风暴本身」。 2 月 26 日，从多方消息来源可以确认，小米将会在 2 月 27 日晚的新品发布会上，首次公布小米 AI 眼镜包括外观、功能乃至售价等相关信息。相对于 27 日发布会主角小米 SU7 Ultra，小米 AI 眼镜的名气可能没有那么大，但是它对于国内 AI 眼镜行业来说，却有可能是重要的转折点。不过，如果你期待看到小米举起屠刀，推出一款「999 元」的 AI 眼镜，一举将 AI 眼镜推向大众，那大概率要失望了。根据业内信息，小米首款 AI 眼镜整体规格将对标 Ray-Ban Meta，在售价上也将超过 2000 元人民币。为什么小米选择在这个时候，推出 AI 眼镜产品。而为什么团队没有选择「小米价」？小米 AI 眼镜，能否像 DeepSeek 激活 AI 行业一样，激活整个中国的 AI 眼镜行业？ 01 999？别想了！根据业内人士透露，小米有可能在 27 日曝光的小米 […]

NEWS

小米 AI 眼镜，为什么肯定不能卖「999」？

看到一个开源项目的界面挺漂亮的，想扒拉过来，学习一下。做人至少要稍微厚道一点点，都已经要模仿他的界面了，那至少先给他推个广告吧官网：https://realchar.ai/ 项目：https://github.com/Shaunwei/RealChar 想要模仿的界面我们先来看看他的界面：首页是这样的然后如果点了Chat with me进去后，整个界面是这样的整个界面看上去给人一种非常清爽的感觉。喜欢，我也想要。可写界面代码这件事情我完全不会，那就交给LLM来帮我做。因为看到豆包的界面上有一个AI编程的功能，今天就用豆包来试试看。在豆包网页的“AI编程”里点进去，然后：豆包AI编程 – 输入github仓库打开豆包后，在左边点AI编程，然后再在输入框下面点Github仓库输入Github仓库：https://github.com/Shaunwei/RealChar 版本1：基础界面输入：想把这个项目里的前端代码用html+javascript来实现一下豆包：要将 Next.js 项目中的前端代码转换为纯 HTML + JavaScript 实现，需要对现有代码进行一些调整。以下是一个大致的步骤和示例代码，这里以 RealChar/client/next-web/src/app/page.js 为例进行转换：步骤创建 HTML 文件：创建一个 index.html 文件，将 Next.js 组件转换为 HTML 结构。提取 JavaScript 逻辑：将 Next.js 中的 JavaScript 逻辑提取出来，放入一个单独的 JavaScript 文件中。处理数据获取：Next.js 中的数据获取需要转换为纯 JavaScript 的异步请求。示例代码index.html script.js styles.css […]

ProjectXL

【失败】截图一个软件的界面，让豆包帮我写一个这样的软件界面出来

学习目标希望可以在寒假过年前基本了解掌握一点关于3D虚拟人方面的知识，并做一个简单的练习。技术方案选型最近DeepSeek火的一蹋糊涂，我也去注册了一个账号，所以问问题改用了DeepSeek。先来问问DeepSeek的意见.问题：我想做一个基于网页的3d虚拟人，请帮我挑选3到5个可选的开源技术方案，将他们各自的优劣点进行对比，并给出一个建议的方案回答：

ProjectXL

20250210 学习3D人物: 选定threejs方案

1. 春考情况春考结束了，希望是春考后不用再看英语了，但是这次春考的题目感觉比之前做过的每一个模拟卷都难，尤其是星期一的听力，上午和下午两套题差异明显，众多同学都普遍认为下午的比较简单，都是之前练习时涉及比较广泛的，而上午的则是一些新的、之前未涉及的一些内容，我参加的是上午的，心理有一些忐忑。但我知道这个时候我应该放下，不管怎么样，考完了就是考完了，一切等1月21日见分晓。今天把聊天机器人在老爸的指导下，照着教程改了一下，主要学习的是django框架下的一些数据库操作，修改涉及内容： 2. 学习笔记为后端加了数据库共三个model1）agent model （希望可以做成多个智能体）2）session model（会话模型）3）message model（聊天消息模型）照着文心一言给生成的数据库，并生成了这三个model的代码。然后再：1）python manage.py makemigrations 生成迁移文件2）python manage.py migrate 更新到数据库并学习和了解了在用户认证中的token, 聊天中的session等等一些概念、名词及意义。token: 用户登录到后端后，后端会为这个用户生成一个独一无二的字符串，来代表这个用户，登录成功拿到这个token后，前端再与后端做交互的话，可以用这个token代表他自己，不需要每个交互请求都认证一遍。session: 这个比较了理解，在所有的大模型里都是这么一个用法，不展开了。记录保存数据库照着https://docs.djangoproject.com/zh-hans/5.1/ 介绍，尝试理解django里的model，view的概念。然后将我和智能体之间的聊天记录可以保存到创建的这个数据库，其中有几个点是需要注意的：后端的信息传递到前端有些数据是存储在后端的，前端一开始没有，所以第一次交互的时候都是空值，比如像上面那些user_id, session_id, agent_id，第一次请求到后端后，我们可以在后端生成或者获取到这些信息，而我们在拿到大模型的答复后，在响应里可以把这些信息一并带回前端，那样后面前端就有了所有这些信息，后续的交互里内容就完整了。前端如何接收来自后端的数据好多种方法，先练习一个，具体看代码。一边问文心一言，一边改，改了好久，文心一言给了好多代码，但是许多代码跟前面的代码不搭，跑不起来，或者跑起来有问题。从中午12点到晚上18点，今天花的时间有点多了，不过总算把功能都走通了，开心。晚一点递交代码到github。

ProjectXL

Yearly Archives: 2025

KTransformers, Deepseek相关的一些名词说明

再来一遍，以验证安装流程

20250303 实战：ktransformers+deepseek r1 671b

小米 AI 眼镜，为什么肯定不能卖「999」？

【失败】截图一个软件的界面，让豆包帮我写一个这样的软件界面出来

20250210 学习3D人物: 选定threejs方案

20250111 聊天机器人学习小记