LLM – Page 2 – OddMeta

20250303 实战：ktransformers+deepseek r1 671b

[TOC] Ktransformer+Deepseek R1 671B实操一、测试目标验证并确认Ktransformer+Deepseek R1 671B的效果是否能满足公司的需求，并得出最终的硬件要求，以最终自行购置一台服务器来跑Deepseek R1 671B. 二、目标硬件要求根据网上的测评，拿到一个硬件要求如下：•软件环境：PyTorch 2.5.1、Python 3.12(ubuntu22.04)、Cuda 12.4•硬件环境：￮GPU：RTX 4090(24GB) * 4（实际只使用一张GPU）￮CPU：64 vCPU Intel(R) Xeon(R) Gold 6430￮内存：480G（至少需要382G）￮硬盘：1.8T（实际使用需要380G左右）三、GPU服务器租用-选AutoDL 阿里云、腾讯云、百度云、华为云这些都有GPU服务器，但是他们的GPU都是企业级的GPU，而我们最终的目标是自建，所以只能选消费级的GPU来测试。因此首选AutoDL，但是他的服务器白天基本上一直忙，早上一大早就需要去抢才能抢到，单台服务器的内存最高120，购置4台可满足要求，其中一台硬盘要可扩到至少600G。四、服务器环境 python版本返回Python 3.12.3 CUDA版本返回nvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2023 NVIDIA CorporationBuilt on Mon_Apr__3_17:16:06_PDT_2023Cuda compilation tools, release 12.1, V12.1.105Build cuda_12.1.r12.1/compiler.32688072_0 torch版本返回2.6.0+cu124 […]

LLM

20250303 实战：ktransformers+deepseek r1 671b

1. 春考情况春考结束了，希望是春考后不用再看英语了，但是这次春考的题目感觉比之前做过的每一个模拟卷都难，尤其是星期一的听力，上午和下午两套题差异明显，众多同学都普遍认为下午的比较简单，都是之前练习时涉及比较广泛的，而上午的则是一些新的、之前未涉及的一些内容，我参加的是上午的，心理有一些忐忑。但我知道这个时候我应该放下，不管怎么样，考完了就是考完了，一切等1月21日见分晓。今天把聊天机器人在老爸的指导下，照着教程改了一下，主要学习的是django框架下的一些数据库操作，修改涉及内容： 2. 学习笔记为后端加了数据库共三个model1）agent model （希望可以做成多个智能体）2）session model（会话模型）3）message model（聊天消息模型）照着文心一言给生成的数据库，并生成了这三个model的代码。然后再：1）python manage.py makemigrations 生成迁移文件2）python manage.py migrate 更新到数据库并学习和了解了在用户认证中的token, 聊天中的session等等一些概念、名词及意义。token: 用户登录到后端后，后端会为这个用户生成一个独一无二的字符串，来代表这个用户，登录成功拿到这个token后，前端再与后端做交互的话，可以用这个token代表他自己，不需要每个交互请求都认证一遍。session: 这个比较了理解，在所有的大模型里都是这么一个用法，不展开了。记录保存数据库照着https://docs.djangoproject.com/zh-hans/5.1/ 介绍，尝试理解django里的model，view的概念。然后将我和智能体之间的聊天记录可以保存到创建的这个数据库，其中有几个点是需要注意的：后端的信息传递到前端有些数据是存储在后端的，前端一开始没有，所以第一次交互的时候都是空值，比如像上面那些user_id, session_id, agent_id，第一次请求到后端后，我们可以在后端生成或者获取到这些信息，而我们在拿到大模型的答复后，在响应里可以把这些信息一并带回前端，那样后面前端就有了所有这些信息，后续的交互里内容就完整了。前端如何接收来自后端的数据好多种方法，先练习一个，具体看代码。一边问文心一言，一边改，改了好久，文心一言给了好多代码，但是许多代码跟前面的代码不搭，跑不起来，或者跑起来有问题。从中午12点到晚上18点，今天花的时间有点多了，不过总算把功能都走通了，开心。晚一点递交代码到github。

ProjectXL