2025-03-04 – OddMeta

[TOC] 由于模型、权重文件已经下载好了，所以跳过这些步骤。open-webui也在昨天已经安装好，同样跳过。无废话流程硬件环境租的AutoDL的GPU服务器做的测试•软件环境PyTorch 2.5.1、Python 3.12(ubuntu22.04)、Cuda 12.4•硬件环境￮GPU：RTX 4090(24GB) * 4（实际只使用一张GPU）￮CPU：64 vCPU Intel(R) Xeon(R) Gold 6430￮内存：480G（至少需要382G）￮硬盘：1.8T（实际使用需要380G左右）一、创建环境创建虚拟环境安装 PyTorch、packaging、ninja 安装flash-attn 安装libstdcxx-ng 二、编译安装ktransformers 修改./install.sh，加入： export MAX_JOBS=64export CMAKE_BUILD_PARALLEL_LEVEL=64 三、运行运行ktransformer 启动命令行聊天启动本地聊天API端点运行open-webui 建立 ssh转发等服务器上webui和api端点都起来后，在本地PC上，建一个ssh转发规则打开浏览器进行测试 http://localhost:3000 四、参数调整将cpu_info降低，观察tps变化直接上结论，数据看后面： cpu_info = 64 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True python3 ktransformers/server/main.py –gguf_path /root/autodl-tmp/DeepSeek-R1-GGUF/ –model_path /root/autodl-tmp/DeepSeek-R1 –model_name […]

LLM

再来一遍，以验证安装流程

[TOC] Ktransformer+Deepseek R1 671B实操一、测试目标验证并确认Ktransformer+Deepseek R1 671B的效果是否能满足公司的需求，并得出最终的硬件要求，以最终自行购置一台服务器来跑Deepseek R1 671B. 二、目标硬件要求根据网上的测评，拿到一个硬件要求如下：•软件环境：PyTorch 2.5.1、Python 3.12(ubuntu22.04)、Cuda 12.4•硬件环境：￮GPU：RTX 4090(24GB) * 4（实际只使用一张GPU）￮CPU：64 vCPU Intel(R) Xeon(R) Gold 6430￮内存：480G（至少需要382G）￮硬盘：1.8T（实际使用需要380G左右）三、GPU服务器租用-选AutoDL 阿里云、腾讯云、百度云、华为云这些都有GPU服务器，但是他们的GPU都是企业级的GPU，而我们最终的目标是自建，所以只能选消费级的GPU来测试。因此首选AutoDL，但是他的服务器白天基本上一直忙，早上一大早就需要去抢才能抢到，单台服务器的内存最高120，购置4台可满足要求，其中一台硬盘要可扩到至少600G。四、服务器环境 python版本返回Python 3.12.3 CUDA版本返回nvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2023 NVIDIA CorporationBuilt on Mon_Apr__3_17:16:06_PDT_2023Cuda compilation tools, release 12.1, V12.1.105Build cuda_12.1.r12.1/compiler.32688072_0 torch版本返回2.6.0+cu124 […]

LLM

Daily Archives: 2025-03-04

再来一遍，以验证安装流程

20250303 实战：ktransformers+deepseek r1 671b