QwQ32B – OddMeta

一、导言 ***牵头组织了一个会议，对Deepseek在视讯方案的可能性进行了一番讨论，讨论后的结论是对Deepseek先做一番技术上的预研，然后再上产品路标。后来**和**也针对此事做了一些交待。再后来就是撸起袖子了。二、预研目标《Deepseek在视讯方案的可能性》：一句话表示：在消费级的GPU上跑满血版Deepseek R11、GPU：结合公司的实际情况（还躺在米国政府的黑名单上），预研所针对的硬件必须是我们有可能买得到的硬件。2、Deepseek R1满血版：预研初期确定的目标是满血版Deepseek R1 671B（实际测下来发现可能存在一些问题）三、预研情况说明在曾哥租到GPU服务器之后，有了硬件资源后，主要利用这个GPU服务器做了以下几部分预研。一是包括Deepseek/QwQ32-B/Gemma3等等在内的大模型安装、部署与测试。二是有了大模型之后，视讯这边可能的一些应用，包括：Chat API, Agent等。三是与KIS做了一些集成测试。四是视讯智能产品KIS相关的一些周边技术，包括:ASR, TTS等。一）预研设定的环境 1. 软件环境 PyTorch 2.5.1Python 3.12(ubuntu22.04)Cuda 12.4 2. 硬件环境￮GPU：RTX 4090(24GB) * 2￮CPU：64 vCPU Intel(R) Xeon(R) Gold 6430￮内存：480G（至少需要382G）￮硬盘：1.8T（实际使用需要380G左右）参考：京东上GPU 4090 x2+CPU 6330 +内存64G+硬盘2T报价约为：69500。https://item.jd.com/10106874216614.html 二）大模型测试直接上结论。测试结果大模型框架 max_new_tokens context GPU数量 TPS(单连接) TPS（多连接） ds-r1-671b Q4 KT 8192 […]

LLM

Deepseek预研第一阶段输出

Open WebUI不能正确显示qwq32b和deepseek的think标签问题

问题现象整个think标签不对，如下图：解决方案1：失败参考：https://github.com/open-webui/open-webui/discussions/11348This might be a quick fix：in backend/open_webui/utils/middleware.py , line 1313, function tag_content_handler :change the elif to if .找到middlewares.py :1313 定位到那个elif，改成if重启openwebui，问题依旧。解决方案2：OK 参考：https://github.com/open-webui/open-webui/issues/11259With TabbyAPI, I’m able to get the “normal” tag when removing it from the chat template.The end looks like this after the modification:{%- if add_generation_prompt %}\n […]

LLM

Open WebUI不能正确显示qwq32b和deepseek的think标签问题

相比于ollama, llama.cpp等框架, vllm是一个可以产品化部署的方案，适用于需要大规模部署和高并发推理的场景，采用 PagedAttention 技术，能够有效减少内存碎片，提高内存利用率，从而显著提升推理速度。在处理长序列输入时，性能优势更为明显。因此，今天先用vllm来验证一下QWQ32B 的情况。硬件环境租的AutoDL的GPU服务器做的测试 •软件环境 PyTorch 2.5.1、Python 3.12(ubuntu22.04)、Cuda 12.1 •硬件环境￮GPU：RTX 4090(24GB) * 2 ￮CPU：64 vCPU Intel(R) Xeon(R) Gold 6430 ￮内存：480G（至少需要382G）￮硬盘：1.8T（实际使用需要380G左右）一、虚拟环境 conda create –prefix=/root/autodl-tmp/jacky/env/vllm python==3.12.3 conda activate /root/autodl-tmp/jacky/envs/vllm/ pip install vllm 二、安装 vLLM export VLLM_VERSION=0.6.1.post1 export PYTHON_VERSION=310 pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux1_x86_64.whl –extra-index-url https://download.pytorch.org/whl/cu118 三、从huggingface下载模型计划测试 […]

LLM

用vllm 0.7.3 + QWQ32B Q4量化版本功能、性能测试

1 comment