QwQ-32B – OddMeta

Open-WebUI+QwQ-32B搭建本地知识库一、概述当用户提出一个问题时，如何让大模型准确的定位到你的输入背后真的正的问题，并输出正确的回复，是大模型应用的关键。而要达到此目的，主要有三种方式：提示词、知识库和微调。大模型的搭建，open-webui及RAG的启用等步骤暂先跳过，本文主要介绍并演示了本地知识库的一些关键点。二、背景前阵子，应产品部门的要求，对Deepseek R1 671B及QwQ-32B等大模型做了一番技术上的预研。由于前期的测试中发现，在硬件受限（单卡或双卡4090）环境下，QwQ-32B-AWQ模型的表现在并发、速度等多方向优于Deepseek满血版，并且二者在会议纪要等功能的对比测试各有优劣，因此知识库的预研和测试也优先选择了QwQ-32B-AWQ模型。而前端平台则采用了开源的open-webui，同时RAG采用了open-webui自带的“sentence-transformers/all-MiniLM-L6-v2”向量模型。平台模型备注前端平台 Open-webui搭建的框架 github中开源项目，支持rag、对接ollama等功能后端大模型 QwQ-32B-AWQ 自行部署的大模型，使用AutoDL上租借的服务器向量模型 sentence-transformers/all-MiniLM-L6-v2 open-webui自带的向量库三、影响本地知识库及响应质量的关键点在明确了大模型（QwQ-32B-AWQ）和向量库（sentence-transformers/all-MiniLM-L6-v2）后，整个RAG应用的开发关键在于本地知识的整理和提示词的设计，在open-webui上可以看到相关的一些设定。 1. top k Top-k 采样是自回归生成（autoregressive generation）“贪心策略”的优化。原理是从概率排名最高的K个单词里随机采样。很多情况下这个随机性有助于提高生成质量。默认为前3。 2. 提示词 open-webui给出了一个样例的提示词。这个提示词本身已经经过了许多人的检验，理论上讲应该适用于大部分的场景，但暂未在公司的使用场景下做严格测试和验证。未来我们可以在使用中观察一下，并根据实际的请求与响应来做一下各种必要的调试或调整。 3. 块参数(Chunk Params) 包括：向量化参数块大小和块重叠的设置，这直接影响了rag检索的效果。推荐：块大小1000，块重叠为块大小的5%-10%，若发现知识丢失，可适当增加块重叠的值。四、创建和使用知识库创建知识库知识库的创建步骤，如上图所示：知识库使用介绍知识库创建好了之后，到了主界面，在输入框里输入一下 #，你就可以看到所有你具体访问权限的知识库列表，选定你要问的知识库后，再在输入框里输入你的问题，即可针对知识库来进行问答。五、演示环境目前我在演示环境建了三个知识库，视讯开放平台，新员工入职培训，视讯平台API。大家可以实际体验一下效果和准确率。地址：http://172.16.129.127:3000 测试账号: […]

LLM

速来！Open-WebUI 与 QwQ-32B 构建本地知识库，解锁精准问答新姿势

一、省流，直接看结论一）参数：两个4090，1000 token的输入，128 token的输出（vllm benchmark默认值） 1. benchmark最高并发请求：60+ 参数：两个4090，1000 token的输入，128 token的输出（vllm benchmark默认值） 2.启用FlashInfer前后对比启用FlashInfer比默认的PyTorch-native模式的性能提升差不多。 client端统计对比 server端统计对比用pyplot针对这3次测试跑的3个日志文件生成了一个图。 3.结论测试1000个请求, 三轮跑下来, 不启用flashinfer总耗时稍长一点点(差10来秒, 459 vs 449).启用flashinfer: 并发请求可达到60左右,但是受限于硬件/GPU, 首字出字速度, 单位输出token时延等数据都会延长。每秒输出的总token数1=125604/448.73=27.99 tps每秒输出的总token数2=125600/449.52=27.32 tps不启用flashinfer: 并发请求在40左右, 但首字出字速度, 单位输出 token时延都会较短.每秒输出的总token数=125604/459.73=27.32 tps 关于flashinfer：从测试结果来看，启用后并没有将这1000个请求的总耗时降下来多少，因此最终还是会受限于硬件/GPU？二）参数：两个4090，1000 token的输入，1000 token的输出（会议摘要常规输出） 1.benchmark最高并发请求：约40~50左右 2.启用FlashInfer后数据合并到上面的表格,具体看FlashInfer3一列数据 3.结论指定输出token数量从128到1000，对最大并发有影响，全影响不是非常大。每秒输出的总token数=967760/1423.79=67.9 tps。这一段测试是在5点后，快下班时间跑的二、测试硬件环境 •软件环境：PyTorch 2.6.0、Python 3.12(ubuntu22.04)、Cuda 12.4•硬件环境：￮GPU：RTX 4090(24GB) * […]

LLM

Benchmark: 用vllm自带的工具对 QwQ-32B-AWQ进行压测

1 comment