You may also like
一、省流,直接看结论 一)参数:两个4090,1000 token的输入,128 token的输出(vllm benchmark默认值) 1. benchmark最高并发请求:60+ 参数:两个4090,1000 token的输入,128 token的输出(vllm benchmark默认值) 2.启用FlashInfer前后对比 启用FlashInfer比默认的PyTorch-native模式的性能提升差不多。 client端统计对比 server端统计对比 用pyplot针对这3次测试跑的3个日志文件生成了一个图。 3.结论 测试1000个请求, 三轮跑下来, 不启用flashinfer总耗时稍长一点点(差10来秒, 459 vs […]
一、前言 这段时间,在非工作时间我一直在致力于做一个在低配置的硬件上可实际运行的个人智能助理:小落同学。然而前两天谷歌的2025 Google I/O大会发布的Gemma 3n真的让我震撼了。 二、关于Gemma 3n 2025年5月21日,在一年一度的谷歌I/O大会上,谷歌推出了Gemma 3n – Gemma 3系列开放式人工智能模型的新成员。谷歌表示,该模型旨在在智能手机、笔记本电脑和平板电脑等日常设备上高效运行。Gemma 3n与下一代Gemini Nano共享其架构,Gemini Nano是一种轻量级的AI模型,已经为Android设备上的几个设备上的AI功能提供了支持,例如Pixel智能手机上的录音机摘要。 详细信息 谷歌表示,Gemma 3n使用了一种名为Per-Layer Embeddings(PLE)的新技术,可以让模型比类似大小的其他一些技术的模型消耗更少的RAM。尽管Gemma 3n有50亿和80亿个参数(5B和8B),但PLE技术让它的内存占用仅相当于2B或4B模型。这意味着Gemma 3n可以在2GB到3GB的RAM下运行,使其适用于更广泛的设备。 图片来自Google […]
prompt 你是一个谈判专家,擅长用《谈判力》(Getting to Yes)这本书中的原则来完成商业中的所有高难度沟通。请你用委婉的语气告诉我们的合作方,他们支付的费用太低了。 A: 尊敬的合作方, 非常感谢您与我们合作。但是,我想提醒您,我们最近支付的费用有些低。我们希望您能够理解我们的成本结构,并支付的费用与我们的实际支出相匹配。 我们非常重视您的合作,并希望能够与您建立长期的合作关系。如果您能够支付的费用与我们的期望相符,我们将非常感激。 如果您有任何疑问或需要更多信息,请随时与我们联系。我们将尽快回复您的问题,并尽力为您提供帮助。 再次感谢您的合作,祝 工作顺利 [你的名字] Q:《谈判力》(Getting to Yes)这本书中的原则有哪些A:《谈判力》(Getting to Yes)这本书中提出了一些重要的谈判原则,包括:明确目标:在谈判前,确保自己和对方都清楚地知道想要实现的目标。了解对方:在谈判前,了解对方的需求、价值观和立场,以便更好地与对方沟通。保持开放:在谈判中,保持开放的态度,愿意听取对方的意见,并尽可能理解对方的观点。提出解决方案:在谈判中,提出解决问题的方案,而不是仅仅要求对方满足自己的需求。掌握边界:在谈判中,明确自己的边界,并确保对方知道他们不能越过这些边界。掌握情绪:在谈判中,掌握情绪管理的技能,以便在情绪不稳定的情况下保持冷静和理智。掌握信息:在谈判中,掌握信息的能力,以便在谈判中做出明智的决策。这些原则可以帮助人们在谈判中取得更好的结果,并建立更好的合作关系。
用Ollama 对 Gemma3多模态27B版本做功能、性能测试 谷歌刚刚推出的开放权重LLM:Gemma 3。它有四种大小,10亿、40亿、120亿和270亿个参数,有基础(预训练)和指令调优版本。Gemma 3 MultiModel人如其名,支持多模式!40亿、12亿和270亿参数模型可以处理图像和文本,而1B变体仅处理文本。 今天咱来试试看。 一、硬件环境 租的AutoDL的GPU服务器做的测试 •软件环境 PyTorch 2.5.1、Python 3.12(ubuntu22.04)、Cuda 12.1 •硬件环境 ○GPU:RTX 4090(24GB) * 2 ○CPU:64 vCPU […]