大模型微调 – OddMeta

一、前言 1. 本文目标你有没有问过大模型“你是谁”？问了的话，拿到的答案清一色都是大模型厂商的名字。而如果你自己部署了一个模型的话，通常都希望有人在你的应用里问你是谁的时候能给出一个“你的答案”。这篇文章就是干这个事情的，20分钟让大模型的名字变成你自己的名字。 2. 大模型入门系列介绍前阵子介绍了两个【有手就行】的大模型基础知识，今天是大模型开发【有手就行】的第三篇。前两部在这里：这个是入门三步曲最后一步：MS-SWIFT认知微调，把大模型的名字改成你的名字。上手学习大模型、人工智能相关的开发并没有什么太过高深的门槛，真的很简单，真的就是【有手就行】。二、SWIFT认知微调相关的一些废话 1. 什么是ms-swift ms-swift（全称 Scalable lightWeight Infrastructure for Fine‑Tuning）是阿里的魔搭社区（ModelScope）推出的一个大模型全流程工程化框架，是 “大模型轻量微调与部署的基础设施”，在消费级 GPU 与国产硬件也都可用，我有在4090，PPU平头哥、Ascend昇腾上都用过。 2. 为什么要做ms-swift微调就像之前讲的那样：自己从头开始训练一个基座大模型是不现实的，只能以学习目的来了解大模型是如何训练出来的，有哪些步骤，会有一些什么样的训练参数、每个参数的意义和影响是什么等。所以大家更多会涉及的是利用一些现有的开源大模型来做微调，用自己的个人数据、行业数据来微调训练大模型，然后让这个大模型变成你自己的私人大模型或者行业大模型。可惜我自己觉得最重要的LoRA微调的那篇文章反而看的人比较少（一如既往的不太懂，呵呵），可能是我取的标题不够“标题党”（求大佬们指教），也可能跟公众号推荐规则有关。而一旦你自己微调训练了一个大模型，那随后必做的一件事情就是把这个大模型的名字变成你自己，当有人问它：“你是谁？”的时候，它回答的应该是：它是xxx（你给它取的名字），是由yyy（你的名字）开发出来的。比如：我是小落，是由落鹤生开发的个人智能助手。我主要的目的是通过记录落鹤生每天的日常工作、生活的点点滴滴，然后希望在数据足够的某一天，我可以成为一个数字复刻版本的落鹤生。如果您对小落同学有任何疑问或需要帮助，请随时提出，我会尽力为您解答。三、开始 ms-swift支持 600 多个纯文本大型模型和 300 多个多模态大型模型的训练。为方便同学们复现，我以 Qwen3-4B-Instruct模型为例，从模型下载开始介绍整个流程。如果有问题可以直接在下面留言，或者加一下AI技术学习交流群一起讨论。 1. 模型下载从modelscope下载需要的模型（huggingface不太稳定，当然也可以用镜像站：https://hf-mirror.com ） 2. 原始模型部署原则上，你的服务器上有多少GPU就都给你用上先。 3. 原始模型测试 4. 微调Qwen3-4B-Instruct-2507模型这里在我原先的OddAgent项目基础上训练一个会议语音指令助手。这里使用官方的示例对Qwen3-4B-Instruct-2507模型进行自我认知微调。 1）安装ms-swift框架 pip 源码方式 […]

LLM

【有手就行】SWIFT：花20分钟把大模型的名字变成你的名字

1 comment

一、前言上上周的周末无事在家，然后写了一篇《【有手就行】自己花20分钟从0开始训练一个“大模型”》，结果发现这两个星期涨了几十个关注，比我前面写了几个月文章得到的关注还多，看来这种浅显易懂的、入门级的技术文章相对来说会有更多人爱看一些。既然如此，我再把早先在做OddAgent时候，微调语音助手功能的流程也简单理一下，然后放出来给大家做一个参考吧。事实上，上手学习大模型、人工智能相关的开发并没有什么太过高深的门槛，真的很简单，真的就是【有手就行】。二、大模型微调概述微调(Fine-tuning)有很多种不同的方法，但是使用的场景以及代价也都是不一样的。作为一个没什么资源（数据缺缺，GPU缺缺）的普通人来说，考虑的肯定是低成本方案。方法类型参数更新范围计算成本适用场景典型工具框架全参数微调全部参数极高大数据集、高资源场景 Hugging Face Transformers Adapter Tuning 适配器参数低多任务、资源受限 AdapterHub、PEFT LoRA/QLoRA 低秩矩阵参数极低大模型单卡微调、小样本 LoRA、QLoRA（PEFT 库集成）指令微调全量 / 部分参数中 – 高通用对话模型、多任务泛化 Alpaca-LoRA、FastChat 领域适配微调全量 / 部分参数中垂直领域任务自定义领域数据集 + Transformers 三、LoRA微调全流程前阵子在将小落同学项目的智能体代码摘成独立的OddAgent项目时，实践的是一个会议相关的语音助手功能，该功能有针对Qwen2.5-0.5B-Instruct模型和Qwen3-4B-Instruct-2507这两个模型重点做了一些测试和验证，用的就是其中成本最低的LoRA微调。最后跑下来Qwen3-4B-Instruct-2507的效果要显著好于Qwen2.5-0.5B-Instruct（有同时针对这两个模型用同一套数据集去做了LoRA微调）。因此，本文的重点就放在了Qwen2.5-0.5B-Instruct的LoRA微调上，因为后面我还准备再继续针对这个模型再补充一些训练集来做一下微调，目标是在这个模型上也能做到100%的意图/槽位准确率。跟之前训练大模型一样，还是在我家里的这个10年前的老笔记本上进行的。 […]

LLM

20251214 【有手就行】LoRA：用你自己的数据来微调大模型，让大模型真正懂你

1 comment