数据集 – OddMeta

一、前言前阵子写了几篇大模型开发相关的入门的文章，然后有同学私信说自己训练或者微调出来的模型效果不如预期，对于这一点，我在前面的文章里也反复强调过多次，对于大模型来说，唯一真正有价值的只有：数据。脸书扎克伯格花大价钱ScaleAI的底层逻辑也在于此。在现在这个时代，完全可以说，大部分的技术都是没有什么价值的，因为大部分的技术都是有手就行。真正的价值都在数据，而且最有价值的数据往往都是一个个的专业领域的数据，决定大模型微调效果的是数据，决定你整个产品成败的也是数据，这个事情一定要搞清楚。所以呢，建议大家从现在开始，给自己好好做积累吧，把你的行业数据、专业领域的数据一点点积累好，这才是你的未来。而数据中最重要的还是实际的业务数据，并不是让大模型帮你生成的数据，但是如果你是为了做一些项目的测试的话，让大模型来帮忙丰富一下你的数据集也是一个不错的选项。这里就用我自己的一个实际的用于语音助手的案例，来手把手教你如何利用大模型来帮你生成一些数据。【有手就行】大模型开发入门系列二、让大模型帮忙生成训练集之前用的更多的是利用ChatGPT来生成数据，但是为了写这篇文章，我又专门用千问、文心、豆包、ChatGPT走了一遍完整流程。这篇文章主要有用的就是生成数据的提示词，顺便用这个实例介绍对比一下几个主流模型的表现，供大家参考。从这一轮次的的测试生成数据集的情况来看，印象分最好的要算Qwen3-Max，而ChatGPT则垫底了。看来中文还是得选中国的大模型。另外，犹记当年第一届世界人工智能大会时，马云跟马斯克吹牛：AI就是Alibaba Intelligent，这牛吹的当年所有人都想笑，再过几年看看Alibaba到底能不能笑傲江湖，让咱们座目以待。此外，具体每个大模型生成的数据由于太大，在这里我就不列了，不过我保存到了云盘，感兴趣的可以后台私聊我：【测试集】，会自动回复下载链接，同时你也可以自行生成。 1. 千问使用模型：Qwen3-Max 秒级响应。刺溜一下就给生成好了。而且是一步到位，不像豆包、文心那样，先生成数据，再自己写代码把数据保存到一个json文件。千问牛逼格拉斯。不过，生成的json文件在公司不能下载（在家里正常），可能跟公司网络DNS有关。生成的文字多样性佳： 2. 百度文心一言使用模型：文心大模型X1.1 为每个意图生成50条数据很快，但是文心一言为了将结果保存到json文件费了老大的劲，因为它是自己写代码来实现的，而它写的代码执行的报错了好多次，然后它自己一直在改它自己的代码，结果浪费了很多时间，XD 生成的文字多样性：但是它在这个请求里自己生成的代码出问题，扣掉了我对它的印象分。 3. 豆包使用模型：豆包上没写版本号，公有云的反正是最新的。豆包-同文心，也是自己写代码生成json，比百度好一点，保存json的代码一次成功，没有改半天代码。生成的文字多样性也不错。槽位的准确率100%。它相比文心好的地方就是保存json的代码一次成功，没让我等半天。生成的文字多样性： 4. ChatGPT 使用模型：普通版本（非Business版本） For quick tasks & answers 速度跟豆包差不多。思考过程在生成后不能查看，所以不清楚是跟千问一样，一步到位，还是跟豆包、文心一样，先生成数据，再写代码存文件。生成的文字的多样性：三、注意事项如果你生成数据的目的是为了训练的话，建议的做法还是要用一些实际的数据，而不是找大模型来帮你生成数据，这一点很重要。但是如果你是为了学习大模型训练或者大模型微调的话，可以考虑让大模型帮你生成一些数据，但仅限于学习。毕竟，大模型生成的数据都不一定是真正你的产品、业务所需要的数据。四、广而告之新建了一个技术交流群，欢迎大家一起加入讨论。扫码加入AI技术交流群（微信）关注我的公众号：奥德元让我们一起学习人工智能，一起追赶这个时代。

LLM