![](https://img.haomeiwen.com/i13397742/08a29ae3a60b2002.png)
从数据层面上, 能够影响模型性能的有二个因素:
数据集的质量
数据增强
数据质量:数据应该是准确,完整,无误,且具有代表性。如果数据集有错误或缺失,将会影响模型的性能, 选择分辨率越高肯定对模型是越好的,但是也要考虑到模型训练占用的内存够不够,因为分辨率越高,数据量就越大数据量:更多的数据通常可以提高模型的性能,因为它使得模型更具有代表性和泛化能力。但是,数据集的大小也会影响训练时间和资源要求。 但对模型训练收敛来说,数据量大小对于模型收敛没有决定性的影响,只能说数据量越大,同时数据多样性分布性很好,模型是一定会泛化数据预处理:在选择数据集之前,需要了解数据的特性并进行预处理。例如,对于图像分类问题,可能需要对图像进行缩放或裁剪,或者将像素值标准化到[0,1]范围内。数据来源:应该选择可靠的数据来源。一些数据集可能来自于不可靠的或不真实的来源,这可能会导致模型的性能下降。数据分割:在选择数据集时,应该将数据分成训练集,验证集和测试集。这样可以用来评估模型的泛化能力和性能。数据标注:在某些任务中,需要对数据进行标注,以便训练模型。这可能需要大量的人工劳动力和时间成本。
机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说,就是需要大量的带标签数据。
很多入门的朋友很快就会遇见模型训练和测试这两个阶段,进而也就了解到带标签数据是要被划分成两个部分的:训练集与测试集。这两个概念也很直观,大部分朋友非常快就能接受。可是到后面,在我们需要为机器学习模型调参的时候,半路杀出来了个交叉验证阶段,这个对应的数据集也有个名字,叫做验证集。
先用一个不恰当的比喻来说明3种数据集之间的关系:
训练集相当于上课学知识
验证集相当于课后的的练习题,用来纠正和强化学到的知识
测试集相当于期末考试,用来最终评估学习效果
数据划分的方法并没有明确的规定,不过可以参考3个原则:
对于小规模样本集(几万量级),常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。
对于大规模样本集(百万级以上),只要验证集和测试集的数量足够即可,例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。1000w 的数据,同样留 1w 验证集和 1w 测试集。
超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集。
![](https://img.haomeiwen.com/i13397742/3baee6bbbca3e6eb.png)
而在教育领域需要的题库数据包括但不限于以下几种:
题目类型:选择题、填空题、解答题等。
题目难度:根据学生年级、能力等因素进行分类。
题目知识点:按照学科、章节、知识点进行分类,方便学生查找和练习。
题目来源:可以是教材、考试、竞赛等。
题目解析:提供详细的答案解析,帮助学生理解做题思路和方法。
题目数量:越多越好,可以满足不同学生的需求。
网友评论