数据量

作者: 宅家学算法 | 来源:发表于2022-07-13 15:47 被阅读0次

    机器学习中对于数据的表达一般是 n*m的矩阵,n代表样本的数量,一行数据代表一个独立数据。而m代表特征变量的数量,一列数据代表某个特征在所有样本上的数值。比如一个 4 * 2(n=4,m=2)的矩阵,即总共有4条数据,每个数据有2个特征。
    讨论数据量,往往讨论的是n,也就是有多少条数据。但这个是不准确的,因为更加适合的评估应该是n/m,也就是样本量除以特征数。如果你只有100条数据,但只有2个特征:如果用线性函数来拟合,相当于给你100个点来拟合到二次函数上,这个数据量一般来说是比较充裕的;但还是100个数据点,每个数据的特征数是200,那么很明显你的数据是不够的,过拟合的风险极高。所以谈论数据量,不能光说有多少条数据n,一定也要考虑数据的特征数m。
    一般来说,在大数据量小特征数时,简单模型如逻辑回归+正则即可。在小数据量多特征下,集成的树模型(如随机森林和xgboost)往往优于神经网络。随着数据量增大,两者表现趋于接近,随着数据量继续上升,神经网络的优势会逐步体现。
    随着数据量上升,对模型能力的要求增加而过拟合的风险降低,神经网络的优势终于有了用武之地而集成学习的优势降低。数据量很小,用朴素贝叶斯、逻辑回归或支持向量机;数据量适中或者较大,用树模型,优先 xgboost和lightgbm;数据量较大,尝试使用神经网络。 (依赖于经验和理解,供大家参考)

    相关文章

      网友评论

          本文标题:数据量

          本文链接:https://www.haomeiwen.com/subject/hnxtirtx.html