下载数据。每个手写体数字图像在两份文件中都被首尾拼接为一个28*28=784维的像素向量,而且每个像素都使用【0,...[作者空间]
下载数据。已经标有情感倾向的训练文件labeledTrainData.tsv,里面有25000条影评以及对应的情感...[作者空间]
0.8081393027203827 0.81824559798311003 提交结果:着重注意的是,在今后的实战...[作者空间]
kaggle是当前世界上最为流行的,采用众包策略,为科技公司、研究院所乃至高校课程提供数据分析与预测模型的竞赛平台...[作者空间]
Tensorflow是一个完整的编码框架。就如同我们按照python编程语法设计程序一样。Tensorflow内部...[作者空间]
提升(Boosting)分类器隶属于集成学习模型。它的基本思想是把成百上千个分类准确率低的树模型组合起来,成为一个...[作者空间]
词袋法是以每个词汇为特征,向量化表示一个文本;并且提供了几种特征量化的技术,如CountVectorizer和Tf...[作者空间]
这一节所介绍的NLTK,是时下非常流行的在python解释器环境中用于自然语言处理的工具包。对于NLTK的使用者而...[作者空间]
(1)安装python,打开terminal. (2)在terminal下运行代码中的bash命令。 安装本书所有...[作者空间]
尽管采用网格搜索结合交叉验证的方法,来寻找更好超参数组合的过程非常耗时;然而,一旦获取比较好的超参数组合,则可以保...[作者空间]
由于超参数的空间是无尽的,因此超参数的组合配置只能是“最优”解,没有最优解。通常情况下,我们依靠网格搜索对多种超参...[作者空间]
3.1.3模型检验 仅仅使用默认配置的模型与不经处理的数据特征,在大多数任务下是无法得到最佳性能表现的。因此,在最...[作者空间]
与L1范数正则化略有不同的是,L1范数正则化则在原优化目标的基础上,增加了参数向量的L2范数的惩罚项,为了使新优化...[作者空间]
正则化的目的在于提高模型在未知测试数据上的泛化力,避免参数过拟合。由上节的例子可以看出,2次多项式回归是相对较好的...[作者空间]
3.1.2模型正则化 任何机器学习模型在训练集上的性能表现,都不能作为其对未知测试数据预测能力的评估。3.1.2....[作者空间]
冗杂的特征虽然不会影响到模型性能,不过却使得CPU的计算做了无用功。比如,主成分分析主要用于去除多余的那些线性相关...[作者空间]
3.1.1特征抽取 特征抽取,就是逐条将原始数据转化为特征向量的形式,这个过程同时涉及对数据特征的量化表示;而特征...[作者空间]
2.2.2特征降维 特征降维是无监督学习的另一个应用,目的有二:其一,我们会经常在实际项目中遭遇特征维度非常之高的...[作者空间]
2.2无监督学习 着重于发现数据本身的分布特点。与监督学习不同,无监督学习不需要对数据进行标记。这样,在节省大量人...[作者空间]
模型介绍:在“2.1.1.6集成模型(分类)”节中,曾经探讨过集成模型的大致类型和优势。这一节除了继续使用普通随机...[作者空间]