《精通机器学习:基于R 第二版》学习笔记 1、前文回顾 前面学习了逻辑斯蒂回归,它被用来预测一个观测属于某个响应变...[作者空间]
《精通机器学习:基于R 第二版》学习笔记 1、数据理解与准备 ID :样本编码 V1 :细胞浓度 V2 :...[作者空间]
1、单变量线性回归 1.1 散点图,可以看到前后有两个明显的离群点 1.2 线性回归 理论上,Multiple ...[作者空间]
安装一些R包:数据包: ALL, CLL, pasilla, airway软件包:limma,DESeq2,clu...[作者空间]
TextRank算法是一个比较耗时的算法,因为它依赖于图计算,需要构成相似度矩阵。当数据量变大的时候,运行时间会呈...[作者空间]
最近疫情在家没事就开始学习R语言,之前在安装后加载包时很多都会提示有一些小包没有安装,这时候直接安装小包就可以成功...[作者空间]
1、导入原始数据并做基本处理 文件共7051行,12个变量。 有几个变量的类型明显不对,其中Create.Date...[作者空间]
1、数据整理 2、读取小说文本 3、各章节字数对比 4、中文分词 5、词频对比 6、分别使用频率最高的词[作者空间]
1、酒店评论数据 2、构造text2vec读取文件函数 3、使用构造的函数创建DTM 请注意,DTM具有文档id。...[作者空间]
1、导入豆瓣《庆余年》评论数据 2、中文分词并将数据拆分为训练集和测试集 word_tokenizer(strin...[作者空间]
1、隐含狄利克雷分布LDA 隐含狄利克雷分布LDA(Latent Dirichlet allocation),是一...[作者空间]
tidy结构要求:a table with one-token-per-document-per-row,这使得我...[作者空间]
1、读取数据 2、n-grams增加文字信息量 如果是1-ngrams,有一句话:you need many mo...[作者空间]
1、读取并整理数据 2、中文分词 使用dplyr::count()函数计算词频一直有问题,最后选择使用text2v...[作者空间]
1、载入数据 2、中文分词 3、使用unnest_tokens()函数整理为tidy结构 4、去除停用词 5、dp...[作者空间]
Selenium 2,又名 WebDriver,它的主要新功能是集成了 Selenium 1.0 以及 WebDr...[作者空间]
1、加载R包 2、伪造访问终端 3、爬取分类列表及其链接 4、构造爬取每一篇文章的函数 5、爬取各类别文章数量 6...[作者空间]
0.安装并加载需要用到的R包 1.请将数据读入R,并指出各个变量的格式 结论: 样本数据集共200条记录,8个变...[作者空间]
1、OLS线性回归的基本原则 最优拟合曲线应该使各点到直线的距离的平方和(即残差平方和,简称RSS)最小。 2、O...[作者空间]
参考资料:http://mp.weixin.qq.com/s?__biz=MzA5NjAyMzU1OA==&mid...[作者空间]