美文网首页
生信数据思维 | 快速入门R语言,优雅的分析数据

生信数据思维 | 快速入门R语言,优雅的分析数据

作者: 生信分析笔记 | 来源:发表于2023-04-14 15:36 被阅读0次

    生物信息学之R语言数据思维

    大部分半路出家搞生信的朋友都遇到过一个问题——无法建立数据之间的联系,根本原因是缺少必备的数据思维,传统生物学中对数学的忽视,造成了现在大数据情况下思维混乱。

    如果没有数据思维,就只是数据堆叠。

    如何培养数据思维?

    学习数据分析工具和技术:

    了解数据分析所需的基本工具和技术,包括统计学、机器学习、数据可视化等。

    掌握数据收集和处理技能:

    学会如何获取、整理、清洗和转换数据,使其适合进行分析。

    练习数据分析和解释:

    利用实际数据集进行练习和分析,并熟悉如何将分析结果以及数据图表传达给受众。

    培养数据驱动的思考方式:

    使用数据来支持决策和解决问题,例如使用数据来验证假设和评估方案效果。


    如何提升R语言能力?

    R提供了丰富的数据处理、统计分析和图形可视化功能,包括基本的统计方法(如描述性统计、假设检验、线性回归等)和高级的统计技术(如非参数方法、广义线性模型、决策树、聚类分析等)。

    此外,R还提供了强大的绘图和可视化功能,可以创建各种类型的图表,包括散点图、条形图、直方图、箱线图、密度图、热力图等。

    我最近看到了一本很适合R语言爱好者的书,它是由哈尔滨工业大学基础数学博士张敬信教授编著的《R语言编程—基于tidyverse

    15151515
    这本书的作者张教授先在信息与计算科学专业打牢学术基础,然后继续在基础数学领域深造并一举拿下博士学位,年纪轻轻就成为了副教授。

    干货满满

    内容新颖

    Tidyverse包是Hadley及团队的集大成之作,是专为数据科学而开发的一系列包的合集,提供了一致的底层设计哲学、语法、数据结构。它集数据导入—数据清洗—数据操作—数据可视化—数据建模—可重现与交互报告整个数据科学流程于一身,以“现代的”“优雅的”方式和管道式、泛函式编程技术实现。

    本书绝大部分内容都是参阅最新版本R包的相关文档,很少参阅书籍(而且尽量参阅最新的在线版本)。本书全面采用最新的R语言技术编写,特别是tidyverse“整洁流、管道流、泛函流”数据科学。

    真正融入编程思维

    很多国内 R 语言编程书只是罗列堆砌编程语法,国外有不少优秀的 R语言编程书,但翻译版往往就只是 “直译”,只把表面意思用生硬的汉语表达出来,很难让初学者学透它们。

    解决办法就是真正融入编程思维:编程思想引导,编程语法到底是怎么回事,应该用于何处、怎么使用。本书前言和第一章融入向量化编程与函数式编程思维;第二章主要融入数据思维。

    精心准备实例

    编程语法讲透彻还不够,必须配以合适的实例来演示,所以也请读者一定要将编程语法讲解与配套实例结合起来阅读,比起实例代码调试通过,更重要的是借助实例代码理解透彻该编程语法,所包含的编程思维。

    本书后半部分是R语言在应用统计、探索性数据分析、文档沟通方面的应用,所配案例力求能让读者上手使用。

    程序代码优雅、简洁、高效

    本书程序代码都是基于最新的tidyverse,自然就很优雅;简洁高效是能用向量化编程就不用逐元素,能用泛函式编程,就不用 for 循环。

    可以说,读者如果用我这本书入门 R 语言,或者更新您的 R 知识,就会自动跳过写低级啰嗦代码的阶段,直接进入写让别人羡慕的 “高手级” 代码的行列。


    本书内容安排简介

    R 语言编程的基本语法

    同时渗透向量化编程、函数式编程思维。这些语法在其它编程语言中也是相通的,包括搭建 R 语言环境,常用数据结构(存放数据的容器) :向量、矩阵、数据框、因子、字符串(及正则表达式) 、日期时间,分支结构,循环结构,自定义函数。

    这些基本语法是您写 R 代码的基本元素,学透它们非常重要,只有学透它们才能将其任意组合、恰当使用,以写出各种各样的解决具体问题的 R 代码。同样是讲 R 基本语法,本书不同之处在于,用tidyverse中更一致、更好用的相应包加以代替:用tibble代替data.frame、用forcats包处理因子,用stringr讲字符串 (及正则表达式)、用lubridate包讲日期时间、循环结构中用purrr包的map_函数代替apply系列函数,其中特别讲到编程技术:泛函式编程。

    tidyverse数据操作思维

    先简单介绍 tidyverse包以及编程技术之管道操作,接着围绕各种常用数据操作展开,包括数据读写(各种常见数据文件的读写及批量读写、R连接数据库、中文编码问题及解决办法),数据连接(数据按行/列拼接、SQL数据库连接),数据重塑 (“脏”数据变“整洁”数据,长宽表转换、拆分与合并列),数据操作 (选择列、筛选行、对行排序、修改列、分组汇总)、其它数据操作 (按行汇总、窗口函数、滑窗迭代、整洁计算),以及data.table基本使用 (常用数据操作的dplyr语法与data.table语法对照)。

    tidyverse最大的优势就是以“管道流”、“整洁语法”操作数据,这些语法真正让数据操作从R base的晦涩难记难用,到tidyverse的“一致”、“整洁”好记好用,比Python的 pandas还好用!关键是用一次就能记住!

    为了最大程度地降低理解负担,本书特意选用中文的学生成绩数据作为演示数据,让读者只关心语法就好。另外,tidyverse 的这些数据操作,实际上已经在语法层面涵盖了日常Excel数据操作、SQL数据库操作,活用tidyverse上述数据操作语法已经可以胜任这些工作。

    可视化与建模技术

    可视化只介绍最流行的可视化包ggplot2,先从 ggplot2的图层化绘图语法开始,依次介绍ggplot2的九大部件:数据、映射、几何对象、标度、统计变换、坐标系、分面、主题、输出;接着介绍图形从功能上的分类:类别比较图、数据关系图、数据分布图、时间序列图、局部整体图、地理空间图,对每一类图形分别选择其中代表性的用实例加以演示。

    建模技术包括三个内容:(1) 用broom包提取统计模型结果为整洁数据框,方便后续访问和使用;(2) modelr包中一些有用的辅助建模函数;(3) 批量建模技术,比如要对全世界 170 多个国家的数据分别建立模型、提取模型结果,当然这可以用for 循环实现,但这里采用更加优雅的map_实现,以及“行化迭代”实现。

    本文由mdnice多平台发布

    相关文章

      网友评论

          本文标题:生信数据思维 | 快速入门R语言,优雅的分析数据

          本文链接:https://www.haomeiwen.com/subject/yrhtjdtx.html