美文网首页
数据为什么进行log2转化,倍数变化为什么要个log2FC?

数据为什么进行log2转化,倍数变化为什么要个log2FC?

作者: 微生信 | 来源:发表于2022-10-24 06:54 被阅读0次
2022年10月24日,首先祝所有程序员们(会写、会看代码的都算)节日快乐!
1024是2的十次方,二进制计数的基本计量单位之一。做生信分析的小伙伴就像是一个个1024,最低调、踏实、核心的功能模块将计算机程序应用到生命科学中,促进科学发展。1G=1024M,而1G与1级谐音,做生信分析的小伙伴都是一级棒的!


1,fold change的log2转化

以转录组分析为例,例如我们测了某基因在3个样品中的表达值,例如在A样品中基因TP53表达量为8,在样品B中表达值为1,在样品C中表达值为0.125(即1/8)。
将它们列在常规的坐标轴上。可以看到A vs B上调了8倍,而C vs B下调了8倍。然而在这个坐标轴上,A与B之间的距离(红色大括号)要远大于C到B之间的距离(蓝色大括号)。

图1. 常规坐标轴(来自statquest,有修改)


而按照人们一般的理解,上调倍数和下调倍数应该是对称的,因此如果我们将坐标轴log2转化下。8 log2后转成3,0.125 log2后转成-3,那么它们在坐标轴上的距离就一致了。

图2. Log2坐标轴(来自statquest,有修改)


在常规的分析中,我们一般使用正值代表上调,例如8代表上调8倍;负值代表下调,例如-8代表下调8倍。如果fold change是0.125,就很难看出变化了多少倍(除非你数学学得极好),你还得自己做个倒数。


2,芯片或者测序数据的log2转化

一般情况下,我们的芯片或者测序给出来的原始值范围都是非常大的,例如Agilent芯片的信号强度从0到65535,tpm从0到25000。将它们绘制密度分布后,一般呈现右偏,即大部分信号都是在左侧,右侧拖个长长的尾巴,不利于研究,而经过log2转化后,数据更加集中,更加接近正态分布,更方便我们套用正态分布那一套进行研究。

图3. Raw数值分布


图4. 更接近正态分布


总结下(Coursera上杜克大学的统计学课程)

取对数,只是数据变换的一种方式,除此之外还可以取平方根、取倒数等。

数据变换的目的,有三点:

1.We might want to see the data structure a little differently (数据范围压缩了)

2.We might want to reduce skew to assist in modeling (更接近正态了)

3.We might want to straighten a nonlinear relationship in a scatterplot, so that we can model the relationship with simpler methods(更容易用简单的方法来研究了)


另外,强烈推荐大家看看StatQuest
微生信助力高分文章,用户55000+,引用700




相关文章

  • 统计-离群值出现时的两种矫正方法

    方法一:取log 当数据是呈倍数增加的时候,图会有很多离群值,不好看(图左)。取log2后,数据波动范围变小,但是...

  • 2019-01-01

    接2018年12月31日: 11.筛选后的数据分析:使用筛选软件MaGeCK,根据所有gRNA的平均log2倍数改...

  • 数据挖掘笔记

    什么是数据挖掘? 从数据中发现知识,简称KDD 为什么进行数据挖掘? 从海量数据中发现有价值的信息,把这些数据转化...

  • MySQL分库、分表的问题

    问题描述 为什么进行分表? 分库? 一般多少数据量开始分表? 什么是数据库垂直拆分和水平拆分 回答 为什么要进行分...

  • 求最小公倍数

    最小公倍数的求解在最大公约数的基础上进行的 最小公倍数: 为什么是上方的公式,可以结合下方的图进行理解。a和b的最...

  • 怎么实现管理层多变的分析需求?看看管理费用分析案例

    不论何时,企业对数据分析的需求不会减少。为什么越来越多的企业开始对经营数据进行深入分析?因为时代在变化,市场在变化...

  • php给mysql制造假数据

    为什么要制造假数据 进行压力测试,sql练习 think-orm进行数据库操作。faker 得到加数据,只用了na...

  • 为什么我们需要可视化 II

    之前一篇文章 为什么我们需要数据可视化简单的介绍我们为什么要进行数据可视化,文章里面简单的列出三个方面: I...

  • 爬虫是什么?

    为什么要学习爬虫呐? * 学习爬虫,可以私人订制一个搜索引擎。 * 大数据时代,要进行数据分析,首先要有数据源...

  • GreenDao数据库升级问题

    前面博客中有介绍轻量级的数据库GreenDao的整合。本文介绍如何对GreenDao数据库进行升级。 为什么要进行...

网友评论

      本文标题:数据为什么进行log2转化,倍数变化为什么要个log2FC?

      本文链接:https://www.haomeiwen.com/subject/itenzrtx.html