目录

RNA数据的随机模拟


1. 转录组数据的统计推断

对转录组数据,采用组间差异分析是最常用的分析手段。其分析的原理通常为推断组间差异是否大于组内差异。然而,RNA测序产出的数据在组内的随机误差往往不符合正态分布,且其表征表达量的count数也是非连续的(区别于其他基于杂交信号的转录组数据)。

因此,本帖主要讨论以下两个问题:


2. 转录组数据的随机模拟

早期,RNAseq数据误差一般均采用泊松分布,有一些早期的差异分析方法采用泊松分布进行差异分析。但最近10年来,主流方法几乎全部采用负二项分布,从而从一定程度上解决了overdispersion现象。

Tips 简单描述下overdispersion现象。在泊松分布中,其$\mu = \sigma ^2$, 而真实数据却并非如此,其均值与方差如下图所示:

可见,其误差分布与泊松分布并不一致。 对于负二项分布而言,其$\sigma^2 = \mu + \frac 1 r \mu ^ 2 $。显然,均值是方差的二次函数,方差随着均值的增加而进行二次函数形式的递增。$r$ 即为dispersion parameter。 当$ r\rightarrow \infty $,$\mu = \sigma ^2$,即为泊松分布。而当$ r\rightarrow 0 $,此时为overdispersion。 因此,许多文章中和软件,均采用了负二项分布来直接产生RNAseq的模拟数据和差异分析,如RSEM和DEseq2等。

此处,我们简单模拟RNA数据的产生过程,采用随机抽样方法,来模拟得到RNAseq数据。并验证上述的现象和规律。


3. RNAseq数据随机模拟

假设如下:存在8481条序列长度不等的RNA。单位体积内,各RNA浓度范围为1~4096(即其log2值为0~12)。因此,其归一化后的浓度范围: $$ c_i = \frac {m_i} {\sum_i^{10000} m_i} $$ 注,此处,浓度定义为单位体积内的RNA数目,而非质量,且满足 $log_2 c$ 服从正态分布。


4. 饱和度评估

为了评估大约需要多少reads能够检测到全部的基因,即饱和度评估。我们采用如下图的steps = [10K,50K,100K,500K,1M,2M,3M,4M]

从图上看,我们选择3M reads 基本能满足要求。

5. 均值与方差关系

模拟结果见下图


6. TPM 与 RPKM 与浓度的关系