二代测序基本知识
测序数据量:
一般应用的时候还是指实际包含的碱基数,而不是文件大小。所以说下机20G数据量,应该是20G测序数据 = 20 X 10
3
Mb = 20 X 10
6
kb = 20 * 10
9
bp
测序深度(depth):
是指测序得到的碱基数/
基因组
(
转录组
等)大小的比值。就是被测基因组上单个碱基被测序的平均次数,比如某样本的测序深度为30X,那么就是说该样本的基因组上每一个单碱基
平均
被测序(或者说读取)了30次。
覆盖度(coverage):
原来是测序覆盖到的区域/占整个
基因组
(或
转录组
等)的比例。由于大片段拼接的gap、测序读长有限、重复序列、GC异常等问题的存在,测序分析后组装得到的基因组或转录组序列通常无法完全覆盖所有区域,覆盖度就是最终得到的结果占整个基因组或转录组的比例。例如一个人的基因组测序,覆盖度为93.2%,那么说明该基因组还有6.8%的区域通过我们的组装和分析无法得到。