GTF 文件一般用于对基因组区域的注释,记录基因组上哪个区域是一个基因,哪个区域是一个repeat区等等。该格式共包含9列信息。
Note:GTF的格式与GFF2 的格式基本一致,而与GFF3有一定的差异。
我们先看一个人类基因组上的TP53基因,其中一个转录本的的GTF注释文件。
chr17 HAVANA CDS 7676521 7676594 . - 0 gene_id "ENSG00000141510.16"; transcript_id "ENST00000413465.6"; chr17 HAVANA CDS 7676382 7676403 . - 1 gene_id "ENSG00000141510.16"; transcript_id "ENST00000413465.6"; chr17 HAVANA CDS 7675994 7676272 . - 0 gene_id "ENSG00000141510.16"; transcript_id "ENST00000413465.6"; chr17 HAVANA CDS 7675053 7675236 . - 0 gene_id "ENSG00000141510.16"; transcript_id "ENST00000413465.6"; chr17 HAVANA CDS 7674859 7674971 . - 2 gene_id "ENSG00000141510.16"; transcript_id "ENST00000413465.6"; chr17 HAVANA CDS 7674181 7674290 . - 0 gene_id "ENSG00000141510.16"; transcript_id "ENST00000413465.6"; chr17 HAVANA CDS 7661942 7662014 . - 1 gene_id "ENSG00000141510.16"; transcript_id "ENST00000413465.6";
上面格式包含了9列信息。
因此,上例中表示的是:基因id为ENSG00000141510.16的CDS区域,位置在人类17号染色体的负链(给定的基因组序列为正链)上。
例:
AB000123 Twinscan CDS 193817 194022 . - 2 gene_id "AB000123.1"; transcript_id "AB00123.1.2"; AB000123 Twinscan CDS 199645 199752 . - 2 gene_id "AB000123.1"; transcript_id "AB00123.1.2"; AB000123 Twinscan CDS 200369 200508 . - 1 gene_id "AB000123.1"; transcript_id "AB00123.1.2"; AB000123 Twinscan CDS 215991 216028 . - 0 gene_id "AB000123.1"; transcript_id "AB00123.1.2"; AB000123 Twinscan start_codon 216026 216028 . - . gene_id "AB000123.1"; transcript_id "AB00123.1.2"; AB000123 Twinscan stop_codon 193814 193816 . - . gene_id "AB000123.1"; transcript_id "AB00123.1.2";
计算方法(编程参考)
Contributors: rongzhengqin@basepedia.com