kuroの覚え書き

96の個人的覚え書き

リファレンスとアノテーションファイルの中身を理解する。

とりあえずちゃんとできているArabidopsisで使っているファイルを見てみると

  • マッピングに使うリファレンス:Arabidopsis_thaliana.TAIR10.dna.toplevel.fa

(IGVのreferenceにもそのまま使う)

$ head Arabidopsis_thaliana.TAIR10.dna.toplevel.fa
>1 dna:chromosome chromosome:TAIR10:1:1:30427671:1 REF
CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAAT
CTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTT
CTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTA
TTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGT
GGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAA
GCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTT
ATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTT
ACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTG
TAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGG

つまりクロモソームごとのゲノム配列そのもの。

$ head Arabidopsis_thaliana.TAIR10.38.gtf
#!genome-build TAIR10
#!genome-version TAIR10
#!genome-date 2010-09
#!genome-build-accession GCA_000001735.1
#!genebuild-last-updated 2010-09
1	araport11	gene	3631	5899	.	+	.	gene_id "AT1G01010"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding";
1	araport11	transcript	3631	5899	.	+	.	gene_id "AT1G01010"; transcript_id "AT1G01010.1"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding"; transcript_source "araport11"; transcript_biotype "protein_coding";
1	araport11	exon	3631	3913	.	+	.	gene_id "AT1G01010"; transcript_id "AT1G01010.1"; exon_number "1"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding"; transcript_source "araport11"; transcript_biotype "protein_coding"; exon_id "AT1G01010.1.exon1";
1	araport11	CDS	3760	3913	.	+	0	gene_id "AT1G01010"; transcript_id "AT1G01010.1"; exon_number "1"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding"; transcript_source "araport11"; transcript_biotype "protein_coding"; protein_id "AT1G01010.1"; protein_version "1";
1	araport11	start_codon	3760	3762	.	+	0	gene_id "AT1G01010"; transcript_id "AT1G01010.1"; exon_number "1"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding"; transcript_source "araport11"; transcript_biotype "protein_coding";

左から順に
1 ->chromosome
araport11 ->データソース
gene -> feature
3631 ->start pos
5899 ->end pos
. ->score

  1. ->direction

. ->frame (0,1,2 or .)
gene_id "AT1G01010"; gene_name.... -> attribute

gffファイルだとattributeの書き方が違う

  • igv.jsなどでreference配列の表示に使う:Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.fai
$ head Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.fai
1	30427671	55	60	61
2	19698289	30934909	60	61
3	23459830	50961558	60	61
4	18585056	74812441	60	61
5	26975502	93707303	60	61
Mt	366924	121132452	60	61
Pt	154478	121505547	60	61

クロモソームごとの indexが作られている。カラムは左から
NAME Name of this reference sequence
LENGTH Total length of this reference sequence, in bases
OFFSET Offset within the FASTA file of this sequence's first base
LINEBASES The number of bases on each line <- 行の折り返し
LINEWIDTH The number of bytes in each line, including the newline

OFFSETとは実際の配列の長さに加え、ヘッダにある文字や、改行をカウントしていってファイルの先頭から何バイトがそのseqの先頭であるかを示すもの。

$ head TAIR10.bed
chr1	3630	5899	AT1G01010.1	0	+	3759	5630	0	6	283,281,120,390,153,461,	0,365,855,1075,1543,1808,	NAC001|ANAC001	NAC domain containing protein 1
chr1	5927	8737	AT1G01020.1	0	-	6914	8666	0	10	336,633,76,67,86,74,46,90,48,167,	0,509,1229,1456,1636,1834,2014,2308,2489,2643,	ARV1	Arv1-like protein
chr1	6789	8737	AT1G01020.2	0	-	7314	8666	0	8	280,294,86,74,46,90,48,167,	0,367,774,972,1152,1446,1627,1781,	ARV1	Arv1-like protein
chr1	11648	13714	AT1G01030.1	0	-	11863	12940	0	2	1525,380,	0,1686,	NGA3	AP2/B3-like transcriptional factor family protein
chr1	23145	31227	AT1G01040.1	0	+	23518	31079	0	20	1306,114,211,395,220,173,123,161,234,151,183,162,96,629,98,191,906,165,407,326,	0,1396,1606,1895,2378,2679,2935,3146,3397,3716,3953,4226,4472,4657,5562,5744,6014,7001,7264,7756,	EMB76|SIN1|SUS1|ATDCL1|DCL1|ASU1|EMB60|CAF	dicer-like 1
chr1	23415	31120	AT1G01040.2	0	+	23518	31079	0	20	1036,114,211,395,220,173,123,161,234,151,183,165,96,629,98,191,906,165,407,219,	0,1126,1336,1625,2108,2409,2665,2876,3127,3446,3683,3956,4202,4387,5292,5474,5744,6731,6994,7486,	EMB76|SIN1|SUS1|ATDCL1|DCL1|ASU1|EMB60|CAF	dicer-like 1
chr1	28499	28706	AT1G01046.1	0	+	28499	28499	0	1	207,	0,	MIR838A	MIR838a; miRNA
chr1	31169	33153	AT1G01050.1	0	-	31381	32670	0	9	255,82,121,66,108,66,29,124,125,	0,351,523,763,918,1112,1261,1377,1859,	AtPPa1|PPa1	pyrophosphorylase 1
chr1	33378	37757	AT1G01060.3	0	-	33991	37061	0	10	211,347,1074,81,234,62,112,181,26,189,	0,602,1022,2188,2351,3245,3431,3644,3994,4190,	LHY1|LHY	Homeodomain-like superfamily protein
chr1	33665	37780	AT1G01060.2	0	-	33991	37061	0	8	662,1074,81,234,62,112,181,408,	0,735,1901,2064,2958,3144,3357,3707,	LHY1|LHY	Homeodomain-like superfamily protein

左から
chr1 ->クロモソーム番号
3630 ->start pos
5899 ->end pos
ここまで必須

AT1G01010.1 ->名前
0 ->score
'+ ->方向
3759 ->CDSのstart pos
5630 ->CDSのend pos
0 ->なにもなし
6 ->exonの数
283,281,120,390,153,461, ->各exonのサイズ
0,365,855,1075,1543,1808, ->各exonの先頭pos
ここまでオプション

LHY1|LHY
Homeodomain-like superfamily protein
この2つは独自拡張しているのかもしれない。

方向までの6カラムで一応用をなすのでそれ以外はigvにはあってもなくてもいいというわけか。なお、カラムの並びが違うだけでgtf/gffも同じ内容を持っているので、igvでも指定さえすればどれでも使えるということだな。