とりあえずちゃんとできているArabidopsisで使っているファイルを見てみると
- マッピングに使うリファレンス:Arabidopsis_thaliana.TAIR10.dna.toplevel.fa
(IGVのreferenceにもそのまま使う)
$ head Arabidopsis_thaliana.TAIR10.dna.toplevel.fa >1 dna:chromosome chromosome:TAIR10:1:1:30427671:1 REF CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAAT CTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTT CTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTA TTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGT GGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAA GCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTT ATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTT ACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTG TAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGG
つまりクロモソームごとのゲノム配列そのもの。
- cufflinks, cuffdiffで使うアノテーションファイル:Arabidopsis_thaliana.TAIR10.38.gtf
$ head Arabidopsis_thaliana.TAIR10.38.gtf #!genome-build TAIR10 #!genome-version TAIR10 #!genome-date 2010-09 #!genome-build-accession GCA_000001735.1 #!genebuild-last-updated 2010-09 1 araport11 gene 3631 5899 . + . gene_id "AT1G01010"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding"; 1 araport11 transcript 3631 5899 . + . gene_id "AT1G01010"; transcript_id "AT1G01010.1"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding"; transcript_source "araport11"; transcript_biotype "protein_coding"; 1 araport11 exon 3631 3913 . + . gene_id "AT1G01010"; transcript_id "AT1G01010.1"; exon_number "1"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding"; transcript_source "araport11"; transcript_biotype "protein_coding"; exon_id "AT1G01010.1.exon1"; 1 araport11 CDS 3760 3913 . + 0 gene_id "AT1G01010"; transcript_id "AT1G01010.1"; exon_number "1"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding"; transcript_source "araport11"; transcript_biotype "protein_coding"; protein_id "AT1G01010.1"; protein_version "1"; 1 araport11 start_codon 3760 3762 . + 0 gene_id "AT1G01010"; transcript_id "AT1G01010.1"; exon_number "1"; gene_name "NAC001"; gene_source "araport11"; gene_biotype "protein_coding"; transcript_source "araport11"; transcript_biotype "protein_coding";
左から順に
1 ->chromosome
araport11 ->データソース
gene -> feature
3631 ->start pos
5899 ->end pos
. ->score
- ->direction
. ->frame (0,1,2 or .)
gene_id "AT1G01010"; gene_name.... -> attribute
gffファイルだとattributeの書き方が違う
- igv.jsなどでreference配列の表示に使う:Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.fai
$ head Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.fai 1 30427671 55 60 61 2 19698289 30934909 60 61 3 23459830 50961558 60 61 4 18585056 74812441 60 61 5 26975502 93707303 60 61 Mt 366924 121132452 60 61 Pt 154478 121505547 60 61
クロモソームごとの indexが作られている。カラムは左から
NAME Name of this reference sequence
LENGTH Total length of this reference sequence, in bases
OFFSET Offset within the FASTA file of this sequence's first base
LINEBASES The number of bases on each line <- 行の折り返し
LINEWIDTH The number of bytes in each line, including the newline
OFFSETとは実際の配列の長さに加え、ヘッダにある文字や、改行をカウントしていってファイルの先頭から何バイトがそのseqの先頭であるかを示すもの。
- igv.jsでアノテーションのトラックを表示するファイル: TAIR10.bed
$ head TAIR10.bed chr1 3630 5899 AT1G01010.1 0 + 3759 5630 0 6 283,281,120,390,153,461, 0,365,855,1075,1543,1808, NAC001|ANAC001 NAC domain containing protein 1 chr1 5927 8737 AT1G01020.1 0 - 6914 8666 0 10 336,633,76,67,86,74,46,90,48,167, 0,509,1229,1456,1636,1834,2014,2308,2489,2643, ARV1 Arv1-like protein chr1 6789 8737 AT1G01020.2 0 - 7314 8666 0 8 280,294,86,74,46,90,48,167, 0,367,774,972,1152,1446,1627,1781, ARV1 Arv1-like protein chr1 11648 13714 AT1G01030.1 0 - 11863 12940 0 2 1525,380, 0,1686, NGA3 AP2/B3-like transcriptional factor family protein chr1 23145 31227 AT1G01040.1 0 + 23518 31079 0 20 1306,114,211,395,220,173,123,161,234,151,183,162,96,629,98,191,906,165,407,326, 0,1396,1606,1895,2378,2679,2935,3146,3397,3716,3953,4226,4472,4657,5562,5744,6014,7001,7264,7756, EMB76|SIN1|SUS1|ATDCL1|DCL1|ASU1|EMB60|CAF dicer-like 1 chr1 23415 31120 AT1G01040.2 0 + 23518 31079 0 20 1036,114,211,395,220,173,123,161,234,151,183,165,96,629,98,191,906,165,407,219, 0,1126,1336,1625,2108,2409,2665,2876,3127,3446,3683,3956,4202,4387,5292,5474,5744,6731,6994,7486, EMB76|SIN1|SUS1|ATDCL1|DCL1|ASU1|EMB60|CAF dicer-like 1 chr1 28499 28706 AT1G01046.1 0 + 28499 28499 0 1 207, 0, MIR838A MIR838a; miRNA chr1 31169 33153 AT1G01050.1 0 - 31381 32670 0 9 255,82,121,66,108,66,29,124,125, 0,351,523,763,918,1112,1261,1377,1859, AtPPa1|PPa1 pyrophosphorylase 1 chr1 33378 37757 AT1G01060.3 0 - 33991 37061 0 10 211,347,1074,81,234,62,112,181,26,189, 0,602,1022,2188,2351,3245,3431,3644,3994,4190, LHY1|LHY Homeodomain-like superfamily protein chr1 33665 37780 AT1G01060.2 0 - 33991 37061 0 8 662,1074,81,234,62,112,181,408, 0,735,1901,2064,2958,3144,3357,3707, LHY1|LHY Homeodomain-like superfamily protein
左から
chr1 ->クロモソーム番号
3630 ->start pos
5899 ->end pos
ここまで必須
AT1G01010.1 ->名前
0 ->score
'+ ->方向
3759 ->CDSのstart pos
5630 ->CDSのend pos
0 ->なにもなし
6 ->exonの数
283,281,120,390,153,461, ->各exonのサイズ
0,365,855,1075,1543,1808, ->各exonの先頭pos
ここまでオプション
LHY1|LHY
Homeodomain-like superfamily protein
この2つは独自拡張しているのかもしれない。
方向までの6カラムで一応用をなすのでそれ以外はigvにはあってもなくてもいいというわけか。なお、カラムの並びが違うだけでgtf/gffも同じ内容を持っているので、igvでも指定さえすればどれでも使えるということだな。