kuroの覚え書き

96の個人的覚え書き

アミノ酸アライメントについて



その1 DDBJのウェブツールを使う

http://www.ddbj.nig.ac.jp/search/clustalw-j.html

CLUSTALW1.83

FASTA形式のファイルを指定、もしくはペーストする。


FASTA形式
 >配列名
 MAISIVLH......
 >配列名
 MSKINVAL.......

Tree,BOOTSTRAP

NJ 法 (近隣結合法)による系統樹を計算させることができる。

系統樹計算時に使用する correction を指定可能。デフォルトは Kimura。アミノ酸アライメントの際はp-distanceも指定できる。

出力はPhylip形式で、Treeを描画するプログラムは別に用意する必要がある。(後述)


その2 GENOMENETのウェブツールを使う

http://align.genome.jp/

CLUSTALW1.83

FASTA形式のファイルを指定、もしくはペーストする。

パラメータの指定方法、デフォルト値が異なるためDDBJと若干ギャップの入り方が異なる。(デフォルトではDDBJより荒い)

Treeはパラメータの指定はできないが、実際にTreeを描画してPostScript fileとしてダウンロードできる。phylip形式でも保存可能。

BOOTSTRAPを計算させるオプションはadditional optionsとして指定可能なようなのだがよくわからない。

Treeの形式は

N-J tree

N-J tree with branch length

Unrooted N-J tree

Dendrogram

Dendrogram with branch length

Unrooted dendrogram

から選択できる。

このサイトの便利な点はblastと連動している点である。

例えば

GCAGAAACAAAAACAAGTAAAACAGAAACAATCAACACAGAGAAACCACCTGTTTGTTCAAGATCAAAGATGTCTATAAATATAAGAGACCCTCTTATAGTAAGCAGAGTTGTTGGAGACGTTCTTGATCCGTTTAATAGATCAATCACTCTAAAGGTTACTTATGGCCAAAGAGAGGTGACTAATGGCTTGGATCTAAGGCCTTCTCAGGTTCAAAACAAGCCAAGAGTTGAGATTGGTGGAGAAGACCTCAGGAACTTCTATACTTTGGTTATGGTGGATCCAGATGTTCCAAGTCCTAGCAACCCTCACCTCCGAGAATATCTCCATTGGTTGGTGACTGATATCCCTGCTACAACTGGAACAACCTTTGCTTGGCAGGCAAACAGTGTATGCACCAGGGTGGCGCCAGAACTTCAACACTCGCGAGTTTGCTGAGATCTACAATCTCGGCCTTCCCGTGGCCGCAGTTTTCTACAATTGTCAGAGGGAGAGTGGCTGCGGAGGAAGAAGACTTTAGATGGCTTCTTCCTTTATAACCAATTGATATTGCATACTCTGATGAGATTTATGCATCTATAGTATTTTAATTTAATAACCATTTTATGATACGAGTAACGAACGGTGATGATGCCTATAGTAGTTCAATATATAAGTGTGTAATAAAAATGAGAGGGGGAGGAAAATGAGAGTGTTTTACTTATATAGTGTGTGATGCGATAATTATATTAATCTACATGAAATGAAGTGTTATATTTATACTTTAAAAAAAAAAAAAAA

こういう配列からホモロジーサーチをBlastx (nuc to prot)にかけてやると

f:id:k-kuro:20061220000442j:image

こういう結果が返ってきて、アライメントを取りたいものにチェックを入れてCLUSTALWをexecすると

ath_At1g18100_T10F20.11__mothe ---MAASVDPLVVGRVIGDVLDMFIPTANMSVYFG--PKHITNGCEIKPS
osa_4341107_Os06g0498800__A_ ---MASHVDPLVVGRVIGDVVDLFVPTTAMSVRFG--TKDLTNGCEIKPS
osa_4326145_Os01g0111600__A_ ---MARFVDPLVVGRVIGEVVDLFVPSISMTAAYG--DRDISNGCLVRPS
osa_4349798_Os11g0152500__A_ ---MSRSVEPLVVGRVIGEVLDTFNPCMKMIVTYN-SNKLVFNGHELYPS
osa_4351520_Os12g0152000__A_ ---MSRSVEPLVVGRVIGEVIDSFNPCTKMIVTYN-SNKLVFNGHEFYPS
osa_4335774_Os04g0411400__A_ ---MSRVLEPLVVGKVIGEVIDNFNPTVKMTATYS-SNKQVFNGHELFPS
ath_At2g27550_F15K20.35__centr --MARISSDPLMVGRVIGDVVDNCLQAVKMTVTYN-SDKQVYNGHELFPS
ath_At5g03840_MED24.6__Termina ENMGTRVIEPLIMGRVVGDVLDFFTPTTKMNVSYN-K-KQVSNGHELFPS
ath_At5g62040_MTG10.11__Fdr1_C ---MSREIEPLIVGRVIGDVLEMFNPSVTMRVTFN-SNTIVSNGHELAPS
ath_At1g65480_F5I14.3__floweri --MSINIRDPLIVSRVVGDVLDPFNRSITLKVTYG--QREVTNGLDLRPS
ath_At4g20370_F9F13.20__twin_s --MSLSRRDPLVVGSVVGDVLDPFTRLVSLKVTYG--HREVTNGLDLRPS
osa_4340185_Os06g0157700__A_ MAGSGRDRDPLVVGRVVGDVLDAFVRSTNLKVTYG--SKTVSNGCELKPS
osa_4340184_Os06g0157500__A_ MAGSGRD-DPLVVGRIVGDVLDPFVRITNLSVSYG--ARIVSNGCELKPS
osa_4324585_Os01g0218500__A_ MSGRGRG-DPLVLGRVVGDVVDPFVRRVALRVAYG--AREVANGCELRPS
osa_4336228_Os04g0488400__A_