バイオインフォマティックスをやってるならBLASTくらい自分で構築しないとな、
というわけでもないけど、やはりアノテーションデータベースを構築したいので、blastをMacに入れることにする。
さらっとぐぐってみたらHomebrewで行けそうなので
$ brew install blast Updating Homebrew... ==> Auto-updated Homebrew! ------- $ blastn -version blastn: 2.7.1+ Package: blast 2.7.1, build Feb 16 2018 14:27:28
素晴らしい。ちゃんとインストールできた。
データベースを作らないと。マッピングにはゲノムコンティグを使ったけど、ついでにダウンロードしておいたtranscriptのfastaファイルを使って、
$ mkdir blast $ cd blast/ $ makeblastdb -in /Users/kuro/rnaseq/ref/transcript.fa -dbtype nucl -out mydb Building a new DB, current time: 03/29/2018 17:43:14 New DB name: /Users/kuro/local/bin/blast/mydb New DB title: /Users/kuro/rnaseq/ref/transcript.fa Sequence type: Nucleotide Keep MBits: T Maximum file size: 1000000000B Adding sequences from FASTA; added 30364 sequences in 1.38843 seconds. $ ls mydb.nhr mydb.nin mydb.nsq
こんな感じでデータベースが一瞬で出来上がる。
さあ、blast!
適当な遺伝子配列をfastaで保存しておいて、
$ blastn -query test.fasta -db mydb BLASTN 2.7.1+ Reference: Zheng Zhang, Scott Schwartz, Lukas Wagner, and Webb Miller (2000), "A greedy algorithm for aligning DNA sequences", J Comput Biol 2000; 7(1-2):203-14. Database: /Users/kuro/rnaseq/ref/transcript.fa 30,364 sequences; 48,838,386 total letters Query= xxxxx1Scf01234 xxxxx1Scf01234:68915..70156 (- strand) class=mRNA length=1242 Length=1242 Score E Sequences producing significant alignments: (Bits) Value yyyyy.106780.1 pacid=16959505 locus=yyyyy.106780 annot-version=... 196 3e-49 yyyyy.349830.1 pacid=16979855 locus=yyyyy.349830 annot-version=... 187 2e-46 > yyyyy106780.1 pacid=16959505 locus=yyyyy.106780 annot-version=v1.0 Length=1716 Score = 196 bits (106), Expect = 3e-49 Identities = 224/281 (80%), Gaps = 7/281 (2%) Strand=Plus/Plus =====中略===== Lambda K H 1.33 0.621 1.12 Gapped Lambda K H 1.28 0.460 0.850 Effective search space used: 58427489152 Database: /Users/kuro/rnaseq/ref/transcript.fa Posted date: Mar 29, 2018 5:43 PM Number of letters in database: 48,838,386 Number of sequences in database: 30,364 Matrix: blastn matrix 1 -2 Gap Penalties: Existence: 0, Extension: 2.5
できた。