kuroの覚え書き

96の個人的覚え書き

BLASTを自前で

バイオインフォマティックスをやってるならBLASTくらい自分で構築しないとな、
というわけでもないけど、やはりアノテーションデータベースを構築したいので、blastをMacに入れることにする。
さらっとぐぐってみたらHomebrewで行けそうなので

$ brew install blast
Updating Homebrew...
==> Auto-updated Homebrew!
-------
$ blastn -version
blastn: 2.7.1+
 Package: blast 2.7.1, build Feb 16 2018 14:27:28

素晴らしい。ちゃんとインストールできた。
データベースを作らないと。マッピングにはゲノムコンティグを使ったけど、ついでにダウンロードしておいたtranscriptのfastaファイルを使って、

$ mkdir blast
$ cd blast/
$ makeblastdb -in /Users/kuro/rnaseq/ref/transcript.fa -dbtype nucl -out mydb

Building a new DB, current time: 03/29/2018 17:43:14
New DB name:   /Users/kuro/local/bin/blast/mydb
New DB title:  /Users/kuro/rnaseq/ref/transcript.fa
Sequence type: Nucleotide
Keep MBits: T
Maximum file size: 1000000000B
Adding sequences from FASTA; added 30364 sequences in 1.38843 seconds.

$ ls
mydb.nhr  mydb.nin	mydb.nsq

こんな感じでデータベースが一瞬で出来上がる。
さあ、blast!
適当な遺伝子配列をfastaで保存しておいて、

$ blastn -query test.fasta -db mydb
BLASTN 2.7.1+


Reference: Zheng Zhang, Scott Schwartz, Lukas Wagner, and Webb
Miller (2000), "A greedy algorithm for aligning DNA sequences", J
Comput Biol 2000; 7(1-2):203-14.



Database: /Users/kuro/rnaseq/ref/transcript.fa
           30,364 sequences; 48,838,386 total letters



Query= xxxxx1Scf01234 xxxxx1Scf01234:68915..70156 (- strand) class=mRNA
length=1242

Length=1242
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  yyyyy.106780.1 pacid=16959505 locus=yyyyy.106780 annot-version=...  196     3e-49
  yyyyy.349830.1 pacid=16979855 locus=yyyyy.349830 annot-version=...  187     2e-46


> yyyyy106780.1 pacid=16959505 locus=yyyyy.106780 annot-version=v1.0
Length=1716

 Score = 196 bits (106),  Expect = 3e-49
 Identities = 224/281 (80%), Gaps = 7/281 (2%)
 Strand=Plus/Plus
=====中略=====
Lambda      K        H
    1.33    0.621     1.12 

Gapped
Lambda      K        H
    1.28    0.460    0.850 

Effective search space used: 58427489152


  Database: /Users/kuro/rnaseq/ref/transcript.fa
    Posted date:  Mar 29, 2018  5:43 PM
  Number of letters in database: 48,838,386
  Number of sequences in database:  30,364



Matrix: blastn matrix 1 -2
Gap Penalties: Existence: 0, Extension: 2.5

できた。


参考ページ
http://bioinfo-dojo.net/2016/10/25/blast_makeblastdb/