reference-guided de novo assembly

ゲノムデータをreferenceにRNA-seqデータをマッピングしているのだが、ゲノムデータで使われているものとはことなる品種のRNA-seqデータをマッピングしてみたところ、かなりたくさんのSNPが含まれていることがわかった。
普通の発現解析なら、SNPがあろうがマッピングさえできれば良いわけだけど、いまやろうとしている仕事では100％マッチでマッピングされていることが重要なので、これではまずい。

ということでreferenceを使用品種のRNAseqデータで再構築してやりたい。本来的にはゲノムseqデータでde novo assemblyすれば良いわけだけど、これは大規模すぎるため、まずはRNA-seqデータでexon領域だけ、それも発現している遺伝子の部分だけ再構築してやることを目指す。

調べてみるとreference-based assemblyを行えば、referenceを再構築できそうなのだが、
https://bi.biopapyrus.jp/rnaseq/assembly/

肝心の方法はなかなか情報が得られない。
上のページでもできる、とは書いておきながら方法は書かれていないわけで。

http://seqanswers.com/forums/showthread.php?t=73620
ここでようやくそれらしい記述が。

velvetというとさっきのページでも紹介されていたゲノムのde novo assemblyをde Bruijn graph（ド・ブラングラフと読むらしい）で行うソフトウェアらしいのだが、これに付随するColumbus extensionを使うとreference-guided assemblyもできるらしい。

てことで
https://www.ebi.ac.uk/~zerbino/velvet/
からダウンロードして環境構築してみる。

普通に適当なところに解凍し、makeするだけで使えるようになる。
あとはとにかくマニュアルに従うだけなのだが、まずはColumbus extensionのマニュアルを紐解く。

1 For impatient people
> head myRegions.fa
>chr1:123456789-123457789
ATGTGTGTACTAGCTAGCGCGCTAGCTAGTCATGTGTGTACTAGCTAGCGCGCTAGCTAGTC
[etc ...]
> sort myReads.sam > mySortedReads.sam
> velveth my_dir 21 -reference myRegions.fa \
-shortPaired -sam mySortedReads.sam
> velvetg my_dir [etc ...]

せっかち向けって・・・
これだけ見てもまあどうすりゃいいかは案外わかるな。

kuroの覚え書き

96の個人的覚え書き

reference-guided de novo assembly