kuroの覚え書き

96の個人的覚え書き

RNAseqデータの解析

パイプラインで

  1. seqリードをゲノムにマッピング(tophat)
  2. 各サンプルの遺伝子発現量FPKMを計算(cufflinks)
  3. サンプル間のFPKMを比較(cuffdiff)

とデータ処理をしてきたが、結局肝心なのはここで吐き出されたデータをいかに解釈し、意味を見出すかということ。

tophatでマッピングを行った際にできるファイル

  • accepted_hits.bam

メインとなる結果ファイル。今回のパイプラインでは名前を[サンプル名].bamに書き換えている。
このままでは中身を確認できないので

samtools sort [サンプル名].bam -o [サンプル名]_sorted.bam
samtools index [サンプル名]_sorted.bam

とソートしてインデックスも作ってやるとIGVでマップされたリードを見ることができる。

っと思っていたけど、実はtophatでマッピングをするとすでにソートされたbamができているようなので
samtools index
だけでIGVに表示できるらしいことがわかった。
一手間省けたね。
あと

  • junctions.bed
  • insertions.bed
  • deletions.bed

という3つのbedファイルができる
これもIGVに表示させるとわかるがjunctionはどういうエキソンのつながり方をしているかを表している。つまりスプライスバリアントがどの程度の割合でできているかがイメージできると思う。insertionsとdeletionsはその名の通り、挿入や欠失が起こっている(かも知れない)箇所を教えてくれる。

この遺伝子では3番目のエキソンが結構な割合でスキップされているっぽい。