kuroの覚え書き

96の個人的覚え書き

RNAseqパイプラインをLinux(CentOS7)に移植

さて、手元のMacで一通りパイプラインが流れることがわかったので、Linuxクラスタサーバで同じように動くように移植する。

Linuxにはすでにsamtoolsは入っているようだがtophat,bowtie,cufflinks,FastQC,fastx-toolsが入ってないようだ。
一般ユーザ権限しかないので、これらのlinux用バイナリをホームディレクトリ以下に用意して、パスを通しておくことにする。
ディレクトリは

$HOME/local/bin/bowtie2-2.3.2
$HOME/local/bin/cufflinks-2.2.1.Linux_x86_64
$HOME/local/bin/FastQC
$HOME/local/bin/fastx
$HOME/local/bin/tophat-2.1.1.Linux_x86_64

こんな感じで
先に作ったスクリプト
$HOME/bin
に置くことにして~/.bashrcにこれらのPATHをexportしておく。

fastx_toolkit
http://hannonlab.cshl.edu/fastx_toolkit/fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
FastQC
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.4.zip
bowtie2
https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.3.2/bowtie2-2.3.2-linux-x86_64.zip/download
tophat2
http://ccb.jhu.edu/software/tophat/downloads/tophat-2.1.1.Linux_x86_64.tar.gz
cufflinks
http://cole-trapnell-lab.github.io/cufflinks/assets/downloads/cufflinks-2.2.1.Linux_x86_64.tar.gz


パイプラインスクリプト
fastqc_trim_qc2.sh
tophat_cufflinks2.sh
cuffmerge_diff.sh
3つのスクリプトに順次かけたが、ちゃんと機能した模様
なおスクリプト名に.shをつけておいた。

ただし注意する点が1点だけ
アノテーションファイルとリファレンスファイルをフルパスで指定するようにしているが、linuxGUI環境でターミナルウィンドウにファイルのD&Dでパスをコピーしようとすると'***'とシングルクオートで挟まれてしまう。これがどうも読み取ってくれないようでエラーが出てとまるので、フルパスを事前にテキストにメモしておいてコピペで指定してやる。
スクリプト自体にデータを引数で渡すときはD&Dで問題ないようなんだけどな。

いっそ
gtf=$(find * | grep genes.gtf)
とかで探させて代入したほうが手っ取り早いか。
ディレクトリ構成要調整だな。

あとtophatの並列処理が機能してないかもしれない。-p 4 としていても%CPUが100%上限でそれ以上行かない。
cuffdiffは380%とか出てるのに。

このあとのRでの解析はローカルのMacでやったほうがいい