kuroの覚え書き

96の個人的覚え書き

テスト運転

さて、早速
見せてもらおうか、富士通の中古サーバーの性能とやらを
(注:ガ◯ダ◯って実は殆どみたことないんだが)

大体270MBくらいのfastq.gzファイルを4つ

trimmomatic SE \
        -threads $cpu -phred33 -trimlog log.trimlog \
        ./fastq_files/"$samp"_"$exp"_L001_R1_001.fastq.gz \
        ./trimmed/"$samp"_"$exp"_L001_R1_001_trim_np.fastq.gz \
        ILLUMINACLIP:"$adapter":2:40:15 \
        LEADING:3 \
        TRAILING:3 \
        SLIDINGWINDOW:4:15 \
        MINLEN:36

こんな感じでトリミングし、bwaでアラビcDNAにマッピング。出来上がったBAMファイルをマージまでやってやる。

DDBJスパコンで8CPU指定で2:03:57かかったところを自前鯖16スレッド使用で0:30:57で終了!

なんと赤い彗星の3倍速いを軽く上回り、4倍以上速いじゃないの。
内訳を見ると

DDBJ→富士通自前鯖
Trimmomatic 1:12:22→0:16:26
bwa 0:06:17→0:07:51
samtools merge 0:06:59→0:06:40

んーJAVAが4.5倍くらい速く、その他はいい勝負か、ちょっと遅い。
たしかbwaもsamtoolsもシングルコアで処理をする部分があって、そこで地のクロックスピードの差が出ちゃってるのかね。

結論:javaは速い
ただし1ノードしか無いから並列処理で負ける。多サンプル並列処理しないデータ解析ならそこそこいい感じだと思う。