さて、早速
見せてもらおうか、富士通の中古サーバーの性能とやらを
(注:ガ◯ダ◯って実は殆どみたことないんだが)
大体270MBくらいのfastq.gzファイルを4つ
trimmomatic SE \ -threads $cpu -phred33 -trimlog log.trimlog \ ./fastq_files/"$samp"_"$exp"_L001_R1_001.fastq.gz \ ./trimmed/"$samp"_"$exp"_L001_R1_001_trim_np.fastq.gz \ ILLUMINACLIP:"$adapter":2:40:15 \ LEADING:3 \ TRAILING:3 \ SLIDINGWINDOW:4:15 \ MINLEN:36
こんな感じでトリミングし、bwaでアラビcDNAにマッピング。出来上がったBAMファイルをマージまでやってやる。
DDBJスパコンで8CPU指定で2:03:57かかったところを自前鯖16スレッド使用で0:30:57で終了!
なんと赤い彗星の3倍速いを軽く上回り、4倍以上速いじゃないの。
内訳を見ると
DDBJ→富士通自前鯖
Trimmomatic 1:12:22→0:16:26
bwa 0:06:17→0:07:51
samtools merge 0:06:59→0:06:40
んーJAVAが4.5倍くらい速く、その他はいい勝負か、ちょっと遅い。
たしかbwaもsamtoolsもシングルコアで処理をする部分があって、そこで地のクロックスピードの差が出ちゃってるのかね。
結論:javaは速い
ただし1ノードしか無いから並列処理で負ける。多サンプル並列処理しないデータ解析ならそこそこいい感じだと思う。