kuroの覚え書き

96の個人的覚え書き

Trimmomaticのilluminaclipについて

Suggested adapter sequences are provided for TruSeq2 (as used in GAII machines) and TruSeq3 (as used by HiSeq and MiSeq machines), for both single-end and paired-end mode.
とあるので、HiseqでシークエンスしたデータはTruSeq3のアダプター配列を含む可能性がある。
なのでTrimmomaticでトリミングする際には

#トリミングパラメータ
#Phred quality score "qscore"未満の末端を除去
qscore=20
length=50

#CPUスレッド数
cpu=8
#--------------------------------------------------------------------

#データ格納ディレクトリがなければ作る
mkdir -p ./${alias}/trimmed

#Trimmomaticでトリミング
java -Xms4g -Xmx4g -jar /usr/local/package/trimmomatic/0.36/trimmomatic-0.36.jar PE \
        -threads ${cpu} -phred33 -trimlog ./${alias}/trimmed/${alias}.trimlog \
        ./${file1} \
        ./${file2} \
        ./${alias}/trimmed/${file1%%.*}.paired.fastq.gz ./${alias}/trimmed/${file1%%.*}.unpaired.fastq.gz \
        ./${alias}/trimmed/${file2%%.*}.paired.fastq.gz ./${alias}/trimmed/${file2%%.*}.unpaired.fastq.gz \
        TRAILING:${qscore} \
        MINLEN:${length} \
        ILLUMINACLIP:TruSeq3-PE.fa:2:30:10

このような感じで行う。
2:30:10の意味は

  • seedMismatches: specifies the maximum mismatch count which will still allow a full match to be performed
  • palindromeClipThreshold: specifies how accurate the match between the two 'adapter ligated' reads must be for PE palindrome read alignment.
  • simpleClipThreshold: specifies how accurate the match between any adapter etc. sequence must be against a read.

ということだそうだがこのデフォルトの数値で多分問題なさそうに思う。

ところで
adapters/TruSeq3-PE.fa

>PrefixPE/1
TACACTCTTTCCCTACACGACGCTCTTCCGATCT
>PrefixPE/2
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT

これがTrimmomaticに定義されているアダプター配列なんだが、これに間違いがあるという情報をもらったが、肝心の何が間違っているのかは聞いていない。そこでちょっと調べてみることにした。

Illuminaのデータシート
https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_documentation/experiment-design/illumina-adapter-sequences_1000000002694-01.pdf
で調べると

Oligonucleotide Sequences for Paired End DNA
(Obsolete)
PE Adapters
5' P-GATCGGAAGAGCGGTTCAGCAGGAATGCCGAG
5' ACACTCTTTCCCTACACGACGCTCTTCCGATCT
PE PCR Primer 1.0
5' AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT
PE PCR Primer 2.0
5' CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT
PE Read 1 Sequencing Primer
5' ACACTCTTTCCCTACACGACGCTCTTCCGATCT
PE Read 2 Sequencing Primer
5' CGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT

こうなっている

PrefixPE/1はPE Adapterの2つ目、もしくはPE Read 1 Sequencing Primerと基本的には同一(Tが1個多い)、PE PCR Primer 1.0の後半と一致するのだが、PrefixPE/2が謎配列。

一致する配列は
Oligonucleotide Sequences for the Multiplexing Sample Prep Oligo Only Kit
ここにあったが、それでいいのだろうか?

CGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT

これに相当する配列が必要なんでなかろうか。