Suggested adapter sequences are provided for TruSeq2 (as used in GAII machines) and TruSeq3 (as used by HiSeq and MiSeq machines), for both single-end and paired-end mode.
とあるので、HiseqでシークエンスしたデータはTruSeq3のアダプター配列を含む可能性がある。
なのでTrimmomaticでトリミングする際には
#トリミングパラメータ #Phred quality score "qscore"未満の末端を除去 qscore=20 length=50 #CPUスレッド数 cpu=8 #-------------------------------------------------------------------- #データ格納ディレクトリがなければ作る mkdir -p ./${alias}/trimmed #Trimmomaticでトリミング java -Xms4g -Xmx4g -jar /usr/local/package/trimmomatic/0.36/trimmomatic-0.36.jar PE \ -threads ${cpu} -phred33 -trimlog ./${alias}/trimmed/${alias}.trimlog \ ./${file1} \ ./${file2} \ ./${alias}/trimmed/${file1%%.*}.paired.fastq.gz ./${alias}/trimmed/${file1%%.*}.unpaired.fastq.gz \ ./${alias}/trimmed/${file2%%.*}.paired.fastq.gz ./${alias}/trimmed/${file2%%.*}.unpaired.fastq.gz \ TRAILING:${qscore} \ MINLEN:${length} \ ILLUMINACLIP:TruSeq3-PE.fa:2:30:10
このような感じで行う。
2:30:10の意味は
- seedMismatches: specifies the maximum mismatch count which will still allow a full match to be performed
- palindromeClipThreshold: specifies how accurate the match between the two 'adapter ligated' reads must be for PE palindrome read alignment.
- simpleClipThreshold: specifies how accurate the match between any adapter etc. sequence must be against a read.
ということだそうだがこのデフォルトの数値で多分問題なさそうに思う。
ところで
adapters/TruSeq3-PE.fa
>PrefixPE/1 TACACTCTTTCCCTACACGACGCTCTTCCGATCT >PrefixPE/2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT
これがTrimmomaticに定義されているアダプター配列なんだが、これに間違いがあるという情報をもらったが、肝心の何が間違っているのかは聞いていない。そこでちょっと調べてみることにした。
Illuminaのデータシート
https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_documentation/experiment-design/illumina-adapter-sequences_1000000002694-01.pdf
で調べると
Oligonucleotide Sequences for Paired End DNA (Obsolete) PE Adapters 5' P-GATCGGAAGAGCGGTTCAGCAGGAATGCCGAG 5' ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE PCR Primer 1.0 5' AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT PE PCR Primer 2.0 5' CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT PE Read 1 Sequencing Primer 5' ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE Read 2 Sequencing Primer 5' CGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT
こうなっている
PrefixPE/1はPE Adapterの2つ目、もしくはPE Read 1 Sequencing Primerと基本的には同一(Tが1個多い)、PE PCR Primer 1.0の後半と一致するのだが、PrefixPE/2が謎配列。
一致する配列は
Oligonucleotide Sequences for the Multiplexing Sample Prep Oligo Only Kit
ここにあったが、それでいいのだろうか?
CGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT
これに相当する配列が必要なんでなかろうか。