昨日の作業でsnpにアノテーションを付けたわけだが、snpデータを複数のcontrolサンプルからのデータにしたほうがいいかもしれない、と思い、vcfをmergeしてアノテーションをつけなおすことにした。
複数サンプルのvcfをマージする方法はvcf-mergeを使うことにする。これもVCFToolsの一部分だな。
どうもこのツールはbgzipで圧縮されたファイルを対象に使うことがお作法のようなので、まずは圧縮してindexもつけておく。
$ bgzip sample1_filter.vcf $ tabix -p vcf sample1_filter.vcf.gz
これをすべてのvcfファイルについて実施しておいて
$ vcf-merge sample1_filter.vcf.gz sample2_filter.vcf.gz sample3_filter.vcf.gz > samplest_snp.vcf.gz
こんな感じに合体完了。これによって出来上がるvcfファイルではsampleカラムが
GT:PL 1/1:249,30,0 1/1:238,30,0 1/1:255,39,0
という風に合体した分だけ列記されることになる。サンプル間で重複していればこのように複数並び、一部抜けているときは抜けているところに.が入る。