kuroの覚え書き

96の個人的覚え書き

vcfにアノテーションを付ける2

昨日の作業でsnpにアノテーションを付けたわけだが、snpデータを複数のcontrolサンプルからのデータにしたほうがいいかもしれない、と思い、vcfをmergeしてアノテーションをつけなおすことにした。

複数サンプルのvcfをマージする方法はvcf-mergeを使うことにする。これもVCFToolsの一部分だな。
どうもこのツールはbgzipで圧縮されたファイルを対象に使うことがお作法のようなので、まずは圧縮してindexもつけておく。

$ bgzip sample1_filter.vcf
$ tabix -p vcf sample1_filter.vcf.gz

これをすべてのvcfファイルについて実施しておいて

$ vcf-merge sample1_filter.vcf.gz sample2_filter.vcf.gz sample3_filter.vcf.gz > samplest_snp.vcf.gz

こんな感じに合体完了。これによって出来上がるvcfファイルではsampleカラムが

GT:PL	1/1:249,30,0	1/1:238,30,0	1/1:255,39,0

という風に合体した分だけ列記されることになる。サンプル間で重複していればこのように複数並び、一部抜けているときは抜けているところに.が入る。