kuroの覚え書き

96の個人的覚え書き

vcfファイルをいろいろなところからダウンロード

病気サンプルの原因遺伝子を特定するためのふるいとして、既知のSNPを除く、もしくは調べるという作業はまず必要となってくる。
そのために既知の病気の原因になっていると思われるSNPや、逆に普通の人が何%かの割合で持っていて、特に病気の原因とは考えられないSNPを記したファイルを参照する必要がある。
IGV.jsではクラウドに置かれたvcfを参照できるようになっているが、どんどん更新されていくSNPのデータを反映しきれていないので、自前でファイルをホストして参照する必要が出てくる。
そのためのファイルをあちこちから集めてくる必要があるのだが、これがなかなかに厄介だ。

最新版は比較的すぐに配布サイトが見つかるが、ちょっと前のバージョンも持っておきたいとなると、なかなかそういうファイルを置いているサイトは見つからない。なので見つけ次第リストアップしておく。

https://www.ncbi.nlm.nih.gov/projects/SNP/
https://www.ncbi.nlm.nih.gov/variation/docs/human_variation_vcf/
https://software.broadinstitute.org/gatk/download/bundle
https://www.ensembl.org/info/data/ftp/index.html