bowtie2-RSEM

RNAseq science

bowtie2によるローカルアライメントを使い、Poly-Tプライマーで作成したcDNAライブラリのRNA-seq解析を行う。まずはbowtie2をインストールする。 $ git clone https://github.com/BenLangmead/bowtie2.git $ cd bowtie2/ $ make $ sudo make install次にリフ…

2018-11-08

bwa index

Science RNAseq

毎度忘れるので覚え書き $ bwa index -p dir/index_name reference.fasta

2018-11-07

RNA-seq のde novo assembly

science RNAseq

通常RNA-seqしたらreferenceのfastaファイルを使ってmappingして発現解析なりするわけだが、referenceが完備されていない種のseqはどうするのか？近縁種のreferenceを使う、というのが簡単な手段なわけだが、今回mappingしてみるとmap rateが30％くらいしか…

2018-10-15

bedtoolsでread coverage

science RNAseq

bedtoolsでbamファイルのread coverageを求める方法は以前にも書いた。現在のbedtoolsのバージョン(2.27.1)ではbedファイルではなくbamファイルから直接read coverageを出すことが可能になっている$ bedtools coverage -a referense.bed -b sample.bam > sa…

2018-08-06

bwaでtranscript.faにマッピングしたあとcufflinksで解析するには

Science RNAseq

bwaを使ってRNAseqのリードをtranscript.faをリファレンスとしてマッピング、出来上がったBAMファイルからcufflinksでFPKMを得ようとしたが、gtfファイルが無いので、FPKMを計算すると、マッピング領域のゆらぎを反映して1つのtranscriptの中にいくつかのloc…

2018-06-08

塩基単位でのread depthを求める

Science RNAseq shell

以前BEDToolsのcoverageBedでdepthを各塩基ごとに求める方法を書いた。 $ coverageBed -a genome.bed -b sample.bed -dというのが基本書式だ。 genome.bedはreference.fasta.faiから $ awk '{print $1"\t0\t"$2}' reference.fasta.fai > genome.bedという感…

2018-06-04

bamファイルから抽出

Science RNAseq

mappingを行ったbamファイルから更に絞り込みをかけてやる。具体的にはSNV、INDELを持つreadを取り除いて100%matchしたreadだけにしたい。基本はsamtools viewでbamを開いて、grepやawkで整形をすることになるだろう。bamはバイナリなので中身が見れないが…

2018-04-19

fastaから配列を取り出す

Science RNAseq

$ samtools faidx genome.fasta chr1:15,000-50,000 こんな感じでfastaファイルから取り出したい配列を指定して取り出すことが可能。ある遺伝子を特定したとして、その上流プロモーターの配列をfastaから取り出したいなどの用途で使える。また $ samtools …

2018-03-19

DDBJスパコンのbcftoolsが古い！

Science RNAseq

パイプラインが走らないとウンウンと苦悩したのだが、なんとbcftoolsのバージョンが0.1.17だった。ローカルにインストールしているのが1.7なので、古すぎる。どうりでbcftools callがunknown commandと言われるわけだ。2時間返せ〜

2018-03-07

データの抽出作業でuniqをつかう

Science RNAseq

uniqは便利なコマンドなんだけど、OSXにプリインストールされているuniqはBSD版で機能がちょっと物足りない。他にもBSD版コマンドはちょくちょくGNU/Linux版と違うことがあるので、この際ということでGNU版をインストールしてしまうことにした。例によってHo…

2018-03-01

vcfからSQLに流し込む

Science RNAseq

さて、データにアノテーションを付けていく作業はvcfでやるのが効率的なのだけど、これを視覚的にわかりやすく提示するにはちょっとごちゃごちゃしすぎているので、これをtext抽出してSQLに入れてやることにする。INFOやsampleカラムには複数の情報が詰まっ…

2018-03-01

vcfにアノテーションを付ける２

Science RNAseq

昨日の作業でsnpにアノテーションを付けたわけだが、snpデータを複数のcontrolサンプルからのデータにしたほうがいいかもしれない、と思い、vcfをmergeしてアノテーションをつけなおすことにした。複数サンプルのvcfをマージする方法はvcf-mergeを使うことに…

2018-03-01

vcfにアノテーションを付ける

Science RNAseq

さて、無事samtools mpileup | bcftools callにてsnv callingが実施できたところで、これを解析するためのアノテーションをつけようと思う。今回は自前で用意したcontrolのサンプルで検出されたsnp/indelをバックグラウンドのSNVとして対象のvcfにマーキン…

2018-02-28

RNAseqからSNV解析

Science RNAseq

さて、ちょっと変則的にRNAseqデータからsnpを検出すべく、あれこれやっているわけだが、普通にゲノムデータでSNV解析するならBWAでマッピングしてsamtools mpileupと行くのだろうが、ここをHisat2でマッピングしてmpileupと持っていこうと思う。で、samba…

2018-02-21

データベースアプリ完成

Science RNAseq

いやあ、一つテンプレートとなるアプリを作っておけば、内容が違っていてもそれなりのデータベースアプリがすぐに作成できてしまうな。前のやつには結局5ヶ月ほどかけたが、今回のはほぼ2週間で出来上がった。細部少々荒いし、マルチユーザーを意識せず、ロ…

2018-02-16

cummeRbundによるクラスター解析

Science RNAseq

以前に一通り試したクラスタリングを実際にやってみた。忘れていたことも含めて覚書 > library("cummeRbund") #ライブラリ読み込み > cuff <- readCufflinks("cuffdiff_resultsのディレクトリ") #cuffdiffの出力ディレクトリからデータを読み込み） > setwd…

2018-02-14

StringTieを入れる

Science RNAseq

TopHat→cufflinks→cuffdiff→cummeRbundというのがRNAseq解析の王道であるが、最近はHISAT2→StringTie→Ballgownというのが流行りはじめているらしい。これはやっとかないと。ということでまずは環境構築から。 StringTieのインストールはbrewでできるらしいの…

2018-02-14

cuffmergeがエラー

Science RNAseq

Error (GFaSeqGet): end coordinate (515) cannot be larger than sequence length 504 Error (GFaSeqGet): end coordinate (515) cannot be larger than sequence length 504 Error (GFaSeqGet): subsequence cannot be larger than 506 Error getting subs…

2018-02-08

Nbのリファレンス

Science RNAseq

$ head Niben.genome.v1.0.1.contigs.fasta >Niben101Scf00001Ctg001 AAAAAAAGGATTAAGTGTCATAAATGTGGTAAATTTGGTCATTATGCAAGTGAGTGTAAA ACTCAGGAAAATATTAAGAGTCTAGATTTAGATGATAAACTTAAGGATTCTTTGTGTAAG ATTCTACTAAATTCTGATTATAGTTCTGATGTATCTGATTCCTCTTCTACTG…

2018-02-07

リファレンスとアノテーションファイルの中身を理解する。

Science RNAseq

とりあえずちゃんとできているArabidopsisで使っているファイルを見てみるとマッピングに使うリファレンス：Arabidopsis_thaliana.TAIR10.dna.toplevel.fa （IGVのreferenceにもそのまま使う） $ head Arabidopsis_thaliana.TAIR10.dna.toplevel.fa >1 dna:…