kuroの覚え書き

96の個人的覚え書き

science

RNAseq ペアエンドのマッピング

2つのfastqファイルを投げるため、引数で読み込むのは面倒くさいのでスクリプト途中で読み込ませる方向で #!/bin/sh #アノテーション情報を含むgtfファイル read -p "annotation infomation (full path) = " gtf #リファレンスファイルの指定 read -p "refer…

RNAseqデータの解析2

tophatでマッピングされたリードから、遺伝子発現量を計算させるステップがcufflinksによる計算ステップこれによって生成されるファイルは genes.fpkm_tracking isoforms.fpkm_tracking skipped.gtf transcripts.gtfの4つgenes.fpkm_trackingは遺伝子単位の…

RNAseqデータの解析

パイプラインで seqリードをゲノムにマッピング(tophat) 各サンプルの遺伝子発現量FPKMを計算(cufflinks) サンプル間のFPKMを比較(cuffdiff) とデータ処理をしてきたが、結局肝心なのはここで吐き出されたデータをいかに解釈し、意味を見出すかということ。t…

RNAseqパイプラインをLinux(CentOS7)に移植

さて、手元のMacで一通りパイプラインが流れることがわかったので、Linuxなクラスタサーバで同じように動くように移植する。Linuxにはすでにsamtoolsは入っているようだがtophat,bowtie,cufflinks,FastQC,fastx-toolsが入ってないようだ。 一般ユーザ権限し…

ChIP-seq

環境構築の覚え基本的には次世代シーケンサーDRY解析教本に従うが、違うとこ、気づいたことだけ書いておく。 Javaのバージョンチェック #El Capitanのデフォルトは1.6→1.7以上にバージョンアップ(今回は現時点の最新バージョン1.8.0_131-b11) 以前GATKが1.…

RNAseqパイプライン4 cummeRbund

Rでゴニョゴニョ >library("cummeRbund") >setwd("~/") #作業ディレクトリを適当に指定 >cuff <- readCufflinks("hogehoge/tophat_results/cuffdiff_result") >my.genes <- genes(cuff) #遺伝子発現量情報を取り出し >ddr <- csDendro(my.genes) #取り出した…

R のキホン

Rのキホンのキホン <- 代入 (シェルで言うところの = と同等) > a <- "b" #文字は""で挟む データ型は"character" > a [1] "b" #文字は""で挟まれて返る > c <- 5 #数字はそのまま データ型は"numeric" > c [1] 5 #数字はそのまま返る > d <- TRUE #論理値は…

RNAseqパイプライン3

cufflinksの結果をcuffmergeで統合し、cuffdiffでサンプル間のFPKMを比較するところまで自動化 cuffmerge_diffスクリプト #!/bin/sh #tophat_resultsディレクトリを引数として実行 # cd "$@" ls */*/transcripts.gtf > transcripts.gtf.txt #アノテーション…

RNAseqパイプライン2.1

フルパス付きとか拡張子とか気にせずにすべてドラッグ&ドロップでできるようにスクリプトをブラッシュアップ tophat_cufflinks2 #!/bin/sh #アノテーション情報を含むgtfファイル read -p "annotation infomation (full path) = " gtf #リファレンスファイ…

RNAseqパイプライン2

続いてtophatとcufflinksにかける #!/bin/sh #アノテーション情報を含むgtfファイル read -p "annotation infomation = " gtf #リファレンスファイルの指定(拡張子なし) read -p "reference file (without suffix) = " ref_prefix echo "アノテーション情…

RNA-seqのデータ処理自動化

自動化される手順 FastQCでクオリティーチェック→トリミングのためのパラメータを決める(ただし今回は機械的に連続処理してしまう) fastq_quality_trimmerでトリミング #パラメータは切り取るクオリティスコアとフラグメント長 トリミング後のクオリティ…

不等間隔なデータにおける区間移動平均

ある推移データをプロットした時に、おおまかな推移の傾向を掴みたいとき区間移動平均によるカーブフィットが用いられる場合がある。例えば株価の推移データから底値を予測したりといった時など。しかし、例えばx軸に時系列をおいたプロットで、サンプリング…

イネ マップベースクローニング覚書

イネのゲノムサイズ 389Mb イネの総遺伝距離 1520cM イネの総遺伝子数 32000 257 kb / cM 12 kb / gene 21 gene / cM遺伝距離を2倍した数値が組換え個体の出現頻度に相当する。 10%→5 cM→1.3 Mbくらいの計算になる。

NGSデータ解析

結局のところNGSが出力したデータをきちんとマッピングから行わないとSNP検出どころではないという結論にいたり short readのマッピングからまじめに考えることになった。IonProtonの結果をまずはFASTQ形式で出力する。このファイルはシークエンサーが読んだ…

次世代シークエンサーによるSNPの検出

次世代シークエンサー(NGS)で全ゲノムをリシークエンスし、リファレンスゲノムと比較してSNPを検出する。 NGSから吐き出されたデータから.bamという拡張子のついたバイナリファイルと、そこからvariant callerで解析済みのexcelファイルを手渡されたが、い…

MosaicJ

顕微鏡で写真を取るとき、広い範囲を撮影したければ、低倍率のレンズを使えばよいとは限らない。 低倍率レンズはフォーカスの深度が深いので、余計な部分にもピントが合うというか全体的にぼやけたようにしか写らない場合が多い。そんな時は高倍率で撮影した…

2色法アレイデータの解析

Sample AとSample Bでの発現比較(BよりAで発現の高い遺伝子の抽出) それぞれ3反復のRNAを抽出し、cy3,cy5で標識。A-cy3,B-cy5のスライドとA-cy5,B-cy3のスライドを作成(dye-swap実験) 各データの数値は生データとする。 解析手順1 A/Bの値を求める(実…

マイクロアレイ解析

1色法 最近の主流。同じ遺伝子セットの複数のレプリカスライドを用いて、各種条件での遺伝子発現プロファイルをそれぞれハイブリダイゼーションによって検出する。 2色法 以前は良く行われていた方法だが、最近はあまりされないようだ。2つの異なる条件や…

系統樹作成の手引き

イネの遺伝子の分子系統樹を作成する。 Unrooted phylogenetic tree with branch length (N-J)で、かつ、スケールバー付きの図の作成を目指す。1、イネ遺伝子の配列情報はRAP-DB(http://rapdb.dna.affrc.go.jp/)から取得。2、アミノ酸配列への変換をして…

R覚え

> library(gdata) #excelのファイルを読み込むのに必要なライブラリ > df<-read.xls("/Users/kkuro/Desktop/df.xls") #デスクトップのdf.xlsからデータをデータフレーム(df)に読み込み > boxplot(score~lines,df, xlab="lines", ylab="score", cex.lab=1.5, …

統計の覚え書き(多群比較 Steel法)

統計の書籍によると対照群と複数の群間との比較を行う場合で、スコアリングなど尺度水準が順序以下の場合はSteelの方法をとるとよいらしい。 こうして求めた検定統計量t1iとDunnettの表の基準値を比較することで有意かどうか判定する・・・らしい。 この式の…

電気伝導率計を作る

現在、塩水に強いイネの研究を行っている。塩水にイネをつけて死なない品種(もしくは遺伝子組換え体)を探しているのだが、この塩水の濃度を一定に保つのがなかなか難しい。完全密閉状態の瓶の中で栽培して評価を試みてはいるのだが、自然条件とはかなりか…

GATEWAYを用いたコンストラクション

アグロバクテリウムを利用した形質転換体作成用 5’primerにCACCを付加して3’校正機能のある酵素にてPCR Takara Prime STAR HS使用の場合 反応例 for 50 ul for 20 ul 5x Prime STAR buffer (Mg2+ plus) 10 ul 4 dNTP 4 ul 1.6 Primer 10-15 pmol each 0.4(10…

Agrobacterium tumefaciens

EHA101 Hood E. E. et al. J. Bacteriol. 168 1291 (1986) A281のTi plasmid pTiBo542由来のpEHA101を持つstrain Kanamycin耐性をTi plasmidに持つ。 EHA105 Hood E. E. et al.Transgenic Res. 2 208 (1993) These plasmids are derived from three differen…

メチル化DNA検定のレシピ

以下の試薬を調製。各試薬は実験の都度調製し、使い切る。 2 M Na2S2O5の調製 bisulfite (SIGMA) 570 mg DW ( )ml (total 1.5 ml) 注1;エッペンドルフチューブの目盛であわせる程度でよい。 注2;bisulfiteは水に溶けてNa2S2O5になる。粉末状態ではmetabi…

エクセルでStudent-T検定

ある処理をしたときに処理しない場合と比較してある数値に有為な差があるかどうかを検定する場合Student-T testを行う事が多い。これをエクセルで行う方法について。 各群12個体を栽培しある数値をカウントし記録した。 「ツール」から「分析ツール...」を選…

枇杷

私の産まれた家には枇杷と柘榴の木がありました。 特に枇杷は大好きで毎年実がなるのを楽しみにしていたものです。 大学構内にも枇杷の木があります。ふと見ると花が咲いていました。 枇杷の花ってこんな時期に咲くのですね。初めて認識しました。

金木犀

開花時期がかなり厳密な植物シリーズ 金木犀です。モクセイ目モクセイ科モクセイ属キンモクセイ Osmanthus fragrans var. aurantiacusこの花が咲くと香りですぐにわかりますね。花自体は地味なんであまり目立ちませんけど。これもやっぱり温度かなあ・・・だ…

彼岸花2

彼岸花の開花時期は非常に正確に秋分の日前後だと前の日記で書いた。猛暑だろうと冷夏だろうと、と・・・ ところが今年の猛暑はこのタイマーも狂わせたらしい。かなり遅いんだと。 ってやっぱり温度なんかなあ。何か別の要因との複合だとは思うけどな。写真…

彼岸花

彼岸花 単子葉植物綱ユリ亜綱ユリ目ヒガンバナ科ヒガンバナ属の多年草。学名 Lycoris radiata 日本ではあまり好まれる花でないし、積極的に栽培もされていないが、欧米ではそれなりに観賞用として栽培されているらしい。日本に自生している彼岸花は中国大陸…