kuroの覚え書き

96の個人的覚え書き

science

ディープラーニングちょっとずつ

なかなか先に進まないが、とりあえずちょとでもいじってみるか。 jupyter notebookの使い方を確かめながらmnistのデータを使った練習をやってみる。いろいろわからないまま言われるままに入力し、その出力をまずは眺めてみる。

zeissのlsmファイルから画像を取り出して重ね合わせる

zeissの共焦点レーザー顕微鏡で撮影したマルチチャンネルな画像ファイルの各チャンネルをバラバラにしたファイルを出力し、それらをstackではなく1枚の画像にmergeしたものを作成したい。使うのはImageJ。 とりあえずImageメニューの中のツールでできること…

VNCとpyenv

deep learning machineの構成をあれこれいじっているうちに動作がおかしくなってきたので、一旦リセットしてOSインストールからやり直すことにした。ここまでの手順ではCentOS7をデフォルトの最小構成でインストール ネットワーク設定 一般ユーザー追加 gnom…

primer設計でblast

適当に選んだ配列がoff targetを増幅しないか調べるためにblastnで検索するとき、普通にデフォルトでやっても何も引っかからない。 そんなときは $ blastn -db ath -query ~/Desktop/act1_f.txt -word_size 7のように-word_sizeオプションを付けると良い。

multi FASTA (DNA)からmulti FASTA (Amino Acid)を機械的に作成する(その2)

ちょっと調べたらいけそうな気がしてきた。Biopythonを使うといろいろ簡単にできる模様。まずはmultifastaを開いて配列を順番に読み込む import sys from Bio import SeqIO fasta_file = sys.argv[1] for record in SeqIO.parse(fasta_file, 'fasta'): ids =…

pythonでABIのシークエンスデータをゴニョゴニョする

シークエンスファイルとかfastaファイルとかMacのApEとかで開いてどうにかするのがだんだん億劫になってきた。 pythonでどうにかあんなことやこんなことができないかと調査中abifpy · PyPIまあこんなモジュールでも使えばどうにかなりそうな感じ。 引き続き…

multi FASTA (DNA)からmulti FASTA (Amino Acid)を機械的に作成する

やりたいことは 複数の遺伝子のcDNA情報をまとめて記載したFASTA形式のファイルがあったとして、それをアミノ酸に翻訳し、clustalw等でアライメントを作成する。 cDNA情報はUTRを含んでいたりいなかったりまちまちである。 フレームを3フレームともチェック…

富士通PRIMERGY RX300S7で深層学習の学習環境を構築してみる(2)

続き次にanacondaを入れる 最初普通にanacondaのサイトからインストーラをダウンロードしてきて $ bash Anaconda3-5.3.1-Linux-x86_64.shとインストールしてtensorflowをpipで入れて・・・とやってみたのだが、glibcのバージョンがCentOS7では2.17、tensorfl…

富士通PRIMERGY RX300S7で深層学習の学習環境を構築してみる

データ解析をする上で無視できない深層学習(deep learning)を使えるように勉強中なのだが、手元に実機があったほうがいろいろと試せて良いだろう、ということでサーバの1ノードを深層学習用GPUマシンにすることにした。 当初RX200S7 (XEON E5-2620 x2)の1U…

PCAやMDS plotをpythonで行う

これまでPCAやMDSをやりたいときはRを使っていた。しかしRはどうも肌に合わない。すぐ忘れてしまう。 ということでここはやはりPythonですね、ってことでどうやるのか調べてみた。【python】pca、mds、nmds、tsneとmatplotlibでデータの可視化をしてみる - …

タバコの賢い利用方法

youtu.be Rethinking Tobacco 健康を害すると最近何かと邪険にされるタバコ。 しかしタバコにはこんなポテンシャルがあるのです。

multi fastaファイルを1遺伝子ごとのファイルに分割するには

multi fastaファイルを1個ずつのfastaに分割したい。 まずはfastaのseq部分の改行をなくす $ awk -v ORS= '/^>/ { $0 = (NR==1 ? "" : RS) $0 RS } END { printf RS }1' fasta.txt > fasta_awk.txt次にfastaを2行ごとに分割。多数のファイルが同じ階層にで…

CRISPRで編集がかかったゲノムシークエンスを読むプログラム

CRISPRで編集がかかったと思われるT0サンプルのゲノムをシークエンスすると、変異は2本の染色体にランダムに起こるため、基本的にはヘテロとなってシークエンスデータの波形が2つ分重なって検出されることになるのは先日に書いたとおり。 これをパズルのよ…

CRISPRでknockoutを作ったときにgenotypingをsanger sequenceすることで行う

CRISPRでINDELを誘発したゲノム配列が、実際どういうふうに編集されたかを確認するのにわざわざNGSをつかうのはちょっと大げさなので普通のsangerシークエンサーでシークエンスを読んで確認をしたい。しかし、変異は普通ヘテロに入るので、変異が入った部分…

塩基配列(文字列)からコンセンサス配列を抽出するプログラム

要するに文章からよく出てくる単語をピックアップしてカウントし、リストを作れれば良い。 辞書型を使って単語を数えるプログラムはpythonのプログラム例としてよく上がっているが、単語の区切りが明確でない遺伝子配列のような文字列から指定文字数の連続し…

bwa index

毎度忘れるので覚え書き $ bwa index -p dir/index_name reference.fasta

RNA-seq のde novo assembly

通常RNA-seqしたらreferenceのfastaファイルを使ってmappingして発現解析なりするわけだが、referenceが完備されていない種のseqはどうするのか? 近縁種のreferenceを使う、というのが簡単な手段なわけだが、今回mappingしてみるとmap rateが30%くらいしか…

bedtoolsでread coverage

bedtoolsでbamファイルのread coverageを求める方法は以前にも書いた。 現在のbedtoolsのバージョン(2.27.1)ではbedファイルではなくbamファイルから直接read coverageを出すことが可能になっている$ bedtools coverage -a referense.bed -b sample.bam > sa…

reference-guided de novo assembly

ゲノムデータをreferenceにRNA-seqデータをマッピングしているのだが、ゲノムデータで使われているものとはことなる品種のRNA-seqデータをマッピングしてみたところ、かなりたくさんのSNPが含まれていることがわかった。 普通の発現解析なら、SNPがあろうが…

3世代のサーバの能力を検証してみた

ベンチマークソフトを使ってもいいけど、実際に仕事に使うスクリプトを処理するのにかかる時間を計測したほうが意味があるだろう。 ということで、試しにBAMファイルをcufflinksにかけて遺伝子発現量を算出させてみた。 処理してみたBAMファイルは 1, 4.4GB…

DNAのmultiple-FASTAファイルを翻訳してアミノ酸の配列を得る

個々のDNA配列からアミノ酸配列に変換するツールは数あれど、multi-FASTAにまとまっているDNA配列、それもATGーstopじゃなく5UTR-3UTRなどのcDNA配列から、読み枠をすべてサーチして最長のORFだけをリストにしてくれるツールはなかなかない。http://shigen.n…

bwaでtranscript.faにマッピングしたあとcufflinksで解析するには

bwaを使ってRNAseqのリードをtranscript.faをリファレンスとしてマッピング、出来上がったBAMファイルからcufflinksでFPKMを得ようとしたが、gtfファイルが無いので、FPKMを計算すると、マッピング領域のゆらぎを反映して1つのtranscriptの中にいくつかのloc…

塩基単位でのread depthを求める

以前BEDToolsのcoverageBedでdepthを各塩基ごとに求める方法を書いた。 $ coverageBed -a genome.bed -b sample.bed -dというのが基本書式だ。 genome.bedはreference.fasta.faiから $ awk '{print $1"\t0\t"$2}' reference.fasta.fai > genome.bedという感…

bamファイルから抽出

mappingを行ったbamファイルから更に絞り込みをかけてやる。 具体的にはSNV、INDELを持つreadを取り除いて100%matchしたreadだけにしたい。基本はsamtools viewでbamを開いて、grepやawkで整形をすることになるだろう。bamはバイナリなので中身が見れないが…

テスト運転

さて、早速 見せてもらおうか、富士通の中古サーバーの性能とやらを (注:ガ◯ダ◯って実は殆どみたことないんだが)大体270MBくらいのfastq.gzファイルを4つ trimmomatic SE \ -threads $cpu -phred33 -trimlog log.trimlog \ ./fastq_files/"$samp"_"$exp"…

CentOS7にNGS関連のソフトウェアをインストール

まずとにかくyumでwgetとnanoだけは入れておく。そのうえでlinuxbrewを入れてしまえば、ほぼ問題なく殆どの環境が構築できてしまった。 http://linuxbrew.sh Linuxbrewのインストール方法は上のサイトのままでOK幾つかのソフトは $ brew tap brewsci/science…

fastaから配列を取り出す

$ samtools faidx genome.fasta chr1:15,000-50,000 こんな感じでfastaファイルから取り出したい配列を指定して取り出すことが可能。 ある遺伝子を特定したとして、その上流プロモーターの配列をfastaから取り出したいなどの用途で使える。 また $ samtools …

SQLとBLASTの連携

まず、SQLで抽出された遺伝子のIDを元にtranscriptのFASTAファイルから配列を抽出。 抽出した配列をfasta形式で一時保存し、Arabidopsisの遺伝子データベースに対してtblastxでサーチ。 結果をwebに表示。こんな流れを構築した。 https://pypi.python.org/py…

BLASTでトップヒットだけを抽出する

アノテーションデータベースが作りたいので、A種のgene aについてB種の遺伝子をBLASTで調べて、一番上に来るものを1:1対応させたい。http://bioinfo-dojo.net/2016/03/25/blast_besthit_outfmt7/ ここにあるように、blastの結果から1行目だけをawkで取り出す…

BLASTを自前で

バイオインフォマティックスをやってるならBLASTくらい自分で構築しないとな、 というわけでもないけど、やはりアノテーションデータベースを構築したいので、blastをMacに入れることにする。 さらっとぐぐってみたらHomebrewで行けそうなので $ brew instal…