kuroの覚え書き

96の個人的覚え書き

Clusteringしたデータを折れ線グラフとして一気に作成

%matplotlib inline import matplotlib.pyplot as plt import pandas as pd import matplotlib as mpl color_codes = {1:'#E60012', 2:'#F39800', 3:'#FFF100', 4:'#8FC31F', 5:'#009944', 6:'#009E96', 7:'#00A0E9', 8:'#0068B7', 9:'#1D2088', 10:'#920783…

Fujitsu Primergy TX1310M3にUbuntuをインストールしたい

ファイルサーバ兼深層学習プラットフォームとして使用するつもりでTX1310M3を入手してみた。 これまで富士通のサーバにはCentOS7をインストールして使ってきたのだが、深層学習プラットフォームとしてはRedhat系のCentOSよりDebian系のUbuntuの方が構築しや…

deeplearning テキストの2値化

:~$ python3 Python 3.6.9 (default, Nov 7 2019, 10:44:02) [GCC 8.3.0] on linux Type "help", "copyright", "credits" or "license" for more information. >>> from keras.datasets import imdb /usr/lib/python3/dist-packages/h5py/__init__.py:36: Fu…

clusteringだけmatplotlibで

ヒートマップの描画ははじめてseabornを使ってみたのだが、噂通り細かい調節は難しい。 今回系統樹の枝の長さを入れたかったのだが、結局方法にたどり着けなかったので、系統樹の部分だけmatplotlibで描いてみる。 枝が自動で色がついていたり、まだ改良の余…

ClusteringとHeatmap

RNAseqのデータ解析で、とりあえずやっておくことといえば、遺伝子発現プロファイルをクラスタリングしてヒートマップを描くということだろうか。 R使いならRでやるんだろうけど、Rはあまり良く知らないため、これまで MeVを使ってきた。最近のバージョンで…

統計的検定をpythonで行う〜Tukey編

Student's T testはexcelでも特に難しくない。標準関数でできるからね。それに比べて多重検定はアドインとか手計算とか結構面倒なので、これをwebアプリでチョチョイとできるとすごくいい。というわけでまずはexcelで実施した場合。 https://www.amazon.co.j…

統計的検定をpythonで行う〜Student's T test編

統計計算をexcel以外でやる。よく使われるのはRなんだがRはいまいち知らないので、pythonでやれないものかと。まあやれるでしょう。いつものようによく使う機能はまとめてWEBアプリにしてやろう。 このグラフデータについてexcelとpythonの比較をしてみる。 …

PCA plotをpythonで行うWEBアプリ(ver2)

さて、さっきのアプリからPCAだけを抜き出してちょっと改変してみる。主成分分析を Python で理解する - Qiita こちらのページを参考にさせてもらう。ポイントはnumpyで数値データを抜き出していた点をpandasに換えることでテキストも含んだcsvを入り口にで…

PCAやMDS plotをpythonで行うWEBアプリ(ver1)

以前にもpythonでPCAを実施するスクリプトを書いてみていたが、webアプリ版を作ってみた。まずは低機能にとりあえず数値だけのcsvファイルを投げるとプロットを描かせるだけのものからPCA by Pythonこんな感じ。Flaskのviewsはこんなふうで。 /flask_root_fo…

firewall-cmdのお作法

これまたしょっちゅう・・・activeなゾーンの表示 # firewall-cmd --list-all public (active) target: default icmp-block-inversion: no interfaces: eth0 sources: services: dhcpv6-client ssh ports: protocols: masquerade: no forward-ports: source-…

nmcliのお作法

すぐに忘れてしょっちゅう調べている気がするので、覚書。基本のネットワーク設定 # nmcli c m eth0 ipv4.method manual ipv4.addresses 192.168.1.101/24 ipv4.gateway 192.168.1.1 ipv4.dns 8.8.8.8 connection.autoconnect yesこの例ではDHCPをやめて手動…

CentOS7に仮想環境(続き)

もともとKVMホストeth1にあてがっていた192.168.0.11をブリッジにあてがう。 # nmcli c a type bridge ifname br0 # nmcli c m bridge-br0 bridge.stp no # nmcli c m bridge-br0 ipv4.method manual ipv4.address "192.168.0.11/24" ipv4.gateway "192.168.…

CentOS7に仮想環境を構築

だいぶ仕事がまとまってきて、新しく学生なども入ってくるようになった。こうなるとそのうちインフォマティクスをやりたいという学生もきっと入ってくるだろう。最初のうちはとりあえず自分のPCでどうにかしてもらえばいいが、そのうちきっとサーバを触るこ…

RX200S6のオンボードSATA software RAIDを使わないでCentOS7をインストール

諸般の事情でRX200S6のRAIDカードを他に回したところ、enbedded MegaRAIDがCentOS7ではドライバがなくて使えないということになり、まあ引退して部品取りでもいいかと思っていたのだけれど、せっかくあるハードウェアを眠らせておくのももったいないというこ…

SQLiteのINSERTをSQLAlchemyで書く

かなり久しぶりにSQLiteのデータを追加しようと以前に作成したスクリプトを持ち出してきて実行してみたところ sqlalchemy.exc.ArgumentError: Textual SQL expression 'rnaseq_temp' should be explicitly declared as text('rnaseq_temp')こんなエラーが出…

CLUSTALW

これまでCLUSTALWによるクラスタリングから系統樹作成はDDBJのサービスを主に使っていたのだけれど、系統樹を描く部分はNjplotというかなり古いソフトをMac上で利用していた。これがいつまで使えるかわからないし、クラスタリングからの連携も面倒なので、一…

cDNA FASTAファイルから最長ORFを抽出し、5'UTR/CDS/3'UTRに分割してそれぞれのFASTAファイルを作成する

cDNA FASTAファイルから最長のORFを抽出し、5UTR,CDS,3UTRに分割して保存する。 Multi FASTA にも対応する。 #fasta_utr.py import sys, os, re from Bio import SeqIO from Bio.Alphabet import IUPAC from Bio.Seq import Seq fasta_file = sys.argv[1] …

Express5800/R110e-1EにCentOS7をインストールしてファイルサーバにする

ここまで基本FujitsuのPrimergyシリーズでサーバを構築してきたのだが、ファイルサーバを別個に立てる必要性が出てきた。 ファイルサーバなのでそんなに強力なCPUもいらないけど、3.5インチHDDが4台くらいは内蔵できてほしい&ラック型1Uで場所を取らない&…

Anacondaの再インストールで躓く

pyenvで仮想化 $ git clone https://github.com/yyuu/pyenv.git ~/.pyenv $ echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bashrc $ echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bashrc $ echo 'eval "$(pyenv init -)"' >> ~/.bashrc $ source ~/.…

pythonでseq data

相変わらずいろいろ画策中。 やっぱり何が面倒ってab1ファイルを開いて2つ重なったピークを分離するところなわけで。 ピークコールの自動化ができるととても楽ちんになる。BiopythonモジュールでもSeqデータを見られるらしい。 from Bio import SeqIO from B…

CRISPRの編集を調べるプログラム

以前、CRISPRによって編集された遺伝子配列を解析するプログラムを書いたが、100%マッチするときしか検出できないのは不便だな、ということで、アライメントを取るツールを利用できないだろうかと考え中。pairwise2 | BioPython の pairwise2 ライブラリー…

またまたサーバの構成をいじる

サーバ CPU メモリ 理論性能 RX1330M3 E3-1230v6(4C/8T, 3.50GHz) 2400 UDIMM 64GB 224.0GFLOPS RX300S7 E5-2667(6C/12T, 2.90GHz)x2 1600 LV-RDIMM 32GB 278.4GFLOPS RX300S7 E5-2643(4C/8T, 3.30GHz)x2 1600 LV-UDIMM 24GB 211.2GFLOPS RX200S7 E5-2630(6C…

ディープラーニングちょっとずつ

なかなか先に進まないが、とりあえずちょとでもいじってみるか。 jupyter notebookの使い方を確かめながらmnistのデータを使った練習をやってみる。いろいろわからないまま言われるままに入力し、その出力をまずは眺めてみる。

zeissのlsmファイルから画像を取り出して重ね合わせる

zeissの共焦点レーザー顕微鏡で撮影したマルチチャンネルな画像ファイルの各チャンネルをバラバラにしたファイルを出力し、それらをstackではなく1枚の画像にmergeしたものを作成したい。使うのはImageJ。 とりあえずImageメニューの中のツールでできること…

VNCとpyenv

deep learning machineの構成をあれこれいじっているうちに動作がおかしくなってきたので、一旦リセットしてOSインストールからやり直すことにした。ここまでの手順ではCentOS7をデフォルトの最小構成でインストール ネットワーク設定 一般ユーザー追加 gnom…

Raspberry piで温度ロガー

ラズパイを温度監視用ロガーとして使えないかなと。ここまでラズパイはマイクロLinuxボックスとしてしか使っておらず、IoT的な電子工作はやっていない。 で、どうなんよ、と今更ながらにIO関係を調べてみたところ、AD変換とかはない。 抵抗とコンデンサを使…

primer設計でblast

適当に選んだ配列がoff targetを増幅しないか調べるためにblastnで検索するとき、普通にデフォルトでやっても何も引っかからない。 そんなときは $ blastn -db ath -query ~/Desktop/act1_f.txt -word_size 7のように-word_sizeオプションを付けると良い。

Deep learning マシンを変更

手持ちのサーバの構成を考え、Deep learningの環境テストを行うノードをPRIMERGY RX200S6に移した。手順は クラスタから切り離す。 一般ユーザを作成。 グラボを移し替え。 NVIDIAのドライバインストール。 CUDAのインストール。 pyenvインストール。 anacon…

multi FASTA (DNA)からmulti FASTA (Amino Acid)を機械的に作成する(その2)

ちょっと調べたらいけそうな気がしてきた。Biopythonを使うといろいろ簡単にできる模様。まずはmultifastaを開いて配列を順番に読み込む import sys from Bio import SeqIO fasta_file = sys.argv[1] for record in SeqIO.parse(fasta_file, 'fasta'): ids =…

pythonでABIのシークエンスデータをゴニョゴニョする

シークエンスファイルとかfastaファイルとかMacのApEとかで開いてどうにかするのがだんだん億劫になってきた。 pythonでどうにかあんなことやこんなことができないかと調査中abifpy · PyPIまあこんなモジュールでも使えばどうにかなりそうな感じ。 引き続き…