kuroの覚え書き

96の個人的覚え書き

science

CentOS7にpyenv-virtualenvを噛ましてAnacondaを入れてETE3toolkitをインストールする

なんともややこしいが禁断のAnacondaをCentOS7に入れてみる。 とにかくメインのサービスの邪魔をしないように厳重に環境を切り分けておく必要がある。 単純なPythonの環境切り分けなら、venvが今風なんだろうけど、混ぜるな危険のcondaなのでちょっと面倒だ…

Phylogenetic treeを描くためのツールを自分で集める

大方のソフトウェアはバイナリを実行権限つけて/usr/local/bin/におく コンパイルが必要なものは適宜コンパイルしてやはり/usr/local/bin/におくclustalo: Clustal omega ClustalWより新しいアライメントソフトウェア www.clustal.org Mac用のバイナリがダウ…

coreserverにNode.jsを入れてJbrowseを使いたい

まずNode.jsがCoreserverで使えるのか? 標準状態ではインストールされていないし、root権限がないので通常のインストールもできない。いろいろ調べてみると、nvm (Node Version Manager )を介するとユーザーごとにユーザー権限でインストールし、シェルごと…

ETE Toolkitで系統解析

ClustalWはお手軽にアライメントをとって系統樹を描くことが出来る。 しかしClustalWで出力されるdndファイルを使った系統樹は近年、系統樹としてはあまり信頼をされない。 ClustalWで実施される解析は近隣結合法(Neighbor joining method)で、計算量は極…

somocluで自己組織マッピング その2

というわけで定番Irisでやってみよう。 import numpy as np import matplotlib.pyplot as plt import somoclu import pandas as pd %matplotlib inline from sklearn.datasets import load_iris iris = load_iris() X = iris.data Y = iris.target n_rows, n…

somocluで自己組織マッピング

Self Organized Mappingをpythonでやりたくてsomocluをインストールしてみた。まずはMacに入れてみると、 Python 3.9.6 (default, Jun 29 2021, 06:20:32) [Clang 12.0.0 (clang-1200.0.32.29)] on darwin Type "help", "copyright", "credits" or "license"…

ペプチドをコードするDNAを網羅的に探す。

例えばCLE25ペプチドはArg-Lys-Val-Pro-Asn-Gly-Pro-Asp-Ile-His-Asnからなるが(実際は246bpの前駆体がまず転写され翻訳されるのだが)、このペプチドがどんなゲノムDNA配列から転写翻訳されたかを考えたい。 Arg:CGT/CGC/CGA/CGG/AGA/AGG Lys:AAA/AAG Val:…

Dockerのコンテナをイメージに書き出して別のJetson Nanoに環境を移す

ここまでJetson Nano 2GBでDocker上にPython3環境を作ってきたが、32GBのSDカードだったためちょいと手狭になってきた。 JetsonNano B01のほうは128GBだったので一旦こっちに環境を移して続きの開発を行いたい。ということでDocker-composeで構築したコンテ…

Rspberry piにnumpy

Raspberry piにpipでnumpyを入れようとしたら動かなかった。これまたARMに対応してないらしいね。対応策としては $ sudo apt install python3-numpyと直接インストールするといいらしい。 一旦 $ python3 -m pip uninstall numpyとしてやってからインストー…

Raspberry piにBlastとSamtoolsをインストール

XREAがいまいち融通がきかない。ちょっと規模の大きいFlaskサイトを動かそうとすると負荷がかかりすぎるのか強制終了されてしまい、サーバエラーを返されてしまう。 一旦XREAはペンディングとし、自宅ネットにRaspberry piでwebアプリ設置テストをすることに…

AlphaFold2.1.0登場

さて、Alphafold2の公開から4ヶ月ほど経ったが、その間に出てきた多量体解析のアイデアなどを取り込んでver2.1がアップされた。 GoogleColabの方ではいち早くバージョンアップがされていたわけだが、gitの本体の方も正式に対応したということか。アップグレ…

AlphaFold2 総括

一部業界で話題沸騰のAlphaFold2だが、ソースの公開から一月ちょっと遅れで、ようやく自前サーバで解析できる環境を構築した。要求スペック 2.5TB以上のSSD/HDD容量 (必須、SSD推奨) CUDA11に対応しているNVIDIA製GPU(推奨) 大容量(32GB以上)のRAM(推奨…

AlphaFold2のその後2.2

いろいろわけがわからなくなってきている(特にPython絡み)ので、一旦minicondaもbrewで入れたpython3もアンインストールした。(minicondaは~/miniconda3にインストールされているのでフォルダまるごとrm -rf) (python3は $brew uninstall python3したあ…

AlphaFold2のその後2.1

前回、どうもTensorflowのバージョンがなんかコンフリクトしているっぽく、自前で環境インストールしたのがまずかったのかも、と思ったので、一旦Dockerに戻ってみた。Docker自体にエラーの原因はないと思うし、Dockerの中ならバージョンが合わないというこ…

AlphaFold2のその後2

何が問題なのか一つわかった。 WARNING: Ignoring invalid symbol '*' at pos. 492 in line 2 of /tmp/tmp2hwa2yuo/query.a3mこれだ。 なんとなく自分の持っているアミノ酸データでFASTAファイルを自分で作って投げていたわけだが ストップコドンのところの…

pymolでタンパク質立体構造を見る

AlphaFold2の登場でにわかに活気づいたタンパク質構造化学の分野でデファクトスタンダードとも言える分子ビューワといえばpymolなわけだが、普通にネット検索して出てくるのは pymol.org なのだ。 しかしこのソフトウェアはライセンスがいる。有料だ。 我々…

AlphaFold2の衝撃

とりあえず試してみておかないと。qiita.comただ、GPUがまともなものがない。試してみた環境は以下の通り CPU: Xeon E3-1230V6 Memory: 64GB Storage: 2GB(2GB x2 RAID1) + 8TB(4TBx2 RAID0) GPU: GeForce GT710(1M)まずは何も考えずにランしてみると $ pyth…

local blastをグラフィカルに

モデル植物としてはゲノムデータがあまり完璧でない植物を研究対象にしているためBlast検索も外部データベースサイトに頼らず自分でシークエンスデータをあちこちから集めてきて自分仕様のBlastサーバを立てている。 これまでのところ、まあ自分で見るだけだ…

jExcelでスプレッドシートをwebアプリに仕込む(完成)

最終的にここに落ち着いた。 {% extends "base.html" %} {% import "bootstrap/wtf.html" as wtf %} {% block title %}Freezer list{% endblock %} {% block head %} {{ super() }} <link rel="stylesheet" href="https://bossanova.uk/jspreadsheet/v4/jexcel.css" type="text/css" /> </link>

jExcelでスプレッドシートをwebアプリに仕込む

以前チョロっと眺めていたjExcelを使ってウェブアプリに冷凍庫管理表を作ってみる。 javascriptなのでじつはあまり得意ではない。 しかし使い方は結構簡単そうだ。(実は実用するには結構ハードルが高いことは後でわかる) 設置方法は基本HTMLファイルにjava…

タンパク質立体構造の予測

すでに解かれているタンパク質モデルをお手本に別の似たタンパク質の立体構造を予測してみる。UCSF Chimeraでできるらしいのだが、このソフトウェアは色々できることがありすぎて、逆に使い方がわかりにくい。 そこで、そもそもChimeraも内部で使っているら…

グラフの要素を平均やボックスプロットに重ねる

以前より作っていたグラフ描画用ウェブアプリをバージョンアップしてつかいやすくした。 ボックスプロットやバーグラフに各要素点をかんたんに重ねることが可能になった。 これでNatureにも投稿し放題だね。いよいよExcelは必須ではなくなってきたな。

pandasで読み込んだデータフレームからかんたんにグラフを作る

例えばStudent's T testをやるついでにグラフも描いとこうというような場合。 import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("./ttest.txt") des = df.describe() print(des) # plt.figure() des[des.index=='mean'].T.plot.bar(ye…

まっさらなOSXが手に入ったから、一から環境構築をしてやる

先日MacBook Airを新たに導入したわけで、とりあえず書き物用としてOfficeはインストール済みである。 で、しばらく使ってきたわけだが、一昔前のサーバに引けを取らないパワーがありそうなんで、やはり開発環境やデータ解析環境なんかも入れておこうかなと…

Pythonで統計解析

やはりRとはなかなか仲良くなれないな。といってPythonでサラサラ~っとコードを書けるのかというと、結局は本と検索でどうにかやっているわけだが。 紙媒体の本はとりあえず大まかな感じを掴むのに向いている。 というわけで参考にしている本を並べてみる。…

画像をカタログ化して共有する

顕微鏡の画像データが蓄積してきているが、いまいち整理されてなくて、バラバラにCD-Rとかに保存されているので一元管理したい。 できればサムネイル付きでカタログ化しておいて、目的の画像をパラパラっと見つけ出せるようであればなお良い。ということでま…

sequence alignmentをBokehを使ってインタラクティブに表示してみる

clustalwでsequenceのアライメントをとると、テキストで.alnというファイルが生成されるが、文字の並びとアスタリスクではわかりにくいことが多い。 なのでclustalxだとかMEGAだとかで表示するとカラフルに色分けで表示できるのでぱっと直感的に分かるのだが…

ImageJのマクロをpythonで動かす

1000枚以上あるようなTIFF画像にImageJで一律の処理を行いたい。 とてもじゃないが手ではやってられないのでマクロを使って自動運転する。 File>New>Text Window を開き、次のようなスクリプトを作成して、Runする。 from ij import IJ from ij.io import D…

ベイジアンネットワーク解析で遺伝子発現の制御関係を網羅的に調べたい

マイクロアレイや、次世代シークエンサーによる発現データセットが大量にあると、すべての遺伝子同士の制御関係(上下関係)が描けるかもしれない。 ということで方法を模索するとネットワーク解析というものに行き着く。ところが、世の中に出ている遺伝子発…

正規分布しているかの検定

例によってwebアプリ拡張。統計処理をするにあたって、データが正規分布しているかどうかによってその後の処理が分岐する事が多い。 なので、まずは正規分布かどうかを確定させる必要がある。 Shapiro-Wilk testで判定。Q–Q plot, quantile-quantile plotも…