MotDB


AJACS20/sk2 のバックアップ差分(No.1)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
遺伝子発現データの活用法/次世代シーケンサの活用法 110 min

遺伝子発現
     オリゴアレイ(カスタムアレイ)
     cDNAアレイ
     次世代シーケンサ

DB
     GEO (Gene Expression Omnibus)     http://www.ncbi.nlm.nih.gov/geo/     http://togotv.dbcls.jp/20081218.html     http://togotv.dbcls.jp/20090213.html     http://togotv.dbcls.jp/20090221.html     http://togotv.dbcls.jp/20090307.html
     ArrayExpress     http://www.ebi.ac.uk/microarray-as/ae/     http://togotv.dbcls.jp/20090408.html     http://togotv.dbcls.jp/20090417.html     http://togotv.dbcls.jp/20100513.html
     DOR (DDBJ Omics aRchive)

     BodyMap     http://bodymap.jp/     http://togotv.dbcls.jp/20090204.html     http://togotv.dbcls.jp/20090210.html     http://togotv.dbcls.jp/20090328.html
     BioGPS     http://biogps.gnf.org/     http://togotv.dbcls.jp/20081004.html
     Human Protein Atlas     http://www.proteinatlas.org/     http://togotv.dbcls.jp/20090501.html

     DNA総覧     http://lifesciencedb.jp/ddbj/     http://togotv.dbcls.jp/20091022.html
     GEO目次     http://lifesciencedb.jp/geo/     http://togotv.dbcls.jp/20100326.html


Tools
     Excel     http://www.amazon.co.jp/%E3%83%9E%E3%82%A4%E3%82%AF%E3%83%AD%E3%82%A2%E3%83%AC%E3%82%A4%E3%83%87%E3%83%BC%E3%82%BF%E7%B5%B1%E8%A8%88%E8%A7%A3%E6%9E%90%E3%83%97%E3%83%AD%E3%83%88%E3%82%B3%E3%83%BC%E3%83%AB%E2%80%95Excel%E3%82%92%E4%B8%AD%E5%BF%83%E3%81%A8%E3%81%97%E3%81%9F%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E6%A8%99%E6%BA%96%E5%8C%96%E3%81%8B%E3%82%89%E6%9C%89%E6%84%8F%E5%B7%AE%E8%A7%A3%E6%9E%90%E3%80%81%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0%E3%80%81%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF%E8%A7%A3%E6%9E%90%E6%B3%95%E3%81%AE%E3%81%99%E3%81%B9%E3%81%A6-%E5%AE%9F%E9%A8%93%E5%8C%BB%E5%AD%A6%E5%88%A5%E5%86%8A-23-%E8%97%A4%E6%B8%95-%E8%88%AA/dp/4758101736/ref=sr_1_1?ie=UTF8&s=books&qid=1277980288&sr=8-1
     R/Bioconductor     http://www.r-project.org/     http://www.bioconductor.org/     http://www.iu.a.u-tokyo.ac.jp/~kadota/r.html     http://togotv.dbcls.jp/20090313.html     http://togotv.dbcls.jp/20090319.html     http://togotv.dbcls.jp/20090618.html     http://togotv.dbcls.jp/20091219.html
     RefEx     http://togoexp.dbcls.jp/RefEx/human/     http://togotv.dbcls.jp/20100618.html
     DAVID     http://david.abcc.ncifcrf.gov/     http://togotv.dbcls.jp/20090925.html
     CateGOrizer     http://www.animalgenome.org/bioinfo/tools/countgo/     http://togotv.dbcls.jp/20090806.html
     BioMart     http://www.biomart.org/     http://togotv.dbcls.jp/20080523.html     http://togotv.dbcls.jp/20090225.html     http://togotv.dbcls.jp/20090327.html
     GenoDive     http://genodive.org/



次世代シーケンサ
第0世代     スラブ
第1世代     キャピラリー
第2世代     pyrosequence (454), sequence by synthesis (Illumina, Helicos), sequence by ligation (Solid)
                 Nature Review Genetics, 11, 31-46 (2010)
第3世代     SMRT (PacBio), Q-dot FRET (Life Technology), nanopore (Oxford), Ion Torrent sequencing, DNA Transistor technology (Roche & IBM, )電顕
                 Nature Biotechnology, 28 (5), 426-428 (2010)
                 http://www-03.ibm.com/press/us/en/pressrelease/32037.wss     http://www.fastcompany.com/1665802/dna-nanopore-identification-gene-sequencing-medicine-roche-ibm

2003年     ヒトゲノムプロジェクト     30億ドル     13年
2007年     ワトソンゲノム                  100万ドル    454
2009年     コンプリートゲノミクス     4000ドル
2010年     グレン・クローズ               5万ドル       Illumina (6月から2万ドルに値下げ)

DB
生データ
     SRA     http://www.ncbi.nlm.nih.gov/sra
     ENA     http://www.ebi.ac.uk/ena/
     DRA     http://trace.ddbj.nig.ac.jp/dra/index.shtml

アノテーション済みコンティグ配列
     GenBank     http://www.ncbi.nlm.nih.gov/genbank/
     EMBL     http://www.ebi.ac.uk/embl/
     DDBJ     http://www.ddbj.nig.ac.jp/

発現データ
     GEO
     ArrayExpress
     DDBJ Omics Archive (DOR)

Journal
Standards in Genomic Sciences     http://www.standardsingenomics.org/
     Figure 1     Phylogenetic tree
     Figure 2     Picture
     Table  1     Classification and general features
     Table  2     Genome sequencing project information
     Table  3     Genome statistics
     Figure 3     Graphical circular map of the genome
     Table  4     Number of genes associated with the general COG functional categories

Tools
     DDBJ Read Annotation Pipeline     https://p.ddbj.nig.ac.jp/     http://togotv.dbcls.jp/20100617.html
     Buncher     http://togoexp.dbcls.jp/buncher/
     MiGAP     http://migap.lifesciencedb.jp/     http://togotv.dbcls.jp/20100624.html     
     R     http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html

Reference Genome Mapping
     BLAT     http://genome.ucsc.edu/cgi-bin/hgBlat
     Maq     http://maq.sourceforge.net/
     bwa     http://maq.sourceforge.net/bwa-man.shtml
     SSAHA2     http://www.sanger.ac.uk/Software/analysis/SSAHA2/
     SOAP     http://soap.genomics.org.cn/
     Bowtie (SAMtools)     http://bowtie-bio.sourceforge.net/index.shtml
     TopHat     http://tophat.cbcb.umd.edu/index.html

de novo Assembly
     velvet     http://www.ebi.ac.uk/~zerbino/velvet/
     edena     http://www.genomic.ch/edena.php
     abyss     http://www.bcgsc.ca/platform/bioinfo/software/abyss

NGS Alignment Programs     http://lh3lh3.users.sourceforge.net/NGSalign.shtml
NGS解析で使われるソフトのまとめ(お茶の水女子大、瀬々潤先生)     http://d.hatena.ne.jp/sesejun/


GEOから発現情報をとってきて、発現上昇した遺伝子の、上流域の配列を取得する

の前に、後で使う(かもしれない)R/Bioconductorをインストールします

     統合TV:統計解析ソフト「R」の使い方 〜導入編〜(winxp)     http://togotv.dbcls.jp/20090313.html#p01
                      統計解析ソフト「R」の使い方 〜導入編〜(macosx)  http://togotv.dbcls.jp/20090618.html#p01
R のサイトに行きます(「R」もしくは「R statistics」)
download R のリンクをクリック
ダウンロード元を聞かれるので、「Japan」の「Hyogo University」か「University of Tsukuba」のサイトをクリック(ミラー:)
インストールするコンピュータのOSを選択(windows?)
「base」をクリック
一番上にある「Download R 2.11.1 for Windows」をクリック
ダウンロードが終わったらインストール
言語は日本語でOKのはずですが、インストールの途中で文字化けした場合、一度インストールを中止し、言語をEnglishにしてやり直してください
「Startup Option」のところで「Yes (customized startup)」を選んでください(コンポーネント選択の次の画面)
最初の二つはそのままでOK
「Internet Access」のところで、プロキシ接続が必要な場合(企業や学校からつなぐ場合に必要となることがあります)は「Internet2」を選択します
あとはそのままで全部OK
R を起動します
Bioconductor の一括インストール <注:講習会ではこれは実行しないでください>
source("http://bioconductor.org/biocLite.R") #と打ち込んでリターン
bioclite() #と打ち込んでリターン
でインストールが始まりますが、かなり時間がかかるので今回は省略します
Bioconductor パッケージの個別インストール
R 上部のメニューから「Packages」→「Select repositories」を選択します
「BioC software」を選んで OK
R 上部のメニューから「Packages」→「Install package(s)」を選択します
「affy」を選択して OK
R 上部のメニューから「Packages」→「Select repositories」を選択します
「BioC annotation」を選んで OK
R 上部のメニューから「Packages」→「Install package(s)」を選択します
「hgu133acdf」を選択して OK


GEO     http://www.ncbi.nlm.nih.gov/geo/

     GEO ID 番号の最初の3文字が
     GPL:  プラットフォーム(マイクロアレイ等の型番)
     GSM: サンプル(1枚のマイクロアレイから出たデータ)
     GSE:  シリーズ(1つの実験で出たデータを集めたもの。通常複数の GSM からなる)
     GDS:  データセット(NCBIで比較可能なデータを集めて再編成したもの。GEO上で簡単な解析が可能)


     マイクロアレイのプラットフォーム情報について調べる(省略)
     統合TV:遺伝子発現情報データベース NCBI Gene Expression Omnibus (GEO) の使い方     http://togotv.dbcls.jp/20081218.html#p01
GEO http://www.ncbi.nlm.nih.gov/geo/ のページに行きます(「GEO」もしくは「GEO gene」で検索) 
BROWSE にぶら下がっている「Platforms」をクリックします
一覧が表示されます。表の上にある「FIND PLATFOEM」をクリックします
Title contains のところに「U133A」と入力して、「FIND PLATFORM」をクリックします
Accession にあるID番号をクリックすると、各プラットフォームの詳細が見られます
詳細情報の中程にある「Samples」や「Series」の下にある「+」をクリックすると、このマイクロアレイを使って出されたデータ、一連の実験シリーズが表示されます
ページの下には、マイクロアレイに載っているプローブIDと対応する遺伝子配列へのリンク・アノテーション情報の一覧表(一部)があります。すべての情報を見たいときには「Download full table」をクリックすると、アレイに載っているすべてのプローブ情報をダウンロードできます

     特定の遺伝子の発現量について調べる(省略)
     統合TV:NCBI GEOの使い方2 遺伝子プロファイルを検索する     http://togotv.dbcls.jp/20090213.html#p01
     GEO トップページの Gene profiles に遺伝子シンボルを入力して検索できます


     データセットブラウザを使って、GEOで簡単な解析を実行する
     統合TV:NCBI GEOの使い方3 データセットブラウザを使い倒す     http://togotv.dbcls.jp/20090221.html#p01
                   NCBI GEOの使い方4 データセットブラウザをさらに使い倒す     http://togotv.dbcls.jp/20090307.html#p01
GEOのトップページに行きます
「DataSets」に「dioxin」と入力
4番目にある「GDS2744」をクリック
実験に使われたマイクロアレイ(プラットフォーム)を確認しておきます(HG-U133Aです)
表のタイトル部分にある「Sample Subsets」をクリックすると、どのようなデータが含まれているかがわかります
「Data Analysis Tools」で解析画面に戻ります
「Find genes」に遺伝子シンボルを入力すると、その遺伝子の発現状況がわかります(例えば「ABO」とか)
その下の「Find genes that are up/down for this conditions(s)」の「Go」をクリックすると、2条件で発現の異なる遺伝子のリストが表示されます
左メニューの一番下にある「Experiments design and value distribution」をクリックすると、各サンプルでの遺伝子発現の分布が表示されます(極端に分布が異なるサンプルがある場合は、解析から除いた方が良いでしょう)
「Compare 2 sets of samples」で、t検定など簡単な統計解析が可能です。
Step 1 で検定方法と閾値を設定します
Step 2 でサンプルをグループ分けします
Step 3 で計算開始
設定した条件に適合した遺伝子がリストされます。(右側の図はそれぞれ縦軸のスケールが違うので注意)
「Download profile data」からリストされた遺伝子のみのデータをダウンロードできます
「Cluster heatmaps」でクラスター解析と解析結果のヒートマップ表示を見ることができます
階層型クラスタリングの場合「hierarchical」から、クラスタリングの際の距離の計算方法とクラスターの代表点の取り方を指定します
色を変えたり、クラスタリングパラメータを変えたりして「Change」を押すとクラスターが再描画されます
ダブルクリックすると、その周辺が拡大表示されます
全体表示に戻すには、ヒートマップ図右上にある「Full image ~」の「Reset」をクリックします
点線で範囲指定して「Get selected data」をクリックすると、指定部分の発現データをダウンロードできます
「Partitional (K-means/K-medians)」を選んで、クラスタリングパラメータを指定すると、指定した数のグループに遺伝子群を分割してくれます
各クラスタをクリックすると拡大表示されます。
なぜか500遺伝子分しか表示されないので、ヒートマップ図右上にある「Full image ~」の「Reset」をクリックすると、全体表示になります
点線で範囲指定して「Get selected data」をクリックすると、データをダウンロードできます
「By location on chromosome」をクリックすると、遺伝子がクロモソーム順にソートされたヒートマップが表示されます


GEOのデータをEXCELで解析してみる

     参考図書:マイクロアレイデータ統計解析プロトコール(羊土社)
先ほど使用した「GDS2744」のページから、バックグラウンド補正・正規化後のデータをダウンロードします。右側のクラスター図の下の「Download」にある「DataSet SOFT file」をクリックすればダウンロードできますが、みんなでアクセスすると迷惑なので、こちら http://dbcls.rois.ac.jp/~kawano/AJACS/ からダウンロードしましょう(GDS2744.soft)。
EXCELを起動して、「ファイルを開く」から「選択対象」?を「すべてのファイル」にします
先ほどダウンロードした「GDS2744.soft」ファイルを指定します
このファイルは「タブ区切りファイル」なので、データ形式指定のところでタブ区切りを指定します
「カンマやタブなどの区切り文字によってフィールドごとに区切られたデータ」を指定して「次へ」
区切り文字に「タブ」を指定して次へ
完了
45行目から、データが6個のカラムに別れていることを確認する
43行目までは不要なので削除してしまいましょう。22217行目から下も、コントロールデータ(ポジコン・ネガコン)なので削除してしまいましょう
まず、2種類のサンプルの倍数変化(Fold Change)をみて、遺伝子発現の増減を検出します。
2行目のJ列を選択して、「挿入」から「関数」を選択して「すべて表示」から「AVERAGE」を選択し、C2セルからE2セルまでを範囲指定します
同様にK列に、F2セルからH2セルまでの平均値を計算します
L列に倍数変化(K2/J2)を計算します。ただし、そのまま計算すると発現が増加の場合と減少で数値が非対称になってしまうので、底が2の対数をとります。関数の「LOG」を選択して、数値に「K2/J2」、底に「2」を入力します
J2~L2を選択して一番下まで移動し、「シフトボタン」を押しながらj22216~L22216を選択する
「編集」→「フィル」→「下方向にコピー」で、全データに計算式を適用
全データを選択し(左上の菱形マークをクリックするか、Controlキー+A)、「データ」→「並べ替え」を選択する
まず、範囲の先頭行を「タイトル行」に変えてから、最優先されるキーを「(列L)」にする。降順を指定して、OK
dioxinを添加したときに発現が増加する順に並び替えられました(4行目など上位に来ている多くはノイズの可能性が高いことに注意)。下から見ると、発現が減少した順に見ることができます
次に、t検定によるp値を求めます
 M2セルを選択し、「挿入」→「関数」から「TTEST」を選びます。
配列1にC2〜E2を、配列2にF2〜H2を指定します。尾部には「2」を指定(両側検定)、検定の種類には「3」を指定します(等分散性を仮定しない)
一番下まで移動して、M22216セルをシフトキーを押しながらクリックします
「編集」→「フィル」→「下方向にコピー」
FCが1以上(2倍以上発現量増加)かつp値が0.01以下のプローブを検索します
N2セルに「AND」関数を使って論理式1に「L2>1」、論理式2に「M2<0.01」を入れる。下までコピーしてN列をキーに降順に並べる(TRUEが条件を満たしたプローブ)
FCの値が1を越える行(707行目)より上を選択して、M列をキーに昇順にソート(10行目までが条件を満たしたプローブ)



BioMartで発現が上昇した遺伝子の上流配列を取得する

&#160;&#160;&#160;&#160; 統合TV:遺伝子発現パターンが似ている遺伝子群のゲノム上流配列を一気に取得する&#160;&#160;&#160;&#160;&#160;http://togotv.dbcls.jp/20070927.html#p01
&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;Biomartを使い倒す-IDの対応表を作成する&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; http://togotv.dbcls.jp/20080523.html#p01
&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;Biomartを使い倒す-マイクロアレイprobeIDの対応表を作る&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;http://togotv.dbcls.jp/20090225.html#p01
&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;Biomartを使い倒す〜遺伝子の上流配列を取得する〜2009&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;http://togotv.dbcls.jp/20090327.html#p01
&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;BioMartを使い倒す 比較ゲノミクス編&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;http://togotv.dbcls.jp/20100329.html#p01

条件を満たした9プローブのプローブIDを選択し、コピーします
BioMartのページに行きます(「BioMart」で検索)
リストの最初にある「BioMart Central Portal」をクリックします
データベースと生物種を選びます。「CHOOSE DATABASE」から「ENSEMBL GENES 58 (SANGER UK)」を、「CHOOSE DATASET」から「Homo sapiens genes (GRCh37)」を選択します(左上にある「Count」をクリックするとデータ数が確認できます)
左側にある「Filter」をクリックします(ここでさまざまなフィルタリングをかけることができます)
今回は「Gene」の左にある「+」をクリックして展開し、「ID list limit」にチェックを入れます
「Ensembl gene ID(s) ...」になっているところを、「Affy hg u133a ID(s) ...」に変更します(一番下の方にあります)
すぐ下の入力ボックスに、先ほどコピーしたプローブIDをペーストします
左上にある「Count」をクリックして、遺伝子がいくつに絞られたか確認しましょう
左側にある「Attributes」をクリックします(ここで出力する項目を指定できます)
初期状態では「Ensembl gene ID」と「Ensembl Transcript ID」が指定されています(左上の「Results」をクリックすると一覧表が得られます)
今回は絞り込まれた遺伝子の上流配列が欲しいので、「Attributes」から「Sequences」を選択します
「SEQUENCES」の左側の「+」をクリックして展開します
「Flank (Transcript)」を選択します
「Upstream flank」にチェックを入れ、取得する塩基数を入力します
「Header Information」を展開して、配列に併記する情報を指定できます。初期状態ではIDが表示されるだけで寂しいので、「Description」あたりにチェックを入れてみましょう
左上の「Result」を押して結果を表示させます
結果をダウンロードします
結果の上部にある「Export all results to」を「File」から「Compressed file (.gz)」に変更します(ネットワーク付加を減らすため)
「Unique results only」にチェックを入れます
「Go」でダウンロード開始です

GEOから生データを入手し、自分で(Rを使って)バックグラウンド補正・正規化する

&#160;&#160;&#160;&#160; 統合TV:統計解析ソフト「R」の使い方 〜正規化編〜&#160;&#160;&#160;&#160;&#160;http://togotv.dbcls.jp/20090319.html#p01
実験シリーズから生データをダウンロードします
さきほどのGDS2744のページから、このデータセットの元になった実験シリーズ「GSE7765」のページに行きます
一番下からダウンロードできますが、ファイルサイズが大きいので http://dbcls.rois.ac.jp/~kawano/AJACS/ からダウンロードしましょう(GSE7765.zip)
解凍します
Rでデータのあるフォルダを指定します。「File」→「Change dir」から先ほど解凍したフォルダを指定します
library(affy) #と入力(コピペ)します。正規化用パッケージを呼び出しています
write.exprs(justRMA(), file="RMA_expression.txt") #と入力(コピペ)します。RMAという方法で正規化し、ファイルに保存しています
write.exprs(mas5(ReadAffy()), file="MAS5_expression.txt") #と入力(コピペ)します。MAS5という方法で正規化し、ファイルに保存しています
write.exprs(mas5calls(ReadAffy()), file="MAS5calls_expression.txt") #と入力(コピペ)します。MAS5で正規化し、その遺伝子が発現しているか(Present = P)発現していないか(Absent = A)を判定して、ファイルに保存しています



ここから次世代の解析ツール

DDBJ Read Annotation Pipeline の使い方&#160;&#160;&#160;&#160;http://trace.ddbj.nig.ac.jp/dra/index.shtml

&#160;&#160;&#160;&#160; 統合TV:今日からはじめるDDBJ Read Annotation Pipeline&#160;&#160;&#160;&#160;http://togotv.dbcls.jp/20100617.html#p01
統合データベースプロジェクトページ&#160;http://lifesciencedb.jp/&#160;の「アーカイブ」にあるDDBJリードアーカイブ&#160;http://trace.ddbj.nig.ac.jp/dra/index.shtml&#160;をクリック
「解析パイプラインでデータを解析」もしくは上部にある「Pipeline」タブをクリック
User ID: guest&#160;&#160;&#160;&#160;Passwordは空白でログインできます
まず、解析する配列ファイルを指定します。DRA (DDBJ Read Archive)に登録済みの場合はリストから選択、登録していない場合はファイルをアップロードします
DRAを指定した場合、データのメタデータ(サンプル名や実験条件など)が表形式で表示されます。データのダウンロードや閲覧が可能です
解析に使用する配列データは一番下のテーブルから選択します
解析に使用するツールを選択します。ツール名はツールのオリジナルサイトにリンクされています。「Help」にあるアイコンをクリックするとそれぞれのツールのヘルプが表示されます
既にゲノムが解読されている配列にマッピングする場合には「Reference Genome Mapping」を、新規にアセンブリする場合には「de novo Assembly」を選びます
使用するツールにチェックを入れて「NEXT」
解析に使用するリード長を決定します
「Quality Score」のボタンをクリックすると、配列セットのQualityスコアが表示されます
サンプルと(必要があれば)解析するリード長を指定して「confirm」をクリックします
複数のサンプルがある場合には、それぞれのサンプルについて配列長を指定できます
解析するすべてのサンプルを「confirm」したら、「NEXT」
マッピングする場合、リファレンスとなるゲノムを指定します(de novo Assemblyの場合にはこの過程はスキップされます)
Majorな生物についてはあらかじめ登録されている中から選択します
リストにない場合には、ゲノム配列のIDを指定して配列をダウンロードします
解析プログラムのパラメータを指定します
解析終了のお知らせを受け取るメールアドレスを入力します(必須)。今回はゲストアカウントなので解析は実行できませんが、実際には「BACK」の右側に「RUN」ボタンがあります
左側にある「MENU」の「STATUS」から、解析の実行状況について確認できます
実行結果から、リファレンス配列(Chromosome)とMapping結果ファイル(out.sam、下から3番目)をダウンロードし、Tablet (http://bioinf.scri.ac.uk/tablet/) などのViewerで結果を表示できます(ファイルサイズが大きいため、今回は省略します)


MiGAP の使い方 (デモのみ)&#160;&#160;&#160;&#160;&#160;http://migap.lifesciencedb.jp/

&#160;&#160;&#160;&#160; 統合TV:MiGAPの使い方〜導入と基本操作〜&#160;&#160;&#160;&#160;&#160;http://togotv.dbcls.jp/20100624.html#p01
統合データベースプロジェクトページ&#160;http://lifesciencedb.jp/&#160;の「ツール&解析サービス」にあるMiGAP&#160;http://migap.lifesciencedb.jp/&#160;をクリック
左上のバナーをクリック
「Login」からOpenIDでログイン
「Pipe Line」にアセンブリ済みの配列を アップロード or ペースト (Sample data をクリックすると入力ボックスにサンプル配列が入力される)
入力した配列が「直鎖状」か「環状」か、「真正細菌」の配列か「アーキア」の配列かを選ぶ
「Run」で計算開始
計算状況は「Current Process」から確認できます
「Change User Level」でユーザレベルを変えられます。Bronze = 初心者(すべてお任せ)、Silver = 中級者(プログラムのパラメータを自分で設定可能)、Gold = 上級者(解析プログラムを組み込んだりできるらしい)
計算が終了すると、「Pipe Line History」から結果を見ることができます
フォルダをクリックすると解析のサマリーと、各種ファイルのダウンロードリンクが表示されます(-a の付いているファイルがアノテーション付きの結果ファイル)
ゲノムマップ上をクリックすると、その部分が拡大される。矢印をクリックするとORFの詳細が表示される(chrome ではORFの詳細が表示されない。FireFoxはOK)
例えば「result-aa.fasta」「result.csv」「result-a.csv」をダウンロードして中身を閲覧


Volcano
p値の-log10をとる
「挿入」→「グラフ」→「散布図」から、L列をX軸に、N列をY軸に描画


TabletというViewerをインストールします
「Tablet next generation」あたりで検索すると出てきます。「Download Tablet」からダウンロードできますが、例によってみんなでやると迷惑なので http://dbcls.rois.ac.jp/~kawano/AJACS/ からダウンロードします
JVMエラーが出る場合、tabletインストールフォルダの「tablet.vmoptions」の中身の値を変更する


heatmap
GSE7765 <- read.table("MAS5_expression.txt", header=TRUE, row.names=1, sep="\t", quote="")
GSE7765$IDENTIFIER <- NULL
heatmap(as.matrix(GSE7765), Rowv =NA, Colv=NA, scale="row", col = heat.colors(100), main="GSE7765", xlab="Tissue", ylab="Clone ID", margin=c(8,6))