MotDB


AJACS41/hono の変更点


[[AJACS41]]

&size(25){遺伝子発現DB・解析ツールの紹介};    担当: [[小野 浩雅>http://dbcls.rois.ac.jp/~hono/dokuwiki/doku.php]]
~
~目次
#contents

*講習に際しての注意とお願い [#q2fedcc8]
- みんなで同時にアクセスするとサイトにつながりにくくなることが予想されます。
-- 資料を見ながら自力で進められそうな方はどんどん先に、そうでない方は講師と一緒にすすめていきましょう。
-- サイトの反応が悪い時はタイミングをずらして実行してみてください。
-- 反応が無いからと言って何度もクリックするとますます遅くなるだけです。おおらかな気持ちで臨みましょう。
- わからないことがあったら挙手にてスタッフに質問してください。
-- 遠慮は無用です(そのための講習会です!)。おいてけぼりは楽しくありません。


*統合TV [#eb068d9f]
- http://togotv.dbcls.jp/ja/
-- YouTube版もあります http://www.youtube.com/user/togotv/videos
- 生命科学分野の有用なデータベースやツールの使い方を動画で紹介するウェブサイト
--[[統合TV の発現制御解析 カテゴリー>http://togotv.dbcls.jp/ja/contents/category/expression#%E9%81%BA%E4%BC%9D%E5%AD%90%E3%83%BB%E3%82%BF%E3%83%B3%E3%83%91%E3%82%AF%E8%B3%AA%E7%99%BA%E7%8F%BE%E3%82%92%E7%B6%B2%E7%BE%85%E7%9A%84%E3%81%AB%E8%AA%BF%E3%81%B9%E3%81%9F%E3%81%84]]から探す
--[[旧 統合TVの「発現情報」タグ >http://togotv.dbcls.jp/index.rb?category=%E7%99%BA%E7%8F%BE%E6%83%85%E5%A0%B1]]をクリック!
- 本講習のほぼすべての内容は統合TVに収録されており、いつでもどこでも繰り返し復習できるようになっています。


*いざ講習、その前に [#z1254cb8]
- 講習内容をスムーズに理解するために押さえておくとよい基礎知識として、[[「遺伝子のDB・ウェブツールの基礎」(過去の講習会ページ)>http://motdb.dbcls.jp/?AJACS33%2Fmeso#e3b0f070]]の内容をご参照ください。

*個々の遺伝子の発現プロファイルを調べる [#ac44a051]
**[[&size(20){RefEx(Reference Expression dataset)};>http://refex.dbcls.jp/]] [#s29e8caa]
&color(green){ヒト、マウス、ラットの4つの異なる実験手法によって得られた40種類の正常組織における遺伝子発現リファレンスデータセット};
- http://refex.dbcls.jp/
- 正常組織・臓器における遺伝子発現のリファレンス
-- 4つの異なる実験手法によって得られた40種類の正常組織・臓器における遺伝子発現データを並列に表現することで、手法間の比較とともに各遺伝子の発現量を直感的に比較することができます。
- 調べたいデータに素早くたどり着くための目的別に異なる5つの検索窓
-- もっとも基本的なキーワード・遺伝子名検索では逐次的に検索語候補が提示されます。
-- 『転写因子』や『Gタンパク質共役受容体』などのようなあるカテゴリーに属した遺伝子群についてまとめて検索できるよう整理されています。
-- さまざまな実験において比較対照などによく用いられる『組織特異的遺伝子』を一覧することができます。
- 3D人体モデルを用いた遺伝子発現データの可視化
--検索結果の一覧や個々の遺伝子についての詳細ページでは、人体3Dモデルに発現量を反映させたヒートマップを表示しています。これによって、臓器・組織間における遺伝子発現の差異をより直感的に理解することができます。
- 再利用可能で有用なパブリックデータの活用例
-- RefExで使用しているデータは公的データベースの中から、正常組織・臓器における遺伝子発現データのリファレンスとするにふさわしいデータセットを、測定サンプルの広範さなどを基準に選び出し、クオリティチェックを行い、互いに比較できるように整理しなおしたものです。さらに、RefExが提供するすべてのデータもまた、クリエイティブ・コモンズ (CC) ライセンス ( � DBCLS Licensed under CC 表示 2.1 日本 )のもとで、自由にダウンロードおよび再利用することができます。


***【実習1】RefExを使って、組織特異的遺伝子を検索する [#d71c8bae]
-1. [[http://refex.dbcls.jp/:http://refex.dbcls.jp/testsite]] を開きます。(今日は実はテストサイトです。近日中に正式版になります。)
-1. [[http://refex.dbcls.jp/:http://refex.dbcls.jp/]] を開きます。
-2. 画面中央の「組織特異的に発現する遺伝子を見る」の臓器アイコンにカーソルを合わせると、更に詳細な部位のアイコンが出るので、調べたい臓器(例は[[肝臓>http://bit.ly/16WrPJU]])をクリックします。
-3. 検索結果一覧では、「ソート項目の切り替え」や「絞り込み検索」、「リストへの追加」ができます。
-4. ソート項目を切り替えて、どのように結果が変わるでしょうか。
-5. 絞り込み検索は左のバーから行えます。
-- 遺伝子名に「liver」を含むデータは何件あるでしょうか。
-- 「遺伝子名」の下の「条件なし」をクリックして表示されるウインドウに「liver」と入力し、「Include」をクリックし、「この条件で絞り込み」を押します。
-- また「遺伝子名」の項目で「Exclude」に「solute」を加えると、検索結果はどう変わるでしょうか。
-- さらに「必ず含むデータセット」の「ALL」にチェックを入れると、検索結果はどう変わるでしょうか。
-- 右上の「ダウンロード」をクリックすると検索結果のタブ区切りテキストがダウンロードできます。
-6. 各遺伝子の青字の部分(例 [[fibrinogen alpha chain>http://refex.dbcls.jp/testsite/gene_info.php?lang=ja&db=human&geneID=2243&refseq=NM_000508&unigene=Hs.351593&probe=205649_s_at]])をクリックすると詳細情報を閲覧できます。
-7. 「ヒートマップ on Bodyparts3D」では、表示する部位の切り替え(全身・体幹部・頭部)ができます。「皮膚・骨格筋を表示」もしくは「アニメーション表示」にチェックを入れるとどのように表示されるでしょうか。
-8. 「組織40分類別データ」では、バーの上にマウスオーバーすると測定部位と発現値が表示されます。
-9. 「Download」をクリックすると、表示中の遺伝子の組織40分類別の発現データがタブ区切り形式でダウンロードできます。
-10. 「Probe set ID」のリンク先をクリックすると、どういう情報が参照できるでしょうか。
-11. オーソログ対応遺伝子について、ヒトとマウスで比較してみましょう。どのような違いがあるでしょうか。
-12. 個々の遺伝子の詳細情報は、リストに追加することで並列に比較することができます。
-- [[肝臓特異的遺伝子の検索結果一覧>http://bit.ly/16WrPJU]]に移動して、3つの遺伝子を「リストに追加」してみましょう。
-- 追加した件数は「リストを見る」の横に表示されます。
-- 「リストを見る」をクリックするとリストに移動します。
-- 『並べて表示する』にチェックを入れて、「遺伝子を並べて表示」をクリックします。
-- 並列に比較することで見えてくる「違い」はなんでしょうか。 
-13. 自分の研究テーマに関連する、また興味のある遺伝子について検索してみましょう。



**[[&size(20){BioGPS};>http://biogps.org/]] [#bb55f671]
&color(green){ヒト、マウス、ラットのさまざまな組織や細胞(株)における遺伝子発現プロファイルのデータベース};

-[[BioGPS:http://biogps.org/]]はAffymetrix社製のマイクロアレイであるGeneChipを用いたさまざまな組織や細胞(株)遺伝子発現プロファイルのデータベース。
--検索した遺伝子に対して、種々の外部データベースを横断検索することができるだけでなく、それらの設定を保存したり、表示方法を自由にカスタマイズすることができる「Gene annotation portal」。
--外部データベースには、Wikipedia(Gene Wiki)、著名な試薬会社の検索窓へのリンク集、pathway、Nature系DB、モデル生物DB、文献DBなど多種多様
--マウスのエキソンアレイのデータから遺伝子のスプライシングバリアント(Splicing variant)の発現状況も調べることが可能。最近ではCircadian関係のデータも。
-さらに最近のアップデートで、NCBI Gene Expression Omnibus (GEO)中から選抜されたデータセットに切り替えて発現状況を調べることが可能に。


***【実習2】BioGPSを使ってある遺伝子の発現プロファイルを調べる [#b7dd172e]
-[[【復習用】遺伝子発現プロファイルデータベースBioGPSを使い倒す2012>http://togotv.dbcls.jp/20120911.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-[[【以前の講習会動画】遺伝子発現データベースの活用法>http://togotv.dbcls.jp/20100829.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. [[http://biogps.org/>http://biogps.org/]]を開きます。
-2.骨格筋の分化決定遺伝子であるMyogenic differentiation 1(MyoD)の発現プロファイルを調べてみましょう。中央の検索窓に「myod」と入力し、「search」を押します。
-3. 表示された検索結果の中から「ID 4654」をクリックします。
-4. 最初はヒトのマイクロアレイデータが表示されます。
-5. 画面左側の"Current Gene List"は右上の<<アイコンをクリックすると非表示にできます。非表示にすることで画面を広く使うことができます。
-6. ページ内のウインドウは通常のウインドウと同じようにドラッグによる移動やサイズの変更などを行うことができます。 歯車マークのメニューから"Open in browser" を選択すると、新しいタブで表示できます。
-7. "Search" と書かれた窓に単語(組織名など)を入力すると、その単語の含まれた部分が赤くハイライト表示されます。今回は "Muscle" と入力してみます。
-8. "Zoom" のバーを用いることで、グラフの表示範囲を調整することが出来ます。
-9. 発現量を示すバーをクリックすると発現強度の値が表示されます。
-10. マイクロアレイデータ右上の"Species: Hs"をクリックするとマウスやラットを選択できるので、"M. musculus (Mouse)"をクリックしてマウスのデータを表示できます。
-11. MyoDはどの組織、細胞で強く発現しているでしょうか?
-12. 場合によっては"Probeset"のプルダウンメニューから複数の項目を選択できる場合があります。これはどのようなケースが考えられるでしょうか?
-13. "Static Image" をクリックすると、ズームや検索機能などのついていない、画像だけのグラフで表示されます。低スペックなマシンでは、こちらの方が軽快に動作するでしょう。
-14. "Correlation"タブをクリックして検索すると、発現パターンが似ている他の遺伝子を検索できますが、どのような遺伝子が出てくるでしょうか?
-15. "Downloads" をクリックすると現在表示している遺伝子の発現データを CSV 形式でダウンロードできます。
-16. "Dataset"の右にある'change"をクリックすると、デフォルトで用意されているデータセットやNCBI GEO中のデータセットを検索でき、それらのデータに表示を切り替えることができます。"Species: Hs"に切り替えてから、"change"をクリックしたあと、"Default Datasets"から"Barcode on normal tissues (262 samples)"を選択します。どのようにデータが変わったでしょうか。
-17. さらに"Search"からキーワード検索で、GEOのデータを検索してみましょう。"C2C12"と検索するとどのようなデータが選択できるでしょうか。
-18. 右上の「default rayout」をクリックすると、検索した遺伝子に関して種々の外部データベースを横断検索できますが、どのようなデータが閲覧できるのか調べてみましょう。
-19. 左上の「Search」タグをクリックして検索画面にもどり、自分の興味ある遺伝子について同様に検索してみましょう。
すぐに自分の興味ある遺伝子が浮かばない場合は、著名な[[iPS細胞>http://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E5%A4%9A%E8%83%BD%E6%80%A7%E5%B9%B9%E7%B4%B0%E8%83%9E]]を作るために必要な4因子(Oct3/4・Sox2・Klf4・c-Myc)がどの組織で発現しているか、またデータを切り替えて検索してみましょう。

-【余談】 
[[BioGPSのiPhoneアプリ>http://biogps.org/iphone/]]が無料で公開されていますので、「あの遺伝子はどの組織で発現してるのかな?」とふと調べたいときにお手持ちのiPhoneで遺伝子発現を調べられます。


*数十〜数千の遺伝子群の生物学的解釈 [#cb46fe2b]
**[[&size(20){DAVID: The Database for Annotation, Visualization and Integrated Discovery};>http://david.abcc.ncifcrf.gov/]] [#x426b06b]
&color(green){マイクロアレイデータの生物学的な解釈};

> http://david.abcc.ncifcrf.gov/

-マイクロアレイ実験の一般的な目的は、実験条件によって得られた数十〜数千の遺伝子群の発現が生物学的にどういう意味を持つかを考えることです。
#ref(AJACS14/thecla/microarray.analysis.005.png)
-今回は、その方法の一つとして、マイクロアレイの結果に[[Gene Ontology>http://www.google.co.jp/url?sa=t&source=web&cd=4&ved=0CEEQFjAD&url=http%3A%2F%2Fja.wikipedia.org%2Fwiki%2F%25E9%2581%25BA%25E4%25BC%259D%25E5%25AD%2590%25E3%2582%25AA%25E3%2583%25B3%25E3%2583%2588%25E3%2583%25AD%25E3%2582%25B8%25E3%2583%25BC&ei=ve9QTd6XMtG6cbeW1KUH&usg=AFQjCNF8U-O4ktlMGoR9DNC0wKltmbjtmw]]の用語を付与することで、生物学的な解釈を行います。

***マイクロアレイデータの準備 [#wd2c65be]
サンプルデータとして、[[NCBI GEO>http://www.ncbi.nlm.nih.gov/geo/]]より取得した公共の遺伝子発現データを用います。このデータは、ある実験の前後の2群間で有意に発現減少した遺伝子群のリストです。
&br;
→ [[マル秘遺伝子リスト>http://motdb.dbcls.jp/?plugin=attach&refer=AJACS24%2Fhono&openfile=110208_IDlist.txt]]
&br;
(右クリックして「新しいタブで開く」もしくは「名前を付けてリンク先を保存」してください。)
&br;
このデータは、どのような実験から得られたデータなのか、どのように解釈できるのかをDAVIDを使って考察してみましょう!

***【実習3】DAVIDを用いて、発現データの結果を生物学的に解釈する [#t120060f]
-[[【復習用】DAVIDを使ってマイクロアレイデータを解析する 2012>http://togotv.dbcls.jp/20120927.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-[[【復習用】DAVIDの使い方 実践編>http://togotv.dbcls.jp/20130528.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. 上部メニューの「Start Analysis」をクリックします。
-2. 画面左側バーで、probe IDリストをコピペ or ファイルを指定します。
-3. リストのIDの種類タイプを選択します。 … 今回は、「AFFY_ID」と「Gene List」
-4. Submit List をクリックするとリストが読み込まれます。
-5. アップロードしたリストは、左側バーの「List Manager」で「Uploaded List_1」として保存されています。削除やrenameもできます。
-6. 解析を続けます。真ん中の「Functional Annotation Tool」をクリックします。
-7. 「Gene Ontology」をクリックすると、Gene Ontologyを用いた解析の細かいメニューが表示されます。
-8. 今回は、GOTERM_BP_FAT (BP=Biological Process)に注目します。その右の「Chart」をクリックすると結果がポップアップされます。
-9. P-value を2回クリックしてp-valueが小さい(統計的に有意である)順にしてみましょう … p-value小さい順は、一度やればしばらく覚えているので、次からはしばらくは必要ないです
#fold(結果,#ref(AJACS24/hono/david_go_bp.png));
-[応用編] Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみましょう。生物学的にどういうことが言えるでしょうか。
#fold(サンプルデータの答え,Arabidopsis thaliana (シロイヌナズナ)の植物細胞と細胞壁分解酵素を用いて取り除いた植物細胞([[プロトプラスト>http://ja.wikipedia.org/wiki/%E3%83%97%E3%83%AD%E3%83%88%E3%83%97%E3%83%A9%E3%82%B9%E3%83%88]])との比較(=植物細胞の[[脱分化>http://ja.wikipedia.org/wiki/%E3%82%AB%E3%83%AB%E3%82%B9_%28%E6%A4%8D%E7%89%A9%29]]前・後));

&br;
**[[&size(20){PANTHER};>http://pantherdb.org/]] [#e6714e0c]
&color(green){DAVIDに似たマイクロアレイデータの解析ツール};
- DAVIDでの解析結果が芳しくなかった場合に、セカンドオピニオンとして(?)、PANTHERを使ってみるのも手です。
- 先ほどと同じデータを使って、解析結果にどのような違いがあるか調べてみましょう。
&br;

&br;
- しかし、[[PANTHER>http://pantherdb.org/]]では、[[サポートされているID>http://pantherdb.org/tips/tips_batchIdSearch_supportedId.jsp]]が少なく、先ほどのデータのIDはそのまま使えません。
- そこで、まずはIDの変換をします。ID変換ツールとして[[BioMart>http://www.biomart.org/]](([[参考統合TV>http://togotv.dbcls.jp/20110927.html#p01]]))などが有名ですが、今回はDAVIDのID変換機能を紹介します。
&br;

&br;
- ID変換は、「[[Start Analysis>http://david.abcc.ncifcrf.gov/tools.jsp]]」をクリックした先の「Analysis Wizard」の下部にある[[Gene ID Conversion Tool>http://david.abcc.ncifcrf.gov/conversion.jsp]] から行います。
- ID変換したいリストが既にアップロードしてある場合には、そのまま「Option 1: Convert the gene list being selected in left panel to」の項目を、変換したいIDに変え(今回はENTREZ_GENE_ID)、「Submit to Conversion tool」をクリックします。
- ID変換の対応表が出力されます。右上の「Download File」から対応表をダウンロードできます。
&br;
-[[【復習用】DAVIDの使い方 実践編 >http://togotv.dbcls.jp/20130528.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png 後半にID変換の話が出てきます。

&br;
- その後、Entrez Gene ID行のみに整形したテキストファイルをPANTHERにSubmitします。
&br;
→ [[変換済みマル秘遺伝子リスト>http://motdb.dbcls.jp/?plugin=attach&pcmd=open&file=affy_to_geneid.txt&refer=AJACS35%2Fhono]]
&br;


***【実習3-2】PANTHERを用いて、発現データの結果を生物学的に解釈する [#t120060f]
-[[【復習用】PANTHERを使ってマイクロアレイデータを機能解析する>http://togotv.dbcls.jp/20130430.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. トップページのGene List Analysisから遺伝子リストのアップロードをします。
-2. 「Enter IDs:」にコピペするか、「Upload IDs:」から遺伝子リストのファイルをアップロードします。 
-3. 「Select List Type:	」でアップロードするリストの種類を選択します。今回は、「ID List」を選択します。
-4. 続いて、「2.Select organism.」 で生物種を選択します。今回は、「Arabidopsis thaliana」を選択します。
-5. 「3.Select Analysis.」で「Statistical overrepresentation test」を選択し、Submit します。
-6. 「Select lists to analyze」で、解析するリストを確定します。続けてアップロードするリストがある場合には、ここで追加します。リストが選択されていることを確認したら、「Finished selecting lists」をクリックします。
-7. 次にSelect Reference Listを選択します。(デフォルトではSelect List(s)で選んだ生物種のwhole-genome listが選択されるので、他の生物種と比較を行いたい場合は適宜選び直してください。)
-8. 最後に、Search optionsを指定します。今回はデフォルトのまま GO Biological Process にチェックを入れておきます。 
-9. Launch Analysisをクリックして分析結果を表示します。 
-7. まず、P-valueの昇順でリストが表示されます。どのようなGO termが上位に来ているでしょうか。またそれらをDAVIDと比較してみましょう。
-8. [応用編] Viewを切り替えて、さまざまなグラフ形式で解析結果を見てみましょう。生物学的にどういうことが言えるでしょうか。
-9. その他のデータではどのような結果が表示されるでしょうか。[[参考動画で使われているヒトの脂肪細胞の分化過程(GSE1657)で発現増加した上位500個の遺伝子群のEntrez Gene IDリスト>http://motdb.dbcls.jp/?plugin=attach&pcmd=open&file=gse1657_adipo_up500_geneid.txt&refer=AJACS38%2Fhono2]]
----


*NCBI GEOを用いたマイクロアレイデータ解析 (データの検索・生データの取得・統計解析・可視化) [#n6fd3a54]
**[[&size(20){NCBI Gene Expression Omnibus (GEO)};>http://www.ncbi.nlm.nih.gov/geo/]] [#z337008a]
&color(green){世界最大の遺伝子発現([[マイクロアレイ>http://ja.wikipedia.org/wiki/DNA%E3%83%9E%E3%82%A4%E3%82%AF%E3%83%AD%E3%82%A2%E3%83%AC%E3%82%A4]])データベース(レポジトリ)};

> http://www.ncbi.nlm.nih.gov/geo/

***[[GEO>http://www.ncbi.nlm.nih.gov/geo/]]のエントリについて [#lca52056]

     GEO ID 番号の最初の3文字が
     GPL:  プラットフォーム(マイクロアレイ等の型番)
     GSM: サンプル(1枚のマイクロアレイから出たデータ)
     GSE:  シリーズ(1つの実験で出たデータを集めたもの。通常複数の GSM からなる)
     GDS:  データセット(NCBIで比較可能なデータを集めて再編成したもの。GEO上で簡単な解析が可能)
&br;&br;
***【実習4】データセットブラウザ(Dataset browser)を利用して、GEOに登録されているマイクロアレイデータを解析する [#p112cdc5]
-[[【復習用1】NCBI GEOの使い方3〜データセットブラウザの使い方1〜 2012>http://togotv.dbcls.jp/20120128.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-[[【復習用2】NCBI GEOの使い方4〜データセットブラウザの使い方2〜 2012>http://togotv.dbcls.jp/20120227.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. [[http://www.ncbi.nlm.nih.gov/geo/>http://www.ncbi.nlm.nih.gov/geo/]]を開きます。
-2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
-3. 今回は例として「[[nanog>http://www.google.co.jp/search?hl=ja&q=Nanog%E9%81%BA%E4%BC%9D%E5%AD%90]]」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
-4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験におけるnanog遺伝子の発現データが表示されます。
-5. 検索結果の[[アクセッション番号(今回は GDS2294)>http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS2294]]をクリックすると、解析用の「データセットブラウザ」が開きます。
-6. 「[[Expression profiles>http://www.ncbi.nlm.nih.gov/geoprofiles?term=GDS2294[ACCN]]」をクリックすると、[[この実験データセットにおける個々の遺伝子発現状況を検索できるページ>http://www.ncbi.nlm.nih.gov/sites/entrez?db=geo&cmd=search&term=GDS2294[ACCN]]に飛びます。
-7. 検索窓に表示されているアクセッション番号の後に続けて遺伝子名を追加(今回は例として [[Oct4>http://www.google.co.jp/search?q=Oct4]] )すると、この実験データセット内におけるその遺伝子の発現データが検索できます。
-8. 「データセットブラウザ」の「[[Data Analysis Tools>http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS2294#details]]」では詳細なデータ解析が可能です。
-9. 「Find gene name or symbol:」のところに自分の興味ある遺伝子名を入れてみましょう。
-10. 「Find genes that are up/down for this condition(s):」の「GO」をクリックするとどのような遺伝子がヒットするでしょうか。
-11. 「Compare 2 sets of samples」では2群間で発現に差のある遺伝子を(統計学的に)検索できます。step1で発現量の違いを検出する方法を設定します。step.2で比較する2群の設定をします。step.3の「Query Group A vs. B」をクリックすると、検索が始まります。
-12. 「Cluster heatmaps」では、マイクロアレイデータ解析でよく用いられる[[ヒートマップ>http://images.google.co.jp/images?q=ヒートマップ]]でのデータ表示が行なえます。分類方法としてHierarchical、Partitional (K-means/K-medians)、By location on chromosomeの3種類が選べますが、それぞれどのようにデータが分類されるか試してみましょう。
-13. ヒートマップ上をクリックすると領域選択が開始されます。リサイズや移動で範囲を決定した後、Stack up をクリックすると選択した範囲が拡大されます。 
-14. サンプルの内容とIDの対応は、元のページに戻って、Sample Subsets から確認できます。
-15. さらに範囲選択して、Plot values をクリックすると、各遺伝子のサンプルごとの発現の様子がプロットで確認できます。 
-16. 範囲選択して、View in Entrez をクリックすると、選択範囲内のデータを棒グラフで見られます。 
-17. 範囲選択して、Download をクリックすると、選択範囲内のデータがテキスト形式でダウンロードできます。 
-18.  「Experiment design and value distribution」では実験データにおける発現の分布を参照できます。これにより、各サンプルのデータが互いに比較可能か(実験上のミスがないか)チェックすることができます。

***【省略】GEO2Rを利用して、GEOに登録されているマイクロアレイデータを解析する [#r4b74645]
-[[【復習用】NCBI GEOの使い方5〜GEO2Rを使う〜>http://togotv.dbcls.jp/20120524.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. [[http://www.ncbi.nlm.nih.gov/geo/>http://www.ncbi.nlm.nih.gov/geo/]]を開きます。
-2. 画面中央下の「[[Series>http://www.ncbi.nlm.nih.gov/geo/browse/?view=series]]」をクリックします。
-3. 検索機能を使って興味のある実験データセットを探すことができます。
-4. 今回は喫煙による遺伝子発現の変化に関するデータについて調べたいというモチベーションを例にするので、「cigarette smoke」と入力し、検索します。
-5. [[GSE17913 - Effects of Cigarette Smoke on the Human Oral Mucosal Transcriptome>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17913]] という喫煙による口腔粘膜の遺伝子発現を調べたデータセットが見つかったので、「[[GSE17913>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17913]]」をクリックします。
-6. 今回のテーマであるGEO2Rへのリンクはページ下部にあるので、リンクをクリックし[[GEO2Rのページに移動>http://www.ncbi.nlm.nih.gov/geo/geo2r/?acc=GSE17913]]します。
-7. このデータセットに含まれるサンプルの一覧が表示されます。列見出しをクリックすると各項目でソートできます。「Title」をクリックすると、今回のデータセットが、喫煙者・非喫煙者のそれぞれ男性・女性の頬粘膜(buccal mucosa)から得られたサンプルであることがわかります。
-8. 比較したいグループをそれぞれ設定します。「Define groups」をクリックして、それぞれのグループ名を入力します。今回は、非喫煙者の女性(never_smoker_F)と、喫煙者の女性(smoker_F)のサンプルをそれぞれグループ化します。

&color(red){(※GEO2Rの各ジョブの実行は時間がかかるので要注意。講習では[[復習用統合TV>http://togotv.dbcls.jp/20120524.html#p01]]の実行結果を見ながら進めるので、実行しないでください。)};

-9. グループに入れたいサンプルをクリックやドラッグで選択してからグループ名をクリックすると、サンプルがグループに登録されます。
-10. 次に、「Samples」をクリックした後、「Value distribution」タブをクリックし、「View」をクリックすると各サンプルの発現分布を調べることができます。
-11. 発現分布が箱ひげ図で示されます。データセットブラウザと異なり、GEO2R では投稿された生のデータを用いて解析されます。
-12. "Export" をクリックすると、箱ひげ図で与えられている値をまとめたタブ区切りテキストが表示され、これらを保存できます。 
-13. GEO2R タブに戻り、"Top 250" をクリックすると、選択したグループ間で各遺伝子の発現量に差があるかどうかの t 検定の結果、P 値が小さい順に 250 件表示されます。"P.Value" は元の P 値、"adj.P.Val" は多重検定の補正をかけた後の P 値です。有意性の評価は adj.P.Val に基づいています。 
"t" は普通の t の標準偏差を全遺伝子の標準偏差を用いて調整したもの (moderated-t) です。普通の t より精度が上がっていますが、普通の t 分布に従うものとして扱えます。 "B" は2つのグループで発現量が異なっている対数オッズ値です。exp(B)/(1+exp(B)) の値が、発現量が異なっている確率で
す。"logFC" は、発現量の差が何倍であるかを2底の対数にしたものです。つまり値が 2 なら 4 倍の差を示しています。ここでの解析では発現量が対数で与えられている必要がありますが、元のデータでは対数になっていないことがあります。そのような場合デフォルトでは自動検出し、対数変換して計算してくれます。その上でこのような表示がされます。
-14. 行をクリックすると、その行の遺伝子の各サンプルでの発現量グラフが見られます。
-15. 今回喫煙者女性・非喫煙者女性間で最も差が大きいとされた遺伝子であるシトクロム P450 (異物代謝に関わる遺伝子)は、喫煙者群で有意に発現増加したことがわかります。
-16. "Sample values" をクリックすると、発現量の値が一覧できます。 
-17. "Select columns" をクリックすると、表示するカラムを変更できます。 "logFC" を消し "GO.Function" を追加してみましょう。
-18. "Save all results" をクリックすると、結果をテキストで表示・保存できます。
-19. Options タブをクリックすると、いくつかの設定を変更できます。右の項目は多重検定の補正法の選択です。デフォルトでは Benjamini & Hochberg の方法が使われていますが、これを Bonferroni の方法に変更してみます。中央はデータの対数をとるかどうかの選択です。デフォルトでは先程説明したとおり自動検出です。左の項目はプラットフォームの注釈の選択です。"NCBI generated" がある場合はそれの方が信頼できます。
-20. Options に変更を加えたら、GEO2R タブに戻って "Recalculate" をクリックします。 変更を反映した計算結果が表示され、多重検定の補正法を変更したため、adj.P.Val が変わっていることがわかります。
-21. Profile graph の項目では、プローブ ID を元に、個々の遺伝子の発現状況を調べることができます。
-22. 「View data for (platform ID)」をpクリックするとプラットフォームの情報が表示されるので、目的の遺伝子のプローブ ID を、ブラウザの検索機能 (Ctrl+F)を用いて調べます。今回は例としてNFE2L2(酸化ストレスによって活性化する転写因子)を検索してみましょう。
-23. 一番左がプローブIDなので、これをコピーし、さきほどの"Enter ID" の窓にプローブ ID をペーストし、"Set" をクリックすると。発現量のグラフが表示されます。(なおこの操作では、何の計算も実行されないので、検定の結果の P 値を調べることはできません。)
-24. R script タブをクリックするとこれまでに実際に実行された R のスクリプトを見ることができます。これを参考に、手元の R でパラメータを調整するなどして更なる解析を行うことができます。
- R の使い方については、下記の統合TV のコンテンツ「統計解析ソフト「R」の使い方」シリーズをご覧ください。
-[[統計解析ソフト「R」の使い方 〜導入編〜>http://togotv.dbcls.jp/20090618.html#p01]] 
-[[統計解析ソフト「R」の使い方 〜ヒートマップ編〜>http://togotv.dbcls.jp/20091219.html#p01]] 
-[[統計解析ソフト「R」での立廻り>http://togotv.dbcls.jp/20111107.html#p01]] 

***【省略】GEOを使って、自分の興味のある遺伝子の(ある実験条件下における)発現状況を調べる [#a83d5bfe]
-[[【復習用】NCBI GEOの使い方2〜遺伝子プロファイルの検索・処理済みデータの取得〜 2011>http://togotv.dbcls.jp/20111020.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. [[http://www.ncbi.nlm.nih.gov/geo/>http://www.ncbi.nlm.nih.gov/geo/]]を開きます。
-2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
-3. 今回は例として「[[nanog>http://www.google.co.jp/search?hl=ja&q=Nanog%E9%81%BA%E4%BC%9D%E5%AD%90]]」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
-4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
-5. 検索結果の右端にある画像をクリックすると、[[発現データの詳細をみる>http://www.ncbi.nlm.nih.gov/geo/gds/profileGraph.cgi?&dataset=DEAryz&dataset=yyyzzz$&gmin=5173.000000&gmax=11680.000000&absc=&gds=2294&idref=161072_at&annot=Nanog]]ことができます。
-6. [[このサンプル(GDS2294)>http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS2294]]では、nanogはどういう細胞のどういう実験条件で発現が増減しているか調べてみましょう。
-7. ページ下部の「samples」に列挙された[[リンク>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM130365]]をクリックすると、そのサンプル(一枚のマイクロアレイ)の詳細を閲覧できます。
-8. [[リンク先のページ>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM130365]]の中ほどにある[[「series」のリンク>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE5583]]をクリックすると、この実験全体の詳細情報が見られます。
-9. [[この実験全体の詳細情報ページ>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE5583]]の下部にある[[「Series Matrix File(s)」>ftp://ftp.ncbi.nih.gov/pub/geo/DATA/SeriesMatrix/GSE5583/]]をクリックすると、この実験の正規化補正済みのマイクロアレイデータをダウンロードすることができます。

***【省略】GEOを使って、自分の興味のあるマイクロアレイ実験データセットを検索&生データをダウンロードする [#ze44dc22]
-[[【復習用】NCBI GEOの使い方1〜マイクロアレイデータの検索・取得〜 2011>http://togotv.dbcls.jp/20110711.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. [[http://www.ncbi.nlm.nih.gov/geo/>http://www.ncbi.nlm.nih.gov/geo/]]を開きます。
-2. 画面中央の「Platforms」をクリックします。
-3. [[Platform(マイクロアレイの種類)の一覧画面が現れる>http://www.informatics.jax.org/javawi2/servlet/WIFetch?page=imageSummaryByMrk&key=25000&imageType=8]]ので、上部の「FIND PLATFORM」をクリックします。
-4. [[platformの検索画面>http://www.ncbi.nlm.nih.gov/geo/query/browse.cgi?mode=findplatform]]が現れるので、「Company name」に「Affymetrix」、「organism」に「Homo sapiens」を選択し、「FIND PLATFORM」をクリックします。
-5. [[Affymetrixのヒトのマイクロアレイの検索結果>http://www.ncbi.nlm.nih.gov/geo/query/browse.cgi?mode=foundplatform]]が表示されるので、中程にある「Affymetrix GeneChip Human Genome U133 Plus 2.0 Array」の左端にある[[「GPL570」というID>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570]]をクリックします。
-6. [[表示された画面>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570]]の真ん中あたりにある「series」下の「More...」をクリックすると、登録されているデータセットを閲覧できます。
-7. ブラウザの検索ボタンなどを使って「reprogramming」という単語を検索するとどういうデータがヒットするでしょうか?
-8. ヒットしたデータの左端にあるIDをクリックすると、[[そのデータセットの詳細情報>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE9832]]が閲覧できます
-9. ページ下部の「Download family」の中にある「Series Matrix File(s)」をクリックすると正規化済みのデータのダウンロードリンクが表示されます。
-10. ページ最下部の「Supplementary file」にあるリンクから生データをダウンロードすることができます。
-11. 自分の研究テーマに近い、また興味のあるマイクロアレイデータが利用可能か検索してみましょう。



**【参考1】[[遺伝子発現バンク(GEO)目次、通称「GEO目次」>http://lifesciencedb.jp/geo/]] [#b6353d6e]
-[[使い方参考動画 遺伝子発現バンク(GEO)目次を使い倒す−その壱>http://togotv.dbcls.jp/20080623.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-NCBI GEO を日本語のインターフェイスで快適に使い、データの全容を俯瞰するための仕組みです。数多く登録されている遺伝子発現データの大まかな傾向をつかむのに役に立つことでしょう。
-検索結果のRSS配信機能があるので、これを活用して、遺伝子発現データの新規登録の有無をチェックできます(便利!)。