AJACS38
目次
マイクロアレイデータの生物学的な解釈
http://david.abcc.ncifcrf.gov/
- マイクロアレイ実験の一般的な目的は、実験条件によって得られたある遺伝子群の発現が生物学的にどういう意味を持つかを考えることです。
- 今回は、その方法の一つとして、マイクロアレイの結果にGene Ontologyの用語を付与することで、生物学的な解釈を行います。
_ マイクロアレイデータの準備
サンプルデータとして、NCBI GEOより取得した公共の遺伝子発現データを用います。このデータは、ある実験の前後の2群間で有意に発現減少した遺伝子群のリストです。
→ マル秘遺伝子リスト
(右クリックして「新しいタブで開く」もしくは「名前を付けてリンク先を保存」してください。)
このデータは、どのような実験から得られたデータなのか、どのように解釈できるのかをDAVIDを使って考察してみましょう!
_ 【実習3】DAVIDを用いて、発現データの結果を生物学的に解釈する
- 【復習用】DAVIDを使ってマイクロアレイデータを解析する 2012

- 【復習用】DAVIDの使い方 実践編

- 1. 上部メニューの「Start Analysis」をクリックします。
- 2. 画面左側バーで、probe IDリストをコピペ or ファイルを指定します。
- 3. リストのIDの種類タイプを選択します。 … 今回は、「AFFY_ID」と「Gene List」
- 4. Submit List をクリックするとリストが読み込まれます。
- 5. アップロードしたリストは、左側バーの「List Manager」で「Uploaded List_1」として保存されています。削除やrenameもできます。
- 6. 解析を続けます。真ん中の「Functional Annotation Tool」をクリックします。
- 7. 「Gene Ontology」をクリックすると、Gene Ontologyを用いた解析の細かいメニューが表示されます。
- 8. 今回は、GOTERM_BP_FAT (BP=Biological Process)に注目します。その右の「Chart」をクリックすると結果がポップアップされます。
- 9. P-value を2回クリックしてp-valueが小さい(統計的に有意である)順にしてみましょう … p-value小さい順は、一度やればしばらく覚えているので、次からはしばらくは必要ないです
- [応用編] Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみましょう。生物学的にどういうことが言えるでしょうか。
Arabidopsis thaliana (シロイヌナズナ)の植物細胞と細胞壁分解酵素を用いて取り除いた植物細胞(プロトプラスト)との比較(=植物細胞の脱分化前・後)
- ところで、DAVIDと似たようなWebツールにPANTHERがあります。
http://pantherdb.org/
- 先ほどと同じデータを使って、解析結果にどのような違いがあるか調べてみましょう。
- ID変換は、「Start Analysis」をクリックした先の「Analysis Wizard」の下部にあるGene ID Conversion Tool から行います。
- ID変換したいリストが既にアップロードしてある場合には、そのまま「Option 1: Convert the gene list being selected in left panel to」の項目を、変換したいIDに変え(今回はENTREZ_GENE_ID)、「Submit to Conversion tool」をクリックします。
- ID変換の対応表が出力されます。右上の「Download File」から対応表をダウンロードできます。
- その後、Entrez Gene ID行のみに整形したテキストファイルをPANTHERにSubmitします。
→ 変換済みマル秘遺伝子リスト
_ 【実習3-2】PANTHERを用いて、発現データの結果を生物学的に解釈する
- 【復習用】PANTHERを使ってマイクロアレイデータを機能解析する

- 1. トップページのGene List Analysisから遺伝子リストのアップロードをします。
- 2. 「Enter IDs:」にコピペするか、「Upload IDs:」から遺伝子リストのファイルをアップロードします。
- 3. 「Select List Type: 」でアップロードするリストの種類を選択します。今回は、「ID List」を選択します。
- 4. 続いて、「2.Select organism.」 で生物種を選択します。今回は、「Arabidopsis thaliana」を選択します。
- 5. 「3.Select Analysis.」で「Statistical overrepresentation test」を選択し、Submit します。
- 6. 「Select lists to analyze」で、解析するリストを確定します。続けてアップロードするリストがある場合には、ここで追加します。リストが選択されていることを確認したら、「Finished selecting lists」をクリックします。
- 7. 次にSelect Reference Listを選択します。(デフォルトではSelect List(s)で選んだ生物種のwhole-genome listが選択されるので、他の生物種と比較を行いたい場合は適宜選び直してください。)
- 8. 最後に、Search optionsを指定します。今回はデフォルトのまま GO Biological Process にチェックを入れておきます。
- 9. Launch Analysisをクリックして分析結果を表示します。
- 7. まず、P-valueの昇順でリストが表示されます。どのようなGO termが上位に来ているでしょうか。またそれらをDAVIDと比較してみましょう。
- 8. [応用編] Viewを切り替えて、さまざまなグラフ形式で解析結果を見てみましょう。生物学的にどういうことが言えるでしょうか。
- 9. その他のデータではどのような結果が表示されるでしょうか。参考動画で使われているヒトの脂肪細胞の分化過程(GSE1657)で発現増加した上位500個の遺伝子群のEntrez Gene IDリスト
世界最大の遺伝子発現(マイクロアレイ)データベース(レポジトリ)
http://www.ncbi.nlm.nih.gov/geo/
_ GEOのエントリについて
GEO ID 番号の最初の3文字が
GPL: プラットフォーム(マイクロアレイ等の型番)
GSM: サンプル(1枚のマイクロアレイから出たデータ)
GSE: シリーズ(1つの実験で出たデータを集めたもの。通常複数の GSM からなる)
GDS: データセット(NCBIで比較可能なデータを集めて再編成したもの。GEO上で簡単な解析が可能)
_ 【実習4】データセットブラウザ(Dataset browser)を利用して、GEOに登録されているマイクロアレイデータを解析する
- 【復習用1】NCBI GEOの使い方3〜データセットブラウザの使い方1〜 2012

- 【復習用2】NCBI GEOの使い方4〜データセットブラウザの使い方2〜 2012

- 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
- 2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
- 3. 今回は例として「nanog」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
- 4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験におけるnanog遺伝子の発現データが表示されます。
- 5. 検索結果のアクセッション番号(今回は GDS2294)をクリックすると、解析用の「データセットブラウザ」が開きます。
- 6. 「Expression profiles」をクリックすると、この実験データセットにおける個々の遺伝子発現状況を検索できるページに飛びます。
- 7. 検索窓に表示されているアクセッション番号の後に続けて遺伝子名を追加(今回は例として Oct4 )すると、この実験データセット内におけるその遺伝子の発現データが検索できます。
- 8. 「データセットブラウザ」の「Data Analysis Tools」では詳細なデータ解析が可能です。
- 9. 「Find gene name or symbol:」のところに自分の興味ある遺伝子名を入れてみましょう。
- 10. 「Find genes that are up/down for this condition(s):」の「GO」をクリックするとどのような遺伝子がヒットするでしょうか。
- 11. 「Compare 2 sets of samples」では2群間で発現に差のある遺伝子を(統計学的に)検索できます。step1で発現量の違いを検出する方法を設定します。step.2で比較する2群の設定をします。step.3の「Query Group A vs. B」をクリックすると、検索が始まります。
- 12. 「Cluster heatmaps」では、マイクロアレイデータ解析でよく用いられるヒートマップでのデータ表示が行なえます。分類方法としてHierarchical、Partitional (K-means/K-medians)、By location on chromosomeの3種類が選べますが、それぞれどのようにデータが分類されるか試してみましょう。
- 13. ヒートマップ上をクリックすると領域選択が開始されます。リサイズや移動で範囲を決定した後、Stack up をクリックすると選択した範囲が拡大されます。
- 14. サンプルの内容とIDの対応は、元のページに戻って、Sample Subsets から確認できます。
- 15. さらに範囲選択して、Plot values をクリックすると、各遺伝子のサンプルごとの発現の様子がプロットで確認できます。
- 16. 範囲選択して、View in Entrez をクリックすると、選択範囲内のデータを棒グラフで見られます。
- 17. 範囲選択して、Download をクリックすると、選択範囲内のデータがテキスト形式でダウンロードできます。
- 18. 「Experiment design and value distribution」では実験データにおける発現の分布を参照できます。これにより、各サンプルのデータが互いに比較可能か(実験上のミスがないか)チェックすることができます。
_ 【省略】GEO2Rを利用して、GEOに登録されているマイクロアレイデータを解析する
(※GEO2Rの各ジョブの実行は時間がかかるので要注意。講習では復習用統合TVの実行結果を見ながら進めるので、実行しないでください。)
- 9. グループに入れたいサンプルをクリックやドラッグで選択してからグループ名をクリックすると、サンプルがグループに登録されます。
- 10. 次に、「Samples」をクリックした後、「Value distribution」タブをクリックし、「View」をクリックすると各サンプルの発現分布を調べることができます。
- 11. 発現分布が箱ひげ図で示されます。データセットブラウザと異なり、GEO2R では投稿された生のデータを用いて解析されます。
- 12. "Export" をクリックすると、箱ひげ図で与えられている値をまとめたタブ区切りテキストが表示され、これらを保存できます。
- 13. GEO2R タブに戻り、"Top 250" をクリックすると、選択したグループ間で各遺伝子の発現量に差があるかどうかの t 検定の結果、P 値が小さい順に 250 件表示されます。"P.Value" は元の P 値、"adj.P.Val" は多重検定の補正をかけた後の P 値です。有意性の評価は adj.P.Val に基づいています。
"t" は普通の t の標準偏差を全遺伝子の標準偏差を用いて調整したもの (moderated-t) です。普通の t より精度が上がっていますが、普通の t 分布に従うものとして扱えます。 "B" は2つのグループで発現量が異なっている対数オッズ値です。exp(B)/(1+exp(B)) の値が、発現量が異なっている確率で
す。"logFC" は、発現量の差が何倍であるかを2底の対数にしたものです。つまり値が 2 なら 4 倍の差を示しています。ここでの解析では発現量が対数で与えられている必要がありますが、元のデータでは対数になっていないことがあります。そのような場合デフォルトでは自動検出し、対数変換して計算してくれます。その上でこのような表示がされます。
- 14. 行をクリックすると、その行の遺伝子の各サンプルでの発現量グラフが見られます。
- 15. 今回喫煙者女性・非喫煙者女性間で最も差が大きいとされた遺伝子であるシトクロム P450 (異物代謝に関わる遺伝子)は、喫煙者群で有意に発現増加したことがわかります。
- 16. "Sample values" をクリックすると、発現量の値が一覧できます。
- 17. "Select columns" をクリックすると、表示するカラムを変更できます。 "logFC" を消し "GO.Function" を追加してみましょう。
- 18. "Save all results" をクリックすると、結果をテキストで表示・保存できます。
- 19. Options タブをクリックすると、いくつかの設定を変更できます。右の項目は多重検定の補正法の選択です。デフォルトでは Benjamini & Hochberg の方法が使われていますが、これを Bonferroni の方法に変更してみます。中央はデータの対数をとるかどうかの選択です。デフォルトでは先程説明したとおり自動検出です。左の項目はプラットフォームの注釈の選択です。"NCBI generated" がある場合はそれの方が信頼できます。
- 20. Options に変更を加えたら、GEO2R タブに戻って "Recalculate" をクリックします。 変更を反映した計算結果が表示され、多重検定の補正法を変更したため、adj.P.Val が変わっていることがわかります。
- 21. Profile graph の項目では、プローブ ID を元に、個々の遺伝子の発現状況を調べることができます。
- 22. 「View data for (platform ID)」をpクリックするとプラットフォームの情報が表示されるので、目的の遺伝子のプローブ ID を、ブラウザの検索機能 (Ctrl+F)を用いて調べます。今回は例としてNFE2L2(酸化ストレスによって活性化する転写因子)を検索してみましょう。
- 23. 一番左がプローブIDなので、これをコピーし、さきほどの"Enter ID" の窓にプローブ ID をペーストし、"Set" をクリックすると。発現量のグラフが表示されます。(なおこの操作では、何の計算も実行されないので、検定の結果の P 値を調べることはできません。)
- 24. R script タブをクリックするとこれまでに実際に実行された R のスクリプトを見ることができます。これを参考に、手元の R でパラメータを調整するなどして更なる解析を行うことができます。
- R の使い方については、下記の統合TV のコンテンツ「統計解析ソフト「R」の使い方」シリーズをご覧ください。
- 統計解析ソフト「R」の使い方 〜導入編〜
- 統計解析ソフト「R」の使い方 〜ヒートマップ編〜
- 統計解析ソフト「R」での立廻り
_ 【省略】GEOを使って、自分の興味のある遺伝子の(ある実験条件下における)発現状況を調べる
_ 【省略】GEOを使って、自分の興味のあるマイクロアレイ実験データセットを検索&生データをダウンロードする
- 使い方参考動画 遺伝子発現バンク(GEO)目次を使い倒す−その壱

- NCBI GEO を日本語のインターフェイスで快適に使い、データの全容を俯瞰するための仕組みです。数多く登録されている遺伝子発現データの大まかな傾向をつかむのに役に立つことでしょう。
- 検索結果のRSS配信機能があるので、これを活用して、遺伝子発現データの新規登録の有無をチェックできます(便利!)。
参考統合TV