MotDB


AJACS18/hono2

AJACS18

遺伝子発現データベースを使い倒す    担当:小野浩雅

目次

_ 遺伝子発現データベースに関する統合TV

_ BioGPS

ヒト、マウス、ラットのさまざまな組織や細胞(株)における遺伝子発現プロファイルのデータベース

  • BioGPSはAffymetrix社製のマイクロアレイであるGeneChip?を用いた遺伝子発現プロファイルのデータベース。
  • GNF SymAtlas【参考動画】のメジャーアップデート版。
  • マウスのエキソンアレイのデータが追加されたので、遺伝子のスプライシングバリアント(Splicing variant)の発現状況も調べることが可能。
  • 検索した遺伝子に対して、種々の外部データベースに横断検索することができる。

_ 【実習1】BioGPSを使ってある遺伝子の発現プロファイルを調べる

  • 【使い方参考動画】【講習会動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. https://biogps.gnf.org/を開きます。
  • 2.骨格筋の分化決定遺伝子であるMyogenic differentiation 1(MyoD)の発現プロファイルを調べてみましょう。中央の検索窓に「myod」と入力し、「search」を押します。
  • 3. 表示された検索結果をクリックします。
  • 4. 最初はヒトのマイクロアレイデータが表示されます。
  • 5. マイクロアレイデータ左上の「Human(4654)」をクリックするとマウスやラットを選択できるので、「Mouse(17927)」をクリックしてマウスのデータを表示できます。
  • 6. MyoDはどの組織、細胞で強く発現しているでしょうか?
  • 7. 右上の「default rayout」をクリックすると、検索した遺伝子に関するマイクロアレイデータ以外のデータが閲覧できますが、どのようなデータが閲覧できるのか調べてみましょう。
  • 8. 左上の「Search」タグをクリックして検索画面にもどり、自分の興味ある遺伝子について同様に検索してみましょう。

_ NCBI Gene Expression Omnibus (GEO)

世界最大の遺伝子発現(マイクロアレイ)データベース(レポジトリ)

_ 【実習2】GEOを使って、自分の興味のある遺伝子の(ある実験条件下における)発現状況を調べる

  • 【使い方参考動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
  • 3. 今回は例として「nanog」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
  • 4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
  • 5. 検索結果の右端にある画像をクリックすると、発現データの詳細をみることができます。
  • 6. 「Display values」をクリックすると、発現値を一覧できます。
  • 7. このサンプルでは、nanogはどういう細胞のどういう実験条件で発現が増減しているか調べてみましょう。
  • 8. ページ下部の「samples」に列挙されたリンクをクリックすると、そのサンプル(一枚のマイクロアレイ)の詳細を閲覧できます。
  • 9. リンク先のページの中ほどにある「series」のリンクをクリックすると、この実験全体の詳細情報が見られます。
  • 10. この実験全体の詳細情報ページの下部にある「Series Matrix File(s)」をクリックすると、この実験の正規化補正済みのマイクロアレイデータをダウンロードすることができます。

_ 【実習3】データセットブラウザ(Dataset browser)を利用して、GEOに登録されているマイクロアレイデータを解析する

  • 【使い方参考動画1】http://lifesciencedb.jp/image/small_video_icon.png【使い方参考動画2】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
  • 3. 今回は例として「nanog」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
  • 4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
  • 5. 検索結果のアクセッション番号(今回は GDS2294)をクリックすると、解析用の「データセットブラウザ」が開きます。
  • 6. 「Expression profiles」をクリックすると、この実験データセットにおける個々の遺伝子発現状況を検索できるページに飛びます。
  • 7. 検索窓に表示されているアクセッション番号の後に続けて遺伝子名を追加(今回は例として Oct4 )すると、この実験データセット内におけるその遺伝子の発現データが検索できます。
  • 8. 「データセットブラウザ」の「Data Analysis Tools」では詳細なデータ解析が可能です。
  • 9. 「Find gene name or symbol:」のところに自分の興味ある遺伝子名を入れてみましょう。
  • 10. 「Find genes that are up/down for this condition(s):」の「GO」をクリックするとどのような遺伝子がヒットするでしょうか。
  • 11. 「Compare 2 sets of samples」では2群間で発現に差のある遺伝子を(統計学的に)検索できます。step1で発現量の違いを検出する方法を設定します。step.2で比較する2群の設定をします。step.3の「Query Group A vs. B」をクリックすると、検索が始まります。
  • 12. 「Cluster heatmaps」では、マイクロアレイデータ解析でよく用いられるヒートマップでのデータ表示が行なえます。分類方法としてHierarchical、Partitional (K-means/K-medians)、By location on chromosomeの3種類が選べますが、それぞれどのようにデータが分類されるか試してみましょう。
  • 13. 「Experiment design and value distribution」では実験データにおける発現の分布を参照できます。これにより、各サンプルのデータが互いに比較可能か(実験上のミスがないか)チェックすることができます。

_ 【実習4】GEOを使って、自分の興味のあるマイクロアレイ実験データセットを検索&生データをダウンロードする

  • 【使い方参考動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2. 画面中央の「Platforms」をクリックします。
  • 3. Platform(マイクロアレイの種類)の一覧画面が現れるので、上部の「FIND PLATFORM」をクリックします。
  • 4. platformの検索画面が現れるので、「Company name」に「Affymetrix」、「organism」に「Homo sapiens」を選択し、「FIND PLATFORM」をクリックします。
  • 5. Affymetrixのヒトのマイクロアレイの検索結果が表示されるので、中程にある「Affymetrix GeneChip? Human Genome U133 Plus 2.0 Array」の左端にある「GPL570」というIDをクリックします。
  • 6. 表示された画面の真ん中あたりにある「series」下の「More...」をクリックすると、登録されているデータセットを閲覧できます。
  • 7. ブラウザの検索ボタンなどを使って「reprogramming」という単語を検索するとどういうデータがヒットするでしょうか?
  • 8. ヒットしたデータの左端にあるIDをクリックすると、そのデータセットの詳細情報が閲覧できます
  • 9. ページ下部の「Download family」の中にある「Series Matrix File(s)」をクリックすると正規化済みのデータのダウンロードリンクが表示されます。
  • 10. ページ最下部の「Supplementary file」にあるリンクから生データをダウンロードすることができます。
  • 11. 自分の研究テーマに近い、また興味のあるマイクロアレイデータが利用可能か検索してみましょう。

_ 【参考】遺伝子発現バンク(GEO)目次、通称「GEO目次」

  • 使い方参考動画 http://lifesciencedb.jp/image/small_video_icon.png
  • NCBI GEO を日本語のインターフェイスで快適に使い、データの全容を俯瞰するための仕組み
  • 今後さらに使いやすくアップデート予定

_ BioMart?

クリックしていくだけで自分の欲しいデータが手に入る

_ マイクロアレイデータの準備

サンプルデータとして、NCBI GEOより取得した公共の遺伝子発現データ(GSE1657:Adipocyte Differentiation[Homo sapiens])を用いて、ヒトの脂肪細胞の分化前後で発現増加した上位500個の遺伝子群のリストを使います。

(右クリックして「名前を付けてリンク先を保存」してください。)

_ 【実習】BioMart?を使って、マイクロアレイデータのIDに対応したGO termのリストを取得する

  • 【使い方参考動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.biomart.org/を開きます。
  • 2.リスト中のEnsemblをクリックします。
  • 3. 「-CHOOSE DATABASE-」のプルダウンメニューを「Ensembl 55」に設定します。
  • 4. 「-CHOOSE DATASET-」のプルダウンメニューを「Homo sapiens genes (GRCh37)」に設定します。
  • 5. 左端の「Filters」をクリックし、出現する「GENE」の+ボタンをクリックして展開します。
  • 6. 「ID list limit」にチェックを入れ、「Affy hg u133a ID(s)」を選択し、「参照」ボタンを押して先ほど保存した「090907_sample_U133A_adipo.txt」を選択します。
  • 7. 「Attributes」をクリックして、「GENE」のなかの「Ensembl Gene ID」、「Ensembl Transcript ID」のチェックをはずします。
  • 8. 続いて、「EXTERNAL」の+ボタンをクリックし、「 go biological process」中の「Gene Ontology Accession」にチェックを入れます。
  • 9. 左端上部の「Count」をクリックすると、これまで設定した条件に該当する数がわかります。(今回の設定では408 / 44285 Genes)
  • 10. 「Results」をクリックし、「Export all results to」を「Files」(ファイル容量が大きい場合は「Compressed file(.gz)」を選択するとよい)と「TSV」(タブ区切りテキスト)を選択し、「Go」をクリックします。
  • 11. 「mart_export.txt」というファイルがダウンロードされるので、デスクトップに保存し、「090907_U133A_adipo_GO.txt」とファイル名を変更します。

うまくダウンロードできない場合は下記のファイルを使用してください。

(右クリックして「名前を付けてリンク先を保存」してください。)

_ DAVID: The Database for Annotation, Visualization and Integrated Discovery

マイクロアレイデータの生物学的な解釈

http://david.abcc.ncifcrf.gov/

  • 上で述べたマイクロアレイの結果の解析は、あくまで統計解析で、それらの遺伝子が生物学的にどういう意味を持つかわかりません。
    microarray.analysis.005.png
  • そこで、マイクロアレイの結果にGene Ontologyの用語を付与することで、生物学的な解釈を行います。
  • 【参考動画】DAVIDを使ってマイクロアレイデータを解析するhttp://lifesciencedb.jp/image/small_video_icon.png

_ 【実習5】DAVIDを用いて、発現データの結果を生物学的に解釈する

  • 1. 上部メニューの「Start Analysis」をクリックします。
  • 2. 画面左側バーで、probe IDリストをコピペ or ファイルを指定します。
    • 今回は、統合TVと同じ、NCBI GEOより取得した公共の遺伝子発現データ(GSE1657:Adipocyte Differentiation [Homo sapiens])を用いて、ヒトの脂肪細胞の分化過程で発現増加した上位500個の遺伝子群のリストを使って説明しています。
  • 3. リストのIDの種類タイプを選択します。 … 今回は、「AFFY_ID」と「Gene List」
  • 4. Submit List をクリックするとリストが読み込まれます。
  • 5. アップロードしたリストは、左側バーの「List Manager」で「Uploaded List_1」として保存されています。削除やrenameもできます。
  • 6. 解析を続けます。真ん中の「Functional Annotation Tool」をクリックします。
  • 7. 「Gene Ontology」をクリックすると、Gene Ontologyを用いた解析の細かいメニューが表示されます。
  • 8. 今回は、GOTERM_BP_ALL (BP=Biological Process)に注目します。その右の「Chart」をクリックすると結果がポップアップされます。
  • 9. P-value を2回クリックしてp-valueが小さい(統計的に有意である)順にしてみましょう … p-value小さい順は、一度やればしばらく覚えているので、次からはしばらくは必要ないです

    結果

    david.go_bp.png
  • [応用編] Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみよう。生物学的にどういうことが言えるでしょうか。

_ Mouse Genome Informatics(MGI)

マウスに関する遺伝子、ゲノム、生物学的な情報を提供する統合データベース

_ 【実習6】MGIを使ってある遺伝子の様々な実験条件で得られた発現データを閲覧する

_ 【参考】MGIでノックアウトマウス情報の有無を調べる

統合TVで紹介していますので興味ある方はぜひご覧ください。http://lifesciencedb.jp/image/small_video_icon.png


遺伝子発現データを使い倒す〜R/BioConductor の導入と解析例〜    

_ Rとは

フリーウェアでオープンソースのデータ解析環境

  • データの操作や計算、可視化のためのソフトが統合されたもの
  • サンプルデータが豊富
  • 対話的に実行可能
  • Windows, MacOSX, UNIXとマルチプラットホームで動作

_ BioConductorとは

生命科学分野のためのRパッケージプロジェクト

  • マイクロアレイデータなどの遺伝子発現プロファイルや質量分析データ、タンパク質相互作用データなどの解析パッケージ集

_ R/BioConductor の導入

_ 【実習】R/BioConductorのインストール

  • 【使い方参考動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://cran.r-project.org/bin/windows/base/を開きます。
  • 2.トップにある「Download R 2.10.1 for Windows 」をクリックして、インストーラ(R-2.10.1-win32.exe)をダウンロードします。

    ダウンロードが遅い場合は、http://dbcls.rois.ac.jp/~hono/R-2.10.1-win32.exeから落とせます。

  • 3. インストーラのダウンロードが完了したら、インストーラを実行します。
  • 4. インストールの設定画面が続きますが、基本的に初期設定でOKです。
  • 5. インストールが完了すると、デスクトップに"R 2.10.1"のアイコンが作成されます。
  • 6. アイコンをダブルクリックし、Rを起動します。
  • 7. 続いて、Bioconductorをインストールします。
  • 8.
    source("http://www.bioconductor.org/biocLite.R") 

    と入力し、Enterを押します。(←コピペするとタイプミスがなくて良いです)

  • 9. 続いて、 
    biocLite() 

    と入力し、Enterを押すとパッケージのインストールが始まります。

  • 10. PCやネットワークの状況にもよりますが、この作業は5~10分ほど時間がかかるので、気長に待ちます。
  • 11. 再び赤いカーソルが現れたら、インストール完了です。

_ R/BioConductor を用いた解析例

_ 【実習】R/BioConductorを用いたマイクロアレイデータの正規化

_ サンプルデータの用意


  • 【使い方参考動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. Rを起動します。
  • 2. 「ファイル」の「ディレクトリの変更」をクリックして、マイクロアレイデータ(CELファイル)のあるフォルダを選択します。初期値のままならば「GSE18226_RAW」というフォルダです。
  • 3.
    library(affy)   

    と入力し、解析パッケージを読み込みます。

  • 4. 続いて、
    write.exprs(justRMA(), file="RMA_expression.txt")

    と入力します。少々時間がかかりますが、しばらくそのままで待ちます。何もエラーメッセージが出なければ、RMAで正規化されたデータがタブ区切りのテキストファイル(RMA_expression.txt)として保存されます。

  • 5. 次に、 
    write.exprs(mas5(ReadAffy()), file="MAS5_expression.txt") 

    と入力します。MAS5による正規化はRMA以上に時間がかかると同時に、大量のメモリを消費するのでマシン環境によってはエラーが出ることがあります。同様に何もエラーが出なければ、MAS5で正規化されたデータがタブ区切りのテキストファイル(MAS5_expression.txt)として保存されます。

  • 6. さらに 
    write.exprs(mas5calls(ReadAffy()), file="MAS5calls_expression.txt") 

    と入力します。MAS5の Present / Absent コールがタブ区切りテキスト(MAS5calls_expression.txt)で保存されます。

_ 【実習】R/BioConductorを用いたヒートマップの作成

_ Rを使ったマイクロアレイデータの解析


  • 【使い方参考動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. Rを起動します。
  • 2. 今回は用意されているサンプルデータを使うので、GDS1096_best10_heart.txtをダウンロード(右クリックして「名前を付けてリンク先を保存」してください。)し、先程使った「GSE18226_RAW」というフォルダに入れます。「ファイル」の「ディレクトリの変更」をクリックして、「GSE18226_RAW」フォルダを選択します。
  • 3.
    library(stats)

    と入力しパッケージを読み込みます。

  • 4. 続いて、
    data <- read.table("GDS1096_best10_heart.txt", header=TRUE, row.names=1, sep="\t", quote="")

    と入力しデータを読み込みます。

  • 5. 次に、 
    colnames(data) <- substring(colnames(data), 8, nchar(colnames(data)))    

    と入力すると、列ラベル中の最初の8文字分(つまり "Normal_")を削除することができます。

  • 6. さらに 
    png(filename="heatmap.png") 

    と入力しヒートマップを出力する準備をしておきます。

  • 7. そして 
    heatmap(as.matrix(data), Rowv =NA, Colv=NA, scale="row", col = cm.colors(100), main="Heart-specific genes (Best 10)", xlab="Tissue", ylab="Clone ID", margin=c(8,10)) 

    と入力しヒートマップをイメージを作成します。

  • 8. 最後に 
    dev.off() 

    と入力し作成されたヒートマップをheatmap.pngファイルとして出力します。

_ その他のマイクロアレイデータ解析

門田さんの「(Rで)マイクロアレイデータ解析」にさまざまなマイクロアレイの解析方法が紹介されてますので、このページを参考にしつつ、自分のやりたい解析をやってみましょう。

 
Link: AJACS18(3583d)
Last-modified: 2010-05-28 (金) 20:18:23 (3603d)