MotDB


AJACS33/meso

AJACS33

遺伝子発現DB・解析ツールの紹介    担当: 内藤 雄樹

目次


_ 遺伝子のDB・ウェブツールの基礎

_ 遺伝子をさがす(基礎)

  • NCBI Entrez -- http://www.ncbi.nlm.nih.gov/ → Nucleotideで検索
  • 絞り込み
    • 検索窓にキーワードを追加、ブラケットでフィールド指定
      • ... AND “Homo sapiens”[Organism] (ダブルクオートでフレーズ検索)
      • ... AND Vimentin[Gene Name]
      • ... AND patent[Title]
    • または、Advanced searchに行く

_ 遺伝子の ID とは?

  • 1. Accession Number
    • GenBank?/EMBL/DDBJ の国際塩基配列データベースに登録された塩基配列のID
    • A12345 や AB123456 の形式をしている
    • A12345.1 のようにバージョンを表示。UTRが延長されたりエラーが修正されて A12345.2 のようにアップデートされる
    • 正確な表現ではないが、俗に「GenBank?の」Accessionと呼ばれることもある
  • 2. RefSeq? ID
    • 三大データバンクの配列を元にtranscriptごとに1個登録 → RefSeq? データベース(遺伝子の百科事典のようなもの)
    • 選択的スプライシングで生じるvariant には別々のIDが付与されている
    • NM_012345.6 の形式をしている。広義には(実用上は)Accession番号の一種
  • 3. SymbolとGene ID
    • 遺伝子ごとに付与される遺伝子名と番号
    • Symbolは慣用名と一致しないこともある(ヒトp53 → TP53)
    • 種でダブる可能性も
    • Gene ID は種と遺伝子を特定できる
      慣用名SymbolGene ID 
      ヒトcadherinCDH1999 
      マウスcadherinCdh112550 
      ラットcadherinCdh183502 
  • 4. それぞれの関係
    IDs.png

_ 配列から遺伝子をさがす

_ 統合遺伝子検索GGRNA

http://ggrna.dbcls.jp/

  • 【統合TV】GGRNAで遺伝子をGoogleのように検索する http://lifesciencedb.jp/image/small_video_icon.png
  • 【新着レビュー】統合遺伝子検索GGRNA:遺伝子をGoogleのように検索できるウェブサーバ
  • GGRNAとは?
    • RefSeq?を全文検索
    • 塩基配列も簡単検索、3ミスマッチを許容
    • ヒト、マウス、ラット、ニワトリ、ツメガエル、ゼブラ、ホヤ、ハエ、線虫、シロイヌナズナ、イネ、出芽酵母、分裂酵母(現在13種)
  • 【実習1】簡単な検索例
    • トップページを参考に各自で遺伝子名、フレーズ、各種ID、塩基配列などを検索
    • 参考:検索時間はヒット件数に比例するため、ものすごくヒット件数が多い場合は時間がかかるかもしれません。
  • 【実習2】配列検索:ヒトのある遺伝子に対してRT-PCRを掛けようとしたらなぜかバンドが2本。これはいったい?
    • primer(F): agctcattactttatcagtgca
    • primer(R): tgacgtattcactcttctggtt
    • 増幅遺伝子のSymbol、Refseq ID、予想されるバンドのサイズを調べてみる

      ←こたえはここをクリック

      DGCR8, NM_001190326, 402bp
      DGCR8, NM_022720, 501bp
      同じ遺伝子の2つのvariantが増えてしまったらしい。

  • 【実習3】マイクロアレイのプローブの場所を知りたい。
    • Affymetrix社 GeneChip?マイクロアレイの場合、1遺伝子につき25塩基×11対のプローブで検出
    • プローブセットと呼ぶ。例:262888_at → GGRNAで検索
      • PM (perfect match) probe
      • MM (mismatch) probe (補正に使う)
        Affyprobe.png

_ NCBI Gene Expression Omnibus (GEO)

世界最大の遺伝子発現(マイクロアレイ)データベース(レポジトリ)

_ 【実習4】GEOを使って、自分の興味のある遺伝子の(ある実験条件下における)発現状況を調べる

_ 【実習5】Dataset browserを利用して、GEOに登録されているマイクロアレイデータを解析する

  • 【統合TV】NCBI GEOの使い方3〜データセットブラウザの使い方1〜 2012 http://lifesciencedb.jp/image/small_video_icon.png
  • 【統合TV】NCBI GEOの使い方4〜データセットブラウザの使い方2〜 2012 http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
  • 3. 今回は例として「nanog」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
  • 4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
  • 5. 検索結果のアクセッション番号(今回は GDS3262)をクリックすると、解析用の「データセットブラウザ」が開きます。
  • 6. 「Expression profiles]」をクリックすると、この実験データセットにおける個々の遺伝子発現状況を検索できるページに飛びます。
  • 7. 検索窓に表示されているアクセッション番号の後に続けて遺伝子名を追加(今回は例として Oct4 )すると、この実験データセット内におけるその遺伝子の発現データが検索できます。
  • 8. 「データセットブラウザ」の「Data Analysis Tools」では詳細なデータ解析が可能です。
  • 9. 「Find gene name or symbol:」のところに自分の興味ある遺伝子名を入れてみましょう。
  • 10. 「Find genes that are up/down for this condition(s):」の「GO」をクリックするとどのような遺伝子がヒットするでしょうか。
  • 11. 「Compare 2 sets of samples」では2群間で発現に差のある遺伝子を(統計学的に)検索できます。step1で発現量の違いを検出する方法を設定します。step.2で比較する2群の設定をします。step.3の「Query Group A vs. B」をクリックすると、検索が始まります。
  • 12. 「Cluster heatmaps」では、マイクロアレイデータ解析でよく用いられるヒートマップでのデータ表示が行なえます。分類方法としてHierarchical、Partitional (K-means/K-medians)、By location on chromosomeの3種類が選べますが、それぞれどのようにデータが分類されるか試してみましょう。
  • 13. ヒートマップ上をクリックすると領域選択が開始されます。リサイズや移動で範囲を決定した後、Stack up をクリックすると選択した範囲が拡大されます。
  • 14. サンプルの内容とIDの対応は、元のページに戻って、Sample Subsets から確認できます。
  • 15. さらに範囲選択して、Plot values をクリックすると、各遺伝子のサンプルごとの発現の様子がプロットで確認できます。
  • 16. 範囲選択して、View in Entrez をクリックすると、選択範囲内のデータを棒グラフで見られます。
  • 17. 範囲選択して、Download をクリックすると、選択範囲内のデータがテキスト形式でダウンロードできます。
  • 18. 「Experiment design and value distribution」では実験データにおける発現の分布を参照できます。これにより、各サンプルのデータが互いに比較可能か(実験上のミスがないか)チェックすることができます。

_ 【実習6】GEOを使って、自分の興味のあるマイクロアレイ実験データセットを検索&生データをダウンロードする

  • 【統合TV】NCBI GEOの使い方1〜マイクロアレイデータの検索・取得〜 2011 http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2. 画面中央の「Platforms」をクリックします。
  • 3. Platform(マイクロアレイの種類)の一覧画面が現れるので、上部の「FIND PLATFORM」をクリックします。
  • 4. platformの検索画面が現れるので、「Company name」に「Affymetrix」、「organism」に「Homo sapiens」を選択し、「FIND PLATFORM」をクリックします。
  • 5. Affymetrixのヒトのマイクロアレイの検索結果が表示されるので、中程にある「Affymetrix GeneChip? Human Genome U133 Plus 2.0 Array」の左端にある「GPL570」というIDをクリックします。
  • 6. 表示された画面の真ん中あたりにある「series」下の「More...」をクリックすると、登録されているデータセットを閲覧できます。
  • 7. ブラウザの検索ボタンなどを使って「reprogramming」という単語を検索するとどういうデータがヒットするでしょうか?
  • 8. ヒットしたデータの左端にあるIDをクリックすると、そのデータセットの詳細情報が閲覧できます
  • 9. ページ下部の「Download family」の中にある「Series Matrix File(s)」をクリックすると正規化済みのデータのダウンロードリンクが表示されます。
  • 10. ページ最下部の「Supplementary file」にあるリンクから生データをダウンロードすることができます。
  • 11. 自分の研究テーマに近い、また興味のあるマイクロアレイデータが利用可能か検索してみましょう。

_ 遺伝子発現バンク(GEO)目次、通称「GEO目次」

  • 使い方参考動画 遺伝子発現バンク(GEO)目次を使い倒す−その壱 http://lifesciencedb.jp/image/small_video_icon.png
  • NCBI GEO を日本語のインターフェイスで快適に使い、データの全容を俯瞰するための仕組みです。数多く登録されている遺伝子発現データの大まかな傾向をつかむのに役に立つことでしょう。
  • 検索結果のRSS配信機能があるので、これを活用して、遺伝子発現データの新規登録の有無をチェックできる!

_ DAVID: The Database for Annotation, Visualization and Integrated Discovery

マイクロアレイデータの生物学的な解釈

http://david.abcc.ncifcrf.gov/

_ マイクロアレイデータの準備

サンプルデータとして、NCBI GEOより取得した公共の遺伝子発現データを用います。このデータは、ある実験の前後の2群間で有意に発現減少した遺伝子群のリストです。

(右クリックして「新しいタブで開く」もしくは「名前を付けてリンク先を保存」してください。)
このデータは、どのような実験から得られたデータなのか、どのように解釈できるのかをDAVIDを使って考察してみましょう!

_ 【実習7】DAVIDを用いて、発現データの結果を生物学的に解釈する

  • 1. 上部メニューの「Start Analysis」をクリックします。
  • 2. 画面左側バーで、probe IDリストをコピペ or ファイルを指定します。
  • 3. リストのIDの種類タイプを選択します。 … 今回は、「AFFYMETRIX_3PRIME_IVT_ID」と「Gene List」
  • 4. Submit List をクリックするとリストが読み込まれます。
  • 5. アップロードしたリストは、左側バーの「List Manager」で「Uploaded List_1」等として保存されています。削除やrenameもできます。
  • 6. 解析を続けます。真ん中の「Functional Annotation Tool」をクリックします。
  • 7. 「Gene Ontology」をクリックすると、Gene Ontologyを用いた解析の細かいメニューが表示されます。
  • 8. 今回は、GOTERM_BP_FAT (BP=Biological Process)に注目します。その右の「Chart」をクリックすると結果がポップアップされます。
  • 9. P-value を2回クリックしてp-valueが小さい(統計的に有意である)順にしてみましょう … p-value小さい順は、一度やればしばらく覚えているので、次からはしばらくは必要ないです

    結果

    david_go_bp.png
  • [応用編] Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみましょう。生物学的にどういうことが言えるでしょうか。

    サンプルデータの答え

    Arabidopsis thaliana (シロイヌナズナ)の植物細胞と細胞壁分解酵素を用いて取り除いた植物細胞(プロトプラスト)との比較(植物細胞の脱分化前・後)GSE15515


_ 【参考】遺伝子発現データベースに関する統合TV

 
添付ファイル: fileAffyprobe.png 533件 [詳細] fileIDs.png 580件 [詳細]
 
Link: AJACS33(1956d)
Last-modified: 2012-08-06 (月) 23:01:30 (1957d)