MotDB


AJACS31/thecla

「遺伝子発現DB・解析ツールの紹介」 担当:仲里 猛留


AJACS宮崎 > 「遺伝子発現DB・解析ツールの紹介」


_ はじめに

_ 今回のメニュー

_ おことわり


_ 1つの遺伝子での遺伝子発現


_ BioGPS ヒト、マウス、ラットのさまざまな組織や細胞(株)における遺伝子発現プロファイルのデータベース

  • 何コレ:さまざまな臓器、細胞株での個々の遺伝子の発現についてまとめたもの
  • BioGPSはAffymetrix社製のマイクロアレイであるGeneChip?を用いた遺伝子発現プロファイルのデータベース。
  • GNF SymAtlas【参考動画】のメジャーアップデート版。
  • マウスのエキソンアレイのデータが追加されたので、遺伝子のスプライシングバリアント(Splicing variant)の発現状況も調べることが可能。
  • 検索した遺伝子に対して、種々の外部データベースに横断検索することができる。

_ 【実習1】BioGPSを使ってある遺伝子の発現プロファイルを調べる

  • 【使い方参考動画】【講習会動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://biogps.org/を開きます。
  • 2.水チャネル(水を通すトランスポーター)であるAQP3 (aquaporin 3) の発現プロファイルを調べてみましょう。中央の検索窓に「AQP3」と入力し、「search」を押します。
  • 3. 表示された検索結果をクリックします。
  • 4. 最初はヒトのマイクロアレイデータが表示されます。
  • 5. マイクロアレイデータ左上の「Human」をクリックするとマウスやラットを選択できます。また、「203737_at」(プローブID)をクリックすると、別のプローブでの発現状況(別のsplice variantなど)の結果が見られます
    • 参考:GGRNAをプローブIDで検索すると、その遺伝子のどの部分でプローブが設計されているかがわかります。
    • 例:1422008_a_atで調べた例
  • 6. AQP3はどの組織、細胞で強く発現しているでしょうか?
  • 7. 右上の「default rayout」をクリックすると、検索した遺伝子に関するマイクロアレイデータ以外のデータが閲覧できますが、どのようなデータが閲覧できるのか調べてみましょう。
  • 8. [応用] 左上の「Search」タグをクリックして検索画面にもどり、自分の興味ある遺伝子について同様に検索してみましょう。

_ RefEx? 遺伝子発現データのリファレンスデータセット

  • 何コレ:4種類の異なる手法 (EST, GeneChip??, CAGE, RNA-seq)によるヒト、マウスおよびラットの遺伝子発現データのリファレンスデータセット
  • ようするに:発現解析にはいろいろな手法があって、それによって発現が高かったり低かったりするわけですが、それらを並べて、参照できるようなデータセットをつくりましょう、というコンセプトです。
  • 以下のようなシチュエーションで
    • ある臓器で発現の高いものを調べる
    • ある染色体領域での発現の状況を眺める
    • ある機能(ドメインを持つ、GOの語)をもつ遺伝子の発現状況を調べる

_ 【実習2】RefEx? を使っていくつかの遺伝子の発現プロファイルを調べる

_ ある臓器で発現の高いものを調べる

  • 1. RefEx? http://refex.dbcls.jp/を開く
  • 2. 「発現パターンから探す」タブをクリックする
  • 3. 大分類の10の臓器 or 小分類の40分類から臓器をクリック(例:骨格筋)
  • 4. 興味のある行をクリックすると、詳細が見られる

_ 全遺伝子を対象にした(=オミックス)遺伝子発現・その1:マイクロアレイ


_ NCBI Gene Expression Omnibus (GEO)

世界最大の遺伝子発現(マイクロアレイ)データベース(レポジトリ)

塩基配列を研究者がGenBank? (Nucleotide) に登録し、世界の人が見られるのと同じように、各々の発現情報も集められてみられるようになっています。それがGEOです。

  • いろいろなデータ(DataSet?, Sample, Platform)が出てきて混乱するかと思います。NCBI GEO Overviewが参考になるでしょう。

_ 【実習3-1】GEOを使って、自分の興味のある遺伝子の(ある実験条件下における)発現状況を調べる

  • 【使い方参考動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
  • 3. 今回は例として「nanog」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
  • 4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
  • 5. 検索結果の右端にある画像をクリックすると、発現データの詳細をみることができます。
  • 6. 「Display values」をクリックすると、発現値を一覧できます。
  • 7. このサンプルでは、nanogはどういう細胞のどういう実験条件で発現が増減しているか調べてみましょう。
  • 8. ページ下部の「samples」に列挙されたリンクをクリックすると、そのサンプル(一枚のマイクロアレイ)の詳細を閲覧できます。
  • 9. リンク先のページの中ほどにある「series」のリンクをクリックすると、この実験全体の詳細情報が見られます。
  • 10. この実験全体の詳細情報ページの下部にある「Series Matrix File(s)」をクリックすると、この実験の正規化補正済みのマイクロアレイデータをダウンロードすることができます。
  • 11. ページ最下部の「Supplementary file」にあるリンクから生データをダウンロードすることができます。

_ 【実習3-2】データセットブラウザ(Dataset browser)を利用して、GEOに登録されているマイクロアレイデータを解析する

  • 【使い方参考動画1】http://lifesciencedb.jp/image/small_video_icon.png【使い方参考動画2】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
  • 3. 今回は例として「nanog」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
  • 4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
  • 5. 検索結果のアクセッション番号(今回は GDS2294)をクリックすると、解析用の「データセットブラウザ」が開きます。
  • 6. 「Expression profiles」をクリックすると、この実験データセットにおける個々の遺伝子発現状況を検索できるページに飛びます。
  • 7. 検索窓に表示されているアクセッション番号の後に続けて遺伝子名を追加(今回は例として Oct4 )すると、この実験データセット内におけるその遺伝子の発現データが検索できます。
  • 8. 「データセットブラウザ」の「Data Analysis Tools」では詳細なデータ解析が可能です。
  • 9. Quality Check: 「Experiment design and value distribution」では実験データにおける発現の分布を参照できます。これにより、各サンプルのデータが互いに比較可能か(実験上のミスがないか)チェックすることができます。
  • 10. 特定実験での各遺伝子の振る舞い: 「Find gene name or symbol:」のところに自分の興味ある遺伝子名を入れてみましょう。
  • 11. 「Find genes that are up/down for this condition(s):」の「GO」をクリックするとどのような遺伝子がヒットするでしょうか。
  • 12. クラスタリング等の解析: 「Compare 2 sets of samples」では2群間で発現に差のある遺伝子を(統計学的に)検索できます。step1で発現量の違いを検出する方法を設定します。step.2で比較する2群の設定をします。step.3の「Query Group A vs. B」をクリックすると、検索が始まります。
  • 13. 「Cluster heatmaps」では、マイクロアレイデータ解析でよく用いられるヒートマップでのデータ表示が行なえます。分類方法としてHierarchical、Partitional (K-means/K-medians)、By location on chromosomeの3種類が選べますが、それぞれどのようにデータが分類されるか試してみましょう。

_ 遺伝子発現バンク(GEO)目次:http://lifesciencedb.jp/geo/

  • 統合ホームページ > データベース > 遺伝子発現バンク(GEO)目次
  • [ナニコレ] NCBIのGEO(Gene Expression Omnibus:mRNA発現情報のデータベース)に登録されている全レコードをプロジェクト単位で分類。「生物種」、「研究の型」、「部位」の三次元で分類。データを一括ダウンロード可能
  • http://lifesciencedb.jp/image/small_video_icon.png 遺伝子発現バンク(GEO)目次を使い倒す−その壱
  • 【実習3-1】「生物種」で特定の種を選ぶと、研究プロジェクト数が絞り込まれることで数が変化する。「生物種」で「ヒト」を選ぶ前と後で「研究の型」の「GeneChip?」(Affymetrixの発現アレイ)、「cDNAアレイ」、「オリゴアレイ」の項目はいくつからいくつに変化するか?また、「生物種」に「齧歯」を選ぶとそれぞれどうか?
  • 【実習3-2】右上の検索フォームで'hypoxia'と入力して検索したあとで、「生物種」で「ヒト」、「研究の型」で「GeneChip?」を選んで得られる研究プロジェクトのリストを表示せよ。「測定サンプル」のカラムの数字をクリックしてどのようなことが起こるか、確認してみよ。また、GSEで始まるGEOのエントリ(例えばGSE4725)をクリックするとNCBIのサイトに直接アクセスできるので、そのページにアクセスせよ。

_ [参考] ArrayExpress

_ DAVID: The Database for Annotation, Visualization and Integrated Discovery

マイクロアレイデータの生物学的な解釈

microarray.analysis.005.png
  • 上で述べたマイクロアレイの結果の解析は、統計解析で、それらの遺伝子が生物学的にどういう意味を持つかわかりません。
  • そこで、Gene Ontologyの用語を付与することで、生物学的な解釈を行います。
  • 【参考動画】DAVIDを使ってマイクロアレイデータを解析するhttp://lifesciencedb.jp/image/small_video_icon.png

_ 【実習4】DAVIDを用いて、発現データの結果を生物学的に解釈する

  • 1. 上部メニューの「Start Analysis」をクリック
  • 2. 画面左側バーで、probe IDリストをコピペ or ファイルを指定
    • 今回は、統合TVと同じ、NCBI GEOより取得した公共の遺伝子発現データ(GSE1657:Adipocyte Differentiation [Homo sapiens])を用いて、ヒトの脂肪細胞の分化過程で発現増加した上位500個の遺伝子群のリストを使って説明しています。
  • 3. リストのIDの種類タイプを選択 … 今回は、「AFFYMETRIX_3PRIME_IVT_ID」と「Gene List」
  • 4. Submit List をクリック → 読み込まれる
  • 5. 今、アップロードしたリストは、左側バーの「List Manager」で「Uploaded List_1」として保存されています。削除やrenameもできます。
  • 6. (画面がかわりました。この項目は削除)
  • 7. 今回は、Gene Ontologyでの解析を行います。「Gene Ontology」をクリック → Gene Ontologyでの解析の細かいメニューが表示されます
  • 8. 今回は、GOTERM_BP_ALL (BP=Biological Process)に注目します。その右の「Chart」をクリック → 結果がポップアップします
  • 9. P-value を2回クリックしてp-valueが小さい(統計的に有意である)順にしてみましょう … p-value小さい順は、一度やればしばらく覚えているので、次からはしばらくは必要ないです

    結果

    david.ajacs31.png
  • [応用編] Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみよう。生物学的にどういうことが言えるだろうか。

_ 全遺伝子を対象にした(=オミックス)遺伝子発現・その2:次世代シーケンサ (NGS)


_ 次世代シーケンサ(とそのデータ)基礎知識

  • 言葉
    • 次世代シーケンサ
    • 次世代シーケンサー
    • 新型シーケンサ
    • New-generation Sequencing (NGS)
    • Next-generation Sequiencing (NGS)
    • 他にmassively parallel DNA sequencing とか...

_ 何が新型/次世代なのか?

_ NGSデータの規模

  • 【実習】どのくらいのデータ量になるか考えてみましょう
    • ゲル板:750 (base/lane) × 48/4 lanes

      ←こたえはここをクリック

      9kbase

    • キャピラリ:500 (base/lane) × 96 lane 

      ←こたえはここをクリック

      48kbase

    • 次世代: 36 (base/seq) × 40M seq/run

      ←こたえはここをクリック

      1.44Gbase = 1,440,000kbase

    • ↑これらの数字は規模感をつかむだけなので、ざっくりな数字になっています(1 runにかかる時間は比較してないですし)
    • ↑これらの数字は「塩基数」であって、シーケンサの出力である「画像データ」のデータサイズでないことに注意!
    • そして、その画像データはSRAには登録されていない
  • [参考] 各シーケンサの性能比較

_ SRAとは

  • NGSのデータのレポジトリサイトです
  • SRA = Sequence Read Archive
    • 昔は「Short Read Archive」だったが、shortでなくなってきたので
  • 誰(どこ)が集めているのか?
    • NCBI(米): SRA
    • EBI(欧): ENA (European Nucleotide Archive)
    • DDBJ(日): DRA (DDBJ Sequnece Read Archive)
    • 3局でデータの交換をしている
      • DDBJを見に行ったとして、入っているのは日本だけ、ということはない、ということです。
      • (ただ、個人情報にからむものは、実際の配列データはしかるべきところにしかないものがあるとかないとか)

_ NCBI SRAやめます事件(11/2/16 現地時間)

_ 【実習】DRASearchを使ってみる( http://trace.ddbj.nig.ac.jp/DRASearch/

  • こういうときはNCBIと思いがちですが、データ転送量が多い + インターフェースきれい なのでDDBJを使いましょう
    • http://trace.ddbj.nig.ac.jp/DRASearch/ にアクセス
    • Keyword に興味のある語を入れてみましょう(例:variation)
    • Filtered by の document type で絞り込み:Study
    • Filtered by の organism で絞り込み:Homo sapiens
    • ACCESSION の SRP...... をクリック → 詳細が
    • 画面右の Navigation にあるFASTQやSRALiteからデータがダウンロード可能
  • DDBJにあるドキュメント見てみる
    • データ構造(StudyとかExpとかRunとか)
      dra.meta.halfsize.png
      DDBJ Sequence Read Archive - Document - Metadataより
    • 実データ
      @DRR001107.1 GEZQ5FO01EEA7F length=77
      GCAACATTCAACACATATGTGTTGAATGTTGCACGACGGNGTGTCGCGTCTCTCAAGGCACACAGGGAGTAGNGNNN
      +DRR001107.1 GEZQ5FO01EEA7F length=77
      C@BBBECCECDBBBAAAAA<441111<?@>?=?????44!00044322====22--..//6998222<7<3/!/!!!
      • 1行目: @ + タイトル
      • 2行目:塩基配列
      • 3行目: + (+ タイトル)
      • 4行目:シーケンスクオリティ

_ 統計情報から検索する (SRAs: http://sra.dbcls.jp/ )

  • まずは普通に全部表示:まずは見てみる → by Studies
    • 最初は新着順です
    • 【実習】収載されているもので大規模にデータを出しているプロジェクトは何でしょう? → Exps や Runs をクリックして sortしてみる
  • 目的別
    • 【実習】興味のある「目的」をクリックしてどんなプロジェクトがあるか見てみましょう
  • Platform別
    • 【実習】興味のある「Platform」をクリックして、(以下同)
  • 生物種別
    • 【実習】興味のある「生物種」をクリックして、(以下同)

_ 文献から検索する

  • 質のいいデータで解析したい → ひとつの基準として論文が出ていれば質は高かろう
  • SRAs の文献リスト: http://sra.dbcls.jp/cgi-bin/publication.cgi
    • NGS関連文献とそこで言及されているNGSデータのリスト
    • 目的/Platform/生物種で絞り込み可能
  • 鎖鋸(kusarinoko):http://g86.dbcls.jp/kusarinoko
    • 目的:「使える」データをさがす
    • 文献として成果が出ているSRAデータセットをさがしてデータの内容とともに俯瞰する
    • 生物種、目的に制限あり
    • 【実習】鎖鋸をつかってみる:hypoxia で検索

_ 疾患から検索する

  • 文献が出ているもののうち、疾患に関連するものを疾患名でまとめた → 論文が出ていないものについても拡張予定
  • 1. SRAsにアクセス
  • 2. 下の方の Search by diseasesから

_ SRAへのNGSデータの登録

_ 解析その1(Whole Genome, Transcriptomics)

  • その1:既知のゲノムに貼る (Reference Genome Mapping)
    • 必要に応じ、マッピング結果(sam/bam形式)をRefSeq?に対応付けてカウント
  • その2:一からつなげる(De novo Assemble)

_ DDBJ Read Annotation Pipelineの使い方

1. DDBJ Read Annotation Pipelineにアクセス
2. ゲストとしてログイン をクリック。もしくは User ID: guest Passwordは空白でログインできます
3. まず、解析する配列ファイルを指定します。DRA (DDBJ Read Archive)に登録済みの場合はリストから選択、登録していない場合はファイルをアップロードします
 1. DRAを指定した場合、データのメタデータ(サンプル名や実験条件など)が表形式で表示されます。データのダウンロードや閲覧が可能です
 2. 解析に使用する配列データは一番下のテーブルから選択します
4. 解析に使用するツールを選択します。ツール名はツールのオリジナルサイトにリンクされています。「Help」にあるアイコンをクリックするとそれぞれのツールのヘルプが表示されます
 1. 既にゲノムが解読されている配列にマッピングする場合には「Reference Genome Mapping」を、新規にアセンブリする場合には「de novo Assembly」を選びます
 2. 使用するツールにチェックを入れて「NEXT」
5. 解析に使用するリード長を決定します
 1. 「Quality Score」のボタンをクリックすると、配列セットのQualityスコアが表示されます
 2. サンプルと(必要があれば)解析するリード長を指定して「confirm」をクリックします
 3. 複数のサンプルがある場合には、それぞれのサンプルについて配列長を指定できます
 4. 解析するすべてのサンプルを「confirm」したら、「NEXT」
6. マッピングする場合、リファレンスとなるゲノムを指定します(de novo Assemblyの場合にはこの過程はスキップされます)
 1. Majorな生物についてはあらかじめ登録されている中から選択します
 2. リストにない場合には、ゲノム配列のIDを指定して配列をダウンロードします
7. 解析プログラムのパラメータを指定します
8. 解析終了のお知らせを受け取るメールアドレスを入力します(必須)。今回はゲストアカウントなので解析は実行できませんが、実際には「BACK」の右側に「RUN」ボタンがあります
9. 左側にある「MENU」の「STATUS」から、解析の実行状況について確認できます
10. 実行結果から、リファレンス配列(Chromosome)とMapping結果ファイル(out.sam、下から3番目)をダウンロードし、Tablet などのViewerで結果を表示できます(ファイルサイズが大きいため、今回は省略します)

_ 解析その2(Metagenomics):MiGAP の使い方

1. 統合データベースプロジェクトページの「ツール&解析サービス」にあるMiGAPをクリック
2. 左上のバナーをクリック
3. 「Login」からOpenIDでログイン
4. 「Pipe Line」にアセンブリ済みの配列を アップロード or ペースト (Sample data をクリックすると入力ボックスにサンプル配列が入力される)
5. 入力した配列が「直鎖状」か「環状」か、「真正細菌」の配列か「アーキア」の配列かを選ぶ
6. 「Run」で計算開始
7. 計算状況は「Current Process」から確認できます
8. 「Change User Level」でユーザレベルを変えられます。Bronze = 初心者(すべてお任せ)、Silver = 中級者(プログラムのパラメータを自分で設定可能)、Gold = 上級者(解析プログラムを組み込んだりできるらしい)
9. 計算が終了すると、「Pipe Line History」から結果を見ることができます
 1. フォルダをクリックすると解析のサマリーと、各種ファイルのダウンロードリンクが表示されます(-a の付いているファイルがアノテーション付きの結果ファイル)
 2. ゲノムマップ上をクリックすると、その部分が拡大される。矢印をクリックするとORFの詳細が表示される(chrome ではORFの詳細が表示されない。FireFox?はOK)
 3. 例えば「result-aa.fasta」「result.csv」「result-a.csv」をダウンロードして中身を閲覧

_ 今後

  • 混沌としておりますが、バージョンアップなどしてこなれていく + 整理される(はず)

AJACS宮崎 > 「遺伝子発現DB・解析ツールの紹介」


 
 
Link: AJACS31(1792d)
Last-modified: 2014-07-10 (木) 14:55:30 (1084d)