MotDB


meiyaku2012

ゲノム創薬学特論A 特別講義

創薬研究のためのデータベース活用術:文献からの知識抽出とその応用

12/10/15 10:50-12:10

担当:仲里 猛留ライフサイエンス統合データベースセンター


目次


_ 自己紹介

_ DBCLSの紹介


_ 遺伝子発現解析

_ NCBI Gene Expression Omnibus (GEO)

世界最大の遺伝子発現(マイクロアレイ)データベース(レポジトリ)

塩基配列を研究者がGenBank? (Nucleotide) に登録し、世界の人が見られるのと同じように、各々の発現情報も集められてみられるようになっています。それがGEOです。

  • いろいろなデータ(DataSet?, Sample, Platform)が出てきて混乱するかと思います。NCBI GEO Overviewが参考になるでしょう。

_ 遺伝子発現バンク(GEO)目次:http://lifesciencedb.jp/geo/

  • 統合ホームページ > データベース > 遺伝子発現バンク(GEO)目次
  • [ナニコレ] NCBIのGEO(Gene Expression Omnibus:mRNA発現情報のデータベース)に登録されている全レコードをプロジェクト単位で分類。「生物種」、「研究の型」、「部位」の三次元で分類。データを一括ダウンロード可能
  • http://lifesciencedb.jp/image/small_video_icon.png 遺伝子発現バンク(GEO)目次を使い倒す−その壱
  • 【実習】「生物種」で特定の種を選ぶと、研究プロジェクト数が絞り込まれることで数が変化する。「生物種」で「ヒト」を選ぶ前と後で「研究の型」の「GeneChip?」(Affymetrixの発現アレイ)、「cDNAアレイ」、「オリゴアレイ」の項目はいくつからいくつに変化するか?また、「生物種」に「齧歯」を選ぶとそれぞれどうか?
  • 【実習】右上の検索フォームで'hypoxia'と入力して検索したあとで、「生物種」で「ヒト」、「研究の型」で「GeneChip?」を選んで得られる研究プロジェクトのリストを表示せよ。「測定サンプル」のカラムの数字をクリックしてどのようなことが起こるか、確認してみよ。また、GSEで始まるGEOのエントリ(例えばGSE4725)をクリックするとNCBIのサイトに直接アクセスできるので、そのページにアクセスせよ。

_ 【実習】データセットブラウザ(Dataset browser)を利用して、GEOに登録されているマイクロアレイデータを解析する

  • 【使い方参考動画1】http://lifesciencedb.jp/image/small_video_icon.png【使い方参考動画2】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
  • 3. 今回は例として「nanog」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
  • 4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
  • 5. 検索結果のアクセッション番号(今回は GDS2294)をクリックすると、解析用の「データセットブラウザ」が開きます。
  • 6. 「Expression profiles」をクリックすると、この実験データセットにおける個々の遺伝子発現状況を検索できるページに飛びます。
  • 7. 検索窓に表示されているアクセッション番号の後に続けて遺伝子名を追加(今回は例として Oct4 )すると、この実験データセット内におけるその遺伝子の発現データが検索できます。
  • 8. 「データセットブラウザ」の「Data Analysis Tools」では詳細なデータ解析が可能です。
  • 9. Quality Check: 「Experiment design and value distribution」では実験データにおける発現の分布を参照できます。これにより、各サンプルのデータが互いに比較可能か(実験上のミスがないか)チェックすることができます。
  • 10. 特定実験での各遺伝子の振る舞い: 「Find gene name or symbol:」のところに自分の興味ある遺伝子名を入れてみましょう。
  • 11. 「Find genes that are up/down for this condition(s):」の「GO」をクリックするとどのような遺伝子がヒットするでしょうか。
  • 12. クラスタリング等の解析: 「Compare 2 sets of samples」では2群間で発現に差のある遺伝子を(統計学的に)検索できます。step1で発現量の違いを検出する方法を設定します。step.2で比較する2群の設定をします。step.3の「Query Group A vs. B」をクリックすると、検索が始まります。
  • 13. 「Cluster heatmaps」では、マイクロアレイデータ解析でよく用いられるヒートマップでのデータ表示が行なえます。分類方法としてHierarchical、Partitional (K-means/K-medians)、By location on chromosomeの3種類が選べますが、それぞれどのようにデータが分類されるか試してみましょう。

_ [参考] ArrayExpress

_ DAVID: The Database for Annotation, Visualization and Integrated Discovery

マイクロアレイデータの生物学的な解釈

microarray.analysis.005.png
  • 上で述べたマイクロアレイの結果の解析は、統計解析で、それらの遺伝子が生物学的にどういう意味を持つかわかりません。
  • そこで、Gene Ontologyの用語を付与することで、生物学的な解釈を行います。
  • 【参考動画】DAVIDを使ってマイクロアレイデータを解析するhttp://lifesciencedb.jp/image/small_video_icon.png

_ 【実習】DAVIDを用いて、発現データの結果を生物学的に解釈する

  • 1. 上部メニューの「Start Analysis」をクリック
  • 2. 画面左側バーで、probe IDリストをコピペ or ファイルを指定
    • 今回は、統合TVと同じ、NCBI GEOより取得した公共の遺伝子発現データ(GSE1657:Adipocyte Differentiation [Homo sapiens])を用いて、ヒトの脂肪細胞の分化過程で発現増加した上位500個の遺伝子群のリストを使って説明しています。
  • 3. リストのIDの種類タイプを選択 … 今回は、「AFFYMETRIX_3PRIME_IVT_ID」と「Gene List」
  • 4. Submit List をクリック → 読み込まれる
  • 5. 今、アップロードしたリストは、左側バーの「List Manager」で「Uploaded List_1」として保存されています。削除やrenameもできます。
  • 6. (画面がかわりました。この項目は削除)
  • 7. 今回は、Gene Ontologyでの解析を行います。「Gene Ontology」をクリック → Gene Ontologyでの解析の細かいメニューが表示されます
  • 8. 今回は、GOTERM_BP_ALL (BP=Biological Process)に注目します。その右の「Chart」をクリック → 結果がポップアップします
  • 9. P-value を2回クリックしてp-valueが小さい(統計的に有意である)順にしてみましょう … p-value小さい順は、一度やればしばらく覚えているので、次からはしばらくは必要ないです

    結果

    david.ajacs31.png
  • [応用編] Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみよう。生物学的にどういうことが言えるだろうか。

_ 次世代シーケンサ(とそのデータ)基礎知識

  • 今回は省略しますが、書いておくだけはしておきます。

_ 何が新型/次世代なのか?

_ SRAとは

  • NGSのデータのレポジトリサイトです
  • SRA = Sequence Read Archive
    • 昔は「Short Read Archive」だったが、shortでなくなってきたので
  • 誰(どこ)が集めているのか?
    • NCBI(米): SRA
    • EBI(欧): ENA (European Nucleotide Archive)
    • DDBJ(日): DRA (DDBJ Sequnece Read Archive)
    • 3局でデータの交換をしている
      • DDBJを見に行ったとして、入っているのは日本だけ、ということはない、ということです。
      • (ただ、個人情報にからむものは、実際の配列データはしかるべきところにしかないものがあるとかないとか)

_ [参考] NCBI SRAやめます事件(11/2/16 現地時間)

_ 【実習】DRASearchを使ってみる( http://trace.ddbj.nig.ac.jp/DRASearch/

  • こういうときはNCBIと思いがちですが、データ転送量が多い + インターフェースきれい なのでDDBJを使いましょう
    • http://trace.ddbj.nig.ac.jp/DRASearch/ にアクセス
    • Keyword に興味のある語を入れてみましょう(例:variation)
    • Filtered by の document type で絞り込み:Study
    • Filtered by の organism で絞り込み:Homo sapiens
    • ACCESSION の SRP...... をクリック → 詳細が
    • 画面右の Navigation にあるFASTQやSRALiteからデータがダウンロード可能
  • DDBJにあるドキュメント見てみる
    • データ構造(StudyとかExpとかRunとか)
      dra.meta.halfsize.png
      DDBJ Sequence Read Archive - Document - Metadataより
    • 実データ
      @DRR001107.1 GEZQ5FO01EEA7F length=77
      GCAACATTCAACACATATGTGTTGAATGTTGCACGACGGNGTGTCGCGTCTCTCAAGGCACACAGGGAGTAGNGNNN
      +DRR001107.1 GEZQ5FO01EEA7F length=77
      C@BBBECCECDBBBAAAAA<441111<?@>?=?????44!00044322====22--..//6998222<7<3/!/!!!
      • 1行目: @ + タイトル
      • 2行目:塩基配列
      • 3行目: + (+ タイトル)
      • 4行目:シーケンスクオリティ

_ 統計情報から検索する (SRAs: http://sra.dbcls.jp/ )

  • まずは普通に全部表示:まずは見てみる → by Studies
    • 最初は新着順です
    • 【実習】収載されているもので大規模にデータを出しているプロジェクトは何でしょう? → Exps や Runs をクリックして sortしてみる
  • 目的別
    • 【実習】興味のある「目的」をクリックしてどんなプロジェクトがあるか見てみましょう
  • Platform別
    • 【実習】興味のある「Platform」をクリックして、(以下同)
  • 生物種別
    • 【実習】興味のある「生物種」をクリックして、(以下同)

_ 文献から検索する

  • 質のいいデータで解析したい → ひとつの基準として論文が出ていれば質は高かろう
  • SRAs の文献リスト: http://sra.dbcls.jp/cgi-bin/publication.cgi
    • NGS関連文献とそこで言及されているNGSデータのリスト
    • 目的/Platform/生物種で絞り込み可能
  • 鎖鋸(kusarinoko):http://g86.dbcls.jp/kusarinoko
    • 目的:「使える」データをさがす
    • 文献として成果が出ているSRAデータセットをさがしてデータの内容とともに俯瞰する
    • 生物種、目的に制限あり
    • 【実習】鎖鋸をつかってみる:hypoxia で検索

_ 疾患から検索する

  • 文献が出ているもののうち、疾患に関連するものを疾患名でまとめた → 論文が出ていないものについても拡張予定
  • 1. SRAsにアクセス
  • 2. 下の方の Search by diseasesから

_ SRAへのNGSデータの登録


_ 文献情報の活用

_ PubMed? トリビア

  • 全部で何件 入っているでしょう
    • All[Filter] で検索
    • 応用:一番古いものは?
      • もともとは1950年代から。タイトルだけ or スキャンしてどんどん過去のデータも取り込んでいる
  • 著者のフルネームで検索
    • 2003年くらいから後のものは、(登録があれば)フルネームで検索できます
  • First Author, Last Author, 雑誌名、などなどから検索
  • [雑] 天皇陛下の論文を検索してみる(名前は Akihito)

_ 日本語リソース

  • 蛋白質核酸酵素全文検索:http://lifesciencedb.jp/pne/ ←商業誌のアーカイブ
  • 新着論文レビュー:http://first.lifesciencedb.jp/
    • Nature, Cell, Science 系の雑誌に日本人が論文を出した際、本人に日本語での記事を書いてもらったもの。
  • 領域融合レビュー
    • 注目領域の最新の動向について、第一線の研究者が日本語で解説するレビュー記事
  • ライフサイエンス辞書(京大 金子教授 他):http://lsd.pharm.kyoto-u.ac.jp/

_ 文献情報の利用

  • 量:さきほどやりました(PubMed?の件数)
  • 質:バイオなデータにはどんなのがあるのか。他のデータベースと比較してみる
    一般的なバイオ系DB自然言語リソース
    Entrez geneDB例PubMed?
    配列、発現、SNP、...データの中身の例文献
    豊富他のDBへのリンク貧弱
    整っている構造肝心の内容は構造化されていない
    • 文献データは、遺伝子などのデータベースと別の世界を作っている

_ 自然言語処理とは

  • 英語だと、natural language processing (NLP) と言います
  • 情報処理の話なので、バイオなにおいはあまりないですが。。。
  • テキストマイニング (text mining)
    • mine: 地雷、鉱山、採掘する (mine sweeper っちゅうゲームのmine)
    • テキストの山からお宝(=有用な情報)を掘り当てること
  • どんなtaskが?
    • どの文字からどの文字までが遺伝子、疾患、化合物などをさしているか言い当てる(named entity recognition: NER)
      IRS-2 was activated by the addition of exogeneous IGF-II. → IRS-2やIGF-IIが遺伝子名
    • 書いてある要素(遺伝子、…)どうしの関連の抽出:up-regulate, bind, inhibit, phosphorylation, …
  • 困難なところ(遺伝子を例に)
    • 1つの遺伝子は、複数の名前をもっている
      SLC26A4: pendrin, PDS, pendred syndrome gene, DFNB4, solute carrier family 26 member 4
    • 複数の遺伝子などで、同じ名前を共有している
      PDS: pendred syndrome gene
      PDS: prostaglandin D2 synthase
      PDS: ...
    • 長い名前には、書き方のバリエーション(揺らぎ)がある
      例:NHE3 (PubMed を検索して最新20件についての記述の例)
      Na(+)/H(+) exchanger 3
      Na+/H+ exchanger 3
      Na(+)-H(+) exchanger NHE3
      Na/H exchanger isoform 3
      type 3 Na(+)/H(+) exchanger
      type 3 sodium hydrogen exchanger
      sodium/proton exchanger NHE3

_ 自然言語リソースを活用しよう!

  • InMeXes?:英語の表現検索(ライフサイエンス分野の)
    • 例:be associated ( ) ← ここに入る前置詞は?
    • 上のライフサイエンス辞書でも検索はできます。こちらの方が検索しながら結果が見られます。
  • Allie:略語と非省略形の検索

_ 文献データを利用した発現解析

  • Gendoo: http://gendoo.dbcls.jp/
    • DAVID では、Gene Ontologyで遺伝子(群)の生物学的機能解析を行った
    • 実験条件である疾患や薬剤の情報はわからない!
    • → 文献に付与された MeSH キーワードを用いて解釈を行う
    • 例:APP (amyloid precursor protein)
      • Gene Ontology
        Categoryterm
        Molecular Functionacetylcholine receptor binding
        identical protein binding
        serine-type endopeptidase inhibitor activity
        Biological Processcellular copper ion homeostasis
        neuromuscular process
        Cellular ComponentGolgi apparatus
        cell surface
        cytoplasm
        extracellular region
        integral to plasma membrane
        plasma membrane
        platelet alpha granule lumen
      • Gendoo (MeSH)
        Cateogoryterm
        DiseaseAlzheimer Disease
        Cerebral Amyloid Angiopathy
        Amyloidosis
        DrugsAmyloid beta-Protein Precursor
        Amyloid beta-Protein
        Peptide Fragments
        Biological phenomenaProtein Binding
        Protein Structure, Tertiary
        Protein Structure, Secondary
        AnatomyBrain
        Neurons
        Senile Plaques
        ...
        Chromosomes, Human, Pair 21
    • 例:1型糖尿病と2型糖尿病の特徴の違い
      nar.fig1.png

 
Last-modified: 2012-10-14 (日) 23:41:49 (1767d)