MotDB


AJACS7/thecla

_ 「自然言語処理技術の活用実例」

_ 一応、自己紹介

  • 前置き
  • 副題:東工大生のキャリアパス

_ 略歴

_ 東工大 生命理工の卒業生です。(wet時代)

  • 生体機構学科(現:生命科学科)
  • → 生体システム専攻

_ 広瀬研究室でした

  • 卒研のテーマ:恐山ウグイにおける酸性適応機構の解明
  • 修論のテーマ:ウナギにおける硫酸トランスポーターの解析と海水適応に果たす役割
  • ようするに「浸透圧調節、血圧調節、イオン濃度調節の分子生物学的なアプローチ」って感じです。

_ その後

  • IT系大企業のバイオインフォマティクス部門に就職(dry時代)
    • なぜ、そんなところに
      • まわりが製薬や食品に就職する中、挫折感と実験もうやりたくない、という思いから
      • でも、バイオの分野からは離れたくなかった
    • やっていたこと
      • ソフト開発:文献データから情報を抽出して、遺伝子の特徴を表示する。関連遺伝子のネットワーク表示
      • テクニカルマーケティング:上記ソフトの営業支援、今後の開発についての戦略策定
      • 市場調査・情報収集:今、何が「来ている」か。今後、何が「来る」か。
  • 部署のおとりつぶしに遭う(冬の時代)
    • 別の部署に飛ばされる
    • バイオとはほとんど関係ないヘルスケア分野について、毎日 PowerPoint? で企画書を書く日々
    • 半年間 耐える
  • 再び、現場へ。というか最前線(再び dry時代)
    • 会社時代から、草の根コミュニティに顔を出していたので、飛ばされたところを拾ってもらう。
    • ...
  • そういえば学位は
    • 会社時代に国内留学の形で阪大で(情報科学)
    • wet系だと、研究室にはりついて、ですが、情報系なので、パソコンがあればどこでもよく、メールベースでやりとりでOKだったので。
    • ただ、学位を取る前に会社を辞めたので、資金的な補助は打ち切り、すべて会社に返納

_ 本題

_ そもそも「自然言語」とは何か?

  • 英語だと "natural language" (直訳だ)
  • ようするに「テキスト情報」
  • きっちり目に言うと、「日常生活に用いられる言語」
    • 日常生活、とは言え、今回は、研究生活ですが
  • もっと平たく言うと「日本語とか英語とかの文章」
  • 自然言語リソースの例

_ なんで「自然言語」リソースに注目するのか?

  • 量:どのくらいの自然言語リソースがあるか
    • 代表はMEDLINE(ようするにPubMed?
    • 問:PubMedには何件の文献がおさめられているでしょうか?
    • 問:PubMed?にはどのくらい前からの文献がおさめられているでしょうか?
      • 検索した状態で "Sort by"を "Pub Date"にして、最後のページにアクセスしてみる
      • 今、かなり前の文献まで収載しようとしていて、実際のは、PubMed Overviewに書いてあったりします。
    • 50年以上にわたって集められた膨大な資産が自然言語という形で存在する (まさにknowledge base)
  • 質:バイオなデータにはどんなのがあるのか。他のデータベースと比較してみる
    一般的なバイオ系DB自然言語リソース
    Entrez geneDB例PubMed?
    配列、発現、SNP、...データの中身の例文献
    豊富他のDBへのリンク貧弱
    整っている構造肝心の内容は構造化されていない
    • 文献データは、遺伝子などのデータベースと別の世界を作っている
  • 自然言語リソースを活用しよう!

_ 自然言語処理とは

  • 英語だと、natural language processing (NLP) と言います
  • 情報処理の話なので、バイオなにおいはあまりないですが。。。
  • テキストマイニング (text mining)
    • mine: 地雷、鉱山、採掘する (mine sweeper っちゅうゲームのmine)
    • テキストの山からお宝(=有用な情報)を掘り当てること
  • どんなtaskが?
    • どの文字からどの文字までが遺伝子、疾患、化合物などをさしているか言い当てる(named entity recognition: NER)
    • 書いてある要素(遺伝子、…)どうしの関連の抽出:up-regulate, bind, inhibit, phosphorylation, …
  • 困難なところ(遺伝子を例に)
    • 1つの遺伝子は、複数の名前をもっている
      SLC26A4: pendrin, PDS, pendred syndrome gene, DFNB4, solute carrier family 26 member 4
    • 複数の遺伝子などで、同じ名前を共有している
      PDS: pendred syndrome gene
      PDS: prostaglandin D2 synthase
      PDS: ...
      • 問:略語と長い名前のペアを検索するサービス Allie を使ってどんな長い名前があるか見てみよう
    • 長い名前には、書き方のバリエーション(揺らぎ)がある
      例:NHE3 (PubMed を検索して最新20件についての記述の例)
      Na(+)/H(+) exchanger 3
      Na+/H+ exchanger 3
      Na(+)-H(+) exchanger NHE3
      Na/H exchanger isoform 3
      type 3 Na(+)/H(+) exchanger
      type 3 sodium hydrogen exchanger
      sodium/proton exchanger NHE3
  • 結局、「自分の興味のある論文を(ノイズを減らしつつ)探しあてる」「論文に書いてある中身を理解する」という人間のやっている仕事と根源は同じ
    • ただ、大量なので、コンピューターで処理しましょう、ということ
    • いくつかの遺伝子を掘り下げる → ゲノムワイドにがっさり

_ 自然言語処理の活用事例

  • マイクロアレイなどのゲノムワイドな解析で得た遺伝子群についての生物学的な解釈
    • 普通は、Gene Ontologyという語を使ったりするが、疾患、薬剤、生命現象はイマイチ
  • Ingenuity Pathway Analysis
    • 製品です。(学生に身分では買えないくらいの額)
    • 知識のある人(学位のある人)が論文を読んで知識抽出。遺伝子のネットワークなどで表現
  • Gendoo (gene, disease features ontology-based overview system)
    • 遺伝子や疾患の特徴をキーワードで表す、というもの
    • データのつくりかた
      • 各遺伝子(Entrez Gene)や疾患(OMIM)について、記載のある文献を取得する
      • 各文献に付与されたキーワード(MeSH term)を抽出
      • スコアリング
    • 例:APP (amyloid precursor protein)
      • Gene Ontology
        Categoryterm
        Molecular Functionacetylcholine receptor binding
        identical protein binding
        serine-type endopeptidase inhibitor activity
        Biological Processcellular copper ion homeostasis
        neuromuscular process
        Cellular ComponentGolgi apparatus
        cell surface
        cytoplasm
        extracellular region
        integral to plasma membrane
        plasma membrane
        platelet alpha granule lumen
      • Gendoo (MeSH)
        Cateogoryterm
        DiseaseAlzheimer Disease
        Cerebral Amyloid Angiopathy
        Amyloidosis
        DrugsAmyloid beta-Protein Precursor
        Amyloid beta-Protein
        Peptide Fragments
        Biological phenomenaProtein Binding
        Protein Structure, Tertiary
        Protein Structure, Secondary
        AnatomyBrain
        Neurons
        Senile Plaques
        ...
        Chromosomes, Human, Pair 21
    • 例:1型糖尿病と2型糖尿病の特徴の違い
      nar.fig1.png

_ まとめ

 
添付ファイル: filenar.fig1.png 764件 [詳細]
 
Link: AJACS7(3923d)
Last-modified: 2009-01-23 (金) 12:16:14 (3955d)