MotDB


AJACS7/thecla のバックアップソース(No.3)

*「自然言語処理技術の活用実例」 [#def3411a]

*一応、自己紹介 [#j43e7643]
-前置き
-副題:東工大生のキャリアパス
**略歴 [#zaf1a2c8]
***東工大 生命理工の卒業生です。(wet時代) [#w6dda962]
-生体機構学科(現:生命科学科)
-→ 生体システム専攻
***広瀬研究室でした [#g4268d8c]
-卒研のテーマ:恐山ウグイにおける酸性適応機構の解明
-修論のテーマ:ウナギにおける硫酸トランスポーターの解析と海水適応に果たす役割
-ようするに「浸透圧調節、血圧調節、イオン濃度調節の分子生物学的なアプローチ」って感じです。
***その後 [#h543d418]
-IT系大企業のバイオインフォマティクス部門に就職(dry時代)
--なぜ、そんなところに
---まわりが製薬や食品に就職する中、挫折感と実験もうやりたくない、という思いから
---でも、バイオの分野からは離れたくなかった
--やっていたこと
---ソフト開発:文献データから情報を抽出して、遺伝子の特徴を表示する。関連遺伝子のネットワーク表示
---テクニカルマーケティング:上記ソフトの営業支援、今後の開発についての戦略策定
---市場調査・情報収集:今、何が「来ている」か。今後、何が「来る」か。
-部署のおとりつぶしに遭う(冬の時代)
--別の部署に飛ばされる
--バイオとはほとんど関係ないヘルスケア分野について、毎日 PowerPoint で企画書を書く日々
--半年間 耐える
-再び、現場へ。というか最前線(再び dry時代)
--会社時代から、草の根コミュニティに顔を出していたので、飛ばされたところを拾ってもらう。
--...
-そういえば学位は
--会社時代に国内留学の形で阪大で(情報科学)
--wet系だと、研究室にはりついて、ですが、情報系なので、パソコンがあればどこでもよく、メールベースでやりとりでOKだったので。
--ただ、学位を取る前に会社を辞めたので、資金的な補助は打ち切り、すべて会社に返納

*本題 [#bab330ce]
**そもそも「自然言語」とは何か? [#z7e41005]
-英語だと "natural language" (直訳だ)
-ようするに「テキスト情報」
-もっと平たく言うと「文献」
-きっちり目に言うと、「日常生活に用いられる言語」
--日常生活、とは言え、今回は、研究生活ですが
--日本語とか英語とかの文章
-自然言語リソースの例
--NCBIの
---[[PubMed:http://www.pubmed.org]](文献データベース・あとで触れる)
---[[OMIM:http://www.ncbi.nlm.nih.gov/omim]](疾患と疾患関連遺伝子のデータベース)
--統合ホームページの
---[[蛋白質核酸酵素 全文検索:http://lifesciencedb.jp/pne/]]
---[[文科省「ゲノム」研究報告書 全文検索:http://lifesciencedb.jp/houkoku/]]
---[[学会要旨統合検索:http://lifesciencedb.jp/lsdb.cgi?gg=tool_tproc]]
---[[新聞記事検索:http://lifesciencedb.jp/mainichi/]]
--一般的に
---[[Wikipedia:http://en.wikipedia.org/wiki/SLC26A4]] … SLC26A4 という遺伝子のエントリを例に
---[[ブログ:http://blog.dbcls.jp/portal/]] … 統合DBプロジェクトのスタッフブログ「統合ぐらし」を例に
**なんで「自然言語」リソースに注目するのか? [#s6ab196b]
-量:どのくらいの自然言語リソースがあるか
--代表はMEDLINE(ようするにPubMed)
--問:PubMedには何件の文献がおさめられているでしょうか?
---PubMedを "All[filter]" で検索してみる → 件数は?
--問:PubMedにはどのくらい前からの文献がおさめられているでしょうか?
---検索した状態で "Sort by"を "Pub Date"にして、最後のページにアクセスしてみる
---今、かなり前の文献まで収載しようとしていて、実際のは、[[PubMed Overview:http://www.ncbi.nlm.nih.gov/entrez/query/static/overview.html]]に書いてあったりします。
--''50年以上にわたって集められた膨大な資産が自然言語という形で存在する (まさにknowledge base)''
-質:バイオなデータにはどんなのがあるのか。他のデータベースと比較してみる
--比較表でも入れるか?
--''文献データは、遺伝子などのデータベースと別の世界を作っている''



-つづく