MotDB


AJACS21/bono1

講習会のページに戻る

統合データベースの利用法:統合データベースプロジェクトのサービスを使い倒す


目次


_ はじめに:参加者アンケート

  • おもにMacの人:7
  • おもにWindowsの人:23
  • iPhoneの人:3
    • そのうちiPhoneでウェブブラウジングメインの人:0
  • ウェブブラウザはInternet Explorerの人:13
  • ウェブブラウザはFirefoxの人:10
  • ウェブブラウザはSafariの人:3
  • ウェブブラウザはChromeの人:2
  • データベースを良く利用する人:11
  • バイオインフォマティクスを使っている人:4
  • プログラミングをたしなむ人:7
  • データベースを構築している人:1
  • データベースを構築したい人:7
  • ライフサイエンス統合データベースセンターの存在を知っていた人:11

_ ポータル

_ 生命科学系 データベース カタログ

http://lifesciencedb.jp/lsdb.cgi?pg=1

文字通り「データベースのデータベース」。日本国内のものが中心。DBの形式、対象、生物種、提供機関などで分類されています。

  • 【実習A1】データベースカタログにアクセスし、「DB型」→「プロジェクト」のカテゴリーを表示しなさい。テーブル上にある「ソート」を変更してエントリを並び替え、「アクセスの多い順」にしなさい。上位のデータベースをクリックし、右のウインドウに表示されるそのデータベースに関する詳細情報(日本語)を閲覧しなさい。
  • 【実習A2】「表示形式」を「リスト」から「サムネイル」に変更してみなさい。より多くのデータベースエントリが一画面が表示され、全体を俯瞰することができます。サムネイルに「休止中」と書かれているデータベースを見つけなさい。
  • 【応用A3】サムネイルに「休止中」と書かれたデータベースはなぜ休止中となっているか、その理由を考えてみなさい。

生命科学系データベースカタログを使い倒す 2009 http://lifesciencedb.jp/image/small_video_icon.png

_ 検索

_ Google

http://www.google.co.jp/

Google(「グーグル」と読みます)検索することを「ググる」といいます。そこでインターネット上では、自分でインターネット検索もせずにあれこれと質問をしてくるユーザーに対して以下のようにいうことがあります。

ググれカス

  • 【実習B1】DBCLSでググりなさい。

    ←こたえは左の+マークをクリックすると出てきます

    約 163,000 件

でもこれは「ウェブ全体から検索」した結果なのです。

  • 【実習B2】ググった結果のページ中で「日本語のページを検索」のリンクを探してクリックしなさい。

    ←こたえ。上記の結果と比較してどう変化するでしょうか?

    約 160,000 件

  • 【実習B3】さらに検索窓右下の「検索オプション」をクリックして絞り込みをかけてみなさい。ドメイン.ac.jpを指定すると何件ぐらいに絞り込まれますか?

    ←こたえ。得られる結果にはどういった特徴があるだろうか?

    約6,110 件で、ドメインがdbcls.rois.ac.jpのサイトばかりがヒットしてくるといった特徴がある

  • 【応用B4】さらに見るべきヒットを絞り込むにはどういうオプションを指定すればいいだろうか?

    ←こたえ。

    例えば、「キーワードを含めない」オプションでroisを指定してみる

  • 【応用B5】'DBCLS' は「ライフサイエンス統合データベースセンター」の略号であるが、たまに「ライフサイエンス総合データベースセンター」と間違えられる。そう間違えられている例を"で囲うことでインターネット検索エンジンを用いて抽出しなさい。

    ←こたえ。

    "ライフサイエンス綜合データベースセンター”でググって、「キーワードを含めない」オプションでライフサイエンス統合データーベースセンターを指定してみる

_ 生命科学データベース横断検索

インターネット上のすべてのサイトがググれるわけではありません。グーグルで検索してもググれない状態になっていることを以下のように呼ばれています。

グーグル八分

けっしてライフサイエンス分野のコンテンツは、ググッても出てこないのはグーグル八分に遭っているからではなく、検索用のインデックスが作成されていないから、です(もちろん、コンテンツがインターネット上で公開されていないからということの方がとくに本邦ではとくに多いのですが)。Googleも学術資料用にGoogle Scholarという特別なサービスを作っていますが、DBCLSでは持続的に日本語を母国語とする我々が使いやすい生命科学データベース横断検索サービスを維持しております。

http://lifesciencedb.jp/dbsearch/

  • 【実習C1】口蹄疫で、1)ググりなさい、2)Google Scholar検索してみなさい、3)生命科学データベース横断検索しなさい。それぞれの検索結果を比較してみなさい。
  • 【実習C2】生命科学データベース横断検索結果の左側に各データベースごとの得られた結果のエントリ数が表示されるので、それらを確認せよ。そして、ハイライト表示されているワードには口蹄疫はもちろんであるが、他のワードもハイライトされているものがあるのを見つけなさい。果たしてそれは何か?

    ←こたえ。

    ’foot and mouth disease’このように日本語で検索しても英語でのデータベースも同時に翻訳されて検索結果が返ってくるのがこの横断検索の大きな特徴です。

  • 【実習C3】いわゆる「データベース」以外にも、蛋白質・核酸・酵素の過去記事や、文科省「ゲノム」特定領域研究の報告書といった、日本語の文献もヒットしてきていることを確認し、中身の一部を見てみなさい。
  • 【応用C4】自分の研究テーマに関係のあるキーワード(例えば低酸素)や指導教員の名前(例えば大隅典子)で検索してみなさい。どういういったデータベースのどのエントリがヒットしてくるか?

生命科学データベース横断検索を使い倒す http://lifesciencedb.jp/image/small_video_icon.png

  • 同様の仕組みでTogoProt?という蛋白質関連データベース統合検索も提供されている。

TogoProtの使い方〜検索と連携〜 http://lifesciencedb.jp/image/small_video_icon.png

_ Allie(略語検索エンジン)

  • 【実習D1】'SPF'でググリなさい。どういったことが起こるか?

    ←こたえ。

    例えば、'DBCLS'でGoogle検索しても「ライフサイエンス統合データベースセンター」以外の'DBCLS'はインターネット上にそれほどないため困らないのであるが、短い略語の場合は同義語がインターネット上に多数存在して調べたい情報に行き着くまでに非常に苦労することになります。

つまり、こういうことです。

ググるなあぶない

http://allie.dbcls.jp/

  • 【実習D2】Allieを用いて'SPF'を検索してみなさい。共起している略語やその略語の専門分野を見ることで、1)実験用マウスを飼う環境を意味する'SPF'、2)日焼け止めクリームに書いてある'SPF'の略す前の形(long form)を調べよ。

    ←こたえ。

    1)specific pathogen-free 2)sun protection factor

  • 【実習D3】Allieを用いて'iPS'を検索してみなさい。何年からこの略語は使われだしたか?ここで調べる限り、いくつの論文がこの略語を用いているか?またその論文のリストを表示せよ。

    ←こたえ。

    'induced pluripotent stem'を意味するiPSという語は2007年から255の論文中に出現している。それらの論文でよく一緒に使われている略語は'ES'である。

  • 【応用D4】自分の研究分野でよく使われている略語を入力し、他の分野ではどういった意味に使われているか調べてみなさい。

Allieを使って略語の正式名称を検索する2009 http://lifesciencedb.jp/image/small_video_icon.png

  • 同様の仕組みでOReFiLというPubMed?のabstract中に存在するURLを検索する仕組みも提供されている。

OReFiLを使い倒す 2010 http://lifesciencedb.jp/image/small_video_icon.png

_ inMeXes?

http://docman.dbcls.jp/im/

逐次PubMed?/MEDLINE表現検索。

  • 【実習E1】inMeXes?で'diff’と入力してみなさい。いくつもの候補が表示されることを確認してからさらに'erent'と入力してみなさい(結果として'different'と入力)。この前もしくは後にはどんな前置詞がよく使われるだろうか?

    ←こたえ。

    前には'of'、あとには'from’が一番多い

  • 【実習E2】'different from'のリンクをクリックすると、共起検索結果が表示される。この成句の前に付く単語にはどのようなものがあるか、「一語前でソート」ボタンをクリックするなどして調べよ。
  • 【応用E3】さらにつづけて'ial'と入力し(結果として'differential'と入力)、先ほどから画面が動的に変わっていくことを確認せよ。この後にはどんな名詞がよく使われるか?さらに'ly'をつけて副詞形にした場合はどういう結果が出てくるか?

inMeXesを使い倒す http://lifesciencedb.jp/image/small_video_icon.png

_ データベース

紹介しだしたらきりがないので、ここではDBCLSでサービスしている核酸配列と遺伝子発現のデータベースに対する検索サービスだけ紹介します。

_ DNAデータベース総覧と検索

http://lifesciencedb.jp/ddbj/

DDBJ/EMBL/GenBank?(DNA塩基配列のデータベース)に登録されている全レコードをプロジェクト単位で分類。「生物種」と「研究の型」の二次元で分類。データを一括ダウンロード可能。

  • 【実習F1】「生物群区分」で特定のカテゴリーを選ぶと、研究プロジェクト数が絞り込まれることで数が変化する。「生物群区分」で「ヒト」を選ぶ前と後で「研究の型別分類」の「機能RNA・RNAゲノム」の項目はいくつからいくつに変化するか?

    ←こたえ。

    23,616→198

  • 【実習F2】「生物群区分」で「ヒト」、「研究の型別分類」で「mRNA」を選んで得られる研究プロジェクトのリストを、「研究プロジェクトの一覧」を「サイズ順」にすることでデータサイズの大きなプロジェクト順に並び替えなさい。トップ3にランキングされる研究プロジェクトはそれぞれ何か?それぞれのエントリについて「詳細」をクリックしてそのレコードを見てみなさい。

    ←こたえ。

    1位: 15000'のネズミとヒトの全長cDNA決定, 15000以上のヒトネズミ全長cDNAの最初の読み取りと解析, ヒトとマウスの15000の全長cDNA:参照データ、2位: 21,243種のヒト完全長cDNAの完全塩基配列決定と特性評価・NEDOヒトcDNA配列決定プロジェクト、3位: NEDO human cDNA sequencing project focused on splicing variants

  • 【実習F3】統合ホームページ中の「ダウンロード」のタブをクリックすると、国内のゲノム・ポストゲノムプロジェクト配列データのダウンロードページに辿り着ける。この中から興味のあるプロジェクトを選び(例えば、シロイヌナズナ (Riken2004年))、公開されている配列をFASTA形式で一括ダウンロードしなさい。
  • 【応用F4】上の実習でわずか数クリックで実現した一括ダウンロードできることのメリットは何だろうか?それがない場合、どういった手続きをしないといけないかを考えてみなさい。

    ←ヒント。

    NCBI Entrezなどで一回ずつFASTA形式のファイルをダウンロードする場合と比較してみましょう。

DNAデータベース総覧と検索を使い倒す http://lifesciencedb.jp/image/small_video_icon.png

_ 遺伝子発現バンク(GEO)目次

http://lifesciencedb.jp/geo/

NCBIのGEO(Gene Expression Omnibus:mRNA発現情報のデータベース)に登録されている全レコードをプロジェクト単位で分類。「生物群区分」、「測定技術分類」、「解剖学分類」の三次元で分類。データを一括ダウンロード可能。

  • 【実習G1】右上のフォームで興味のあるキーワード(例えばhypoxia)で検索しなさい。どのような結果が返ってくるか、検索前の画面と比較してみなさい。検索結果のテーブルの最上部のヘッダ部分の「登録日」をクリックして、その結果を登録日順に並び替えてみなさい。また、「生物群区分」や「測定技術分類」のタブをクリックすると何がおこるか、実際にクリックして試してみなさい。最後に左上の「トップ」をクリックして検索結果をリセットしなさい。
  • 【実習G2】「生物群区分」で特定のカテゴリーを選ぶと、研究プロジェクト数が絞り込まれることで数が変化する。「生物群区分」で「ヒト」を選ぶ前と後で「測定技術分類」の「GeneChip?」の項目はいくつからいくつに変化するか?そして、この数字から何がいえるか、考えてみなさい。

    ←こたえ。

    9193→3782、これまでGeneChip?データとしてGEOに登録されたもののうち約4割がヒトのものである。

  • 【実習G3】最上部のタブの「登録データ推移」をクリックすると、これまでの登録データの推移がグラフ表示される。ここで、「測定技術分類」の「GeneChip?」をクリックした際のグラフと、「オリゴアレイ」をクリックした際のグラフをそれぞれ表示してみなさい。この二つのグラフの違いから何がいえるか、考えてみなさい。

    ←こたえの一例。

    GeneChip?の場合その利用のほとんどがHumanかRodentである(約8割)一方、オリゴアレイの場合はそれが約半分とさまざまな生物種での利用が広まっていることがいえる。

  • 【応用G4】右上のフォームで興味のあるキーワードで検索し、その結果を登録日順に並び替えた上で、右上のRSSボタンをクリックして、検索結果をRSSとして登録しなさい。そしてRSS readerに登録し、日々エントリが増えないか、追跡しなさい。

遺伝子発現バンク(GEO)目次を使い倒す 2010 http://lifesciencedb.jp/image/small_video_icon.png

ここから先の、GEOでのデータの解析方法については、「遺伝子発現データベースを使い倒す」にて詳しく紹介します。

_ アーカイブ

_ 生命科学系データベースアーカイブ

http://dbarchive.lifesciencedb.jp/

_ DDBJ Sequence Read Archive (DRA)

この後の「次世代シーケンサの活用法:DRA (DDBJ Sequence Read Archive)」にて詳しく説明。

_ ツール&解析サービス

_ BodyParts3D/Anatomography

講習会2日目の「情報の可視化:BodyParts3D/Anatomography」にて詳しく説明。

_ MiGAP (微生物ゲノムアノテーションパイプライン)

この後の「次世代シーケンサの活用法:データの解析法」にて詳しく説明。

_ DBCLS Galaxy

Galaxyを使い倒す-特定の転写因子予測結合領域と遺伝子上流領域の「交差点」をリストアップする http://lifesciencedb.jp/image/small_video_icon.png


朝夕の食事は、うまからずとも誉めて食うべし。

 
Link: AJACS27/mitsuhashi(3066d) AJACS21(3395d) AJACS21/hono2(3417d)
Last-modified: 2010-09-03 (金) 11:07:08 (3388d)