MotDB


AJACS39 のバックアップソース(No.5)

統合データベース講演会&講習会 in 東京理科大学 (20130515)

&size(36){データベース活用による知のめぐりのよい細胞生物学};

担当:[[坊農秀雅>http://dbcls.rois.ac.jp/~bono/]]([[ライフサイエンス統合データベースセンター>http://dbcls.rois.ac.jp/]])他DBCLS特任研究員ズ

講演「データベース活用による知のめぐりのよい細胞生物学」 90分ののち、以下の講習会90分の予定。

----
~目次
#contents
----

* 講習会のはじめに:参加者アンケート [#u0f5ae55]
- おもにMacの人:
- おもにWindowsの人:
- おもにiPadの人:
- iPhoneの人:
--そのうちiPhoneでウェブブラウジングメインの人:
- ウェブブラウザはInternet Explorerの人:
- ウェブブラウザはFirefoxの人:
- ウェブブラウザはSafariの人:
- ウェブブラウザはChromeの人:
- データベースを良く利用する人:
- バイオインフォマティクスを使っている人:
- プログラミングをたしなむ人:
- データベースを構築している人:
- データベースを構築したい人:
- ライフサイエンス統合データベースセンターの存在を知っていた人:

* DBチュートリアル:統合TV [#z4f87418]
以下に紹介するツールの多くは統合TVでその使い方が動画で紹介されています。是非参考にして下さい。

> http://togotv.dbcls.jp/ja/


* DBカタログ&コンテンツ [#a668ddeb]
** Integbioデータベースカタログ [#h45be91d]
> http://integbio.jp/dbcatalog/

文字通り「データベースのデータベース」。日本国内のものが中心。DBの形式、対象、生物種、提供機関などで分類されています。

- 【実習A1】データベースカタログにアクセスし、「一覧を絞り込む」から「ゲノム」のところをクリックし、ゲノム関係のデータベースだけに絞り込まれるのを確認しなさい。
- 【応用A2】興味あるキーワードで「一覧内を検索する」のフォームからデータベースを検索してみなさい(例えば、「イネ」)。
- 【応用A3】サムネイルに「休止中」と書かれたデータベースはなぜ休止中となっているか、その理由を考えてみなさい。

[[Integbioデータベースカタログの使い方>http://togotv.dbcls.jp/20121127.html]] http://lifesciencedb.jp/image/small_video_icon.png

* DB検索 [#md8b6007]

** Google [#cb591881]

> http://www.google.co.jp/

Google(「グーグル」と読みます)検索することを「ググる」といいます。そこでインターネット上では、自分でインターネット検索もせずにあれこれと質問をしてくるユーザーに対して以下のようにいうことがあります。

&size(30){ググれカス};

- 【実習B1】''DBCLS''でググりましょう。何件ヒットがありますか?
#fold(←こたえは左の+マークをクリックすると出てきます,2013年5月5日現在、約 1,020,000 件)

- 【実習B2】さらに検索窓右上の歯車マークをクリックすると出てくる「検索オプション」をクリックして絞り込みをかけてみましょう。''ドメイン''で'''.ac.jp'''を指定すると何件ぐらいに絞り込まれますか?
#fold(←こたえ。得られる結果にはどういった特徴があるだろうか?,2013年5月5日現在、約 11,800 件で、ドメインがdbcls.rois.ac.jpのサイトばかりがヒットしてくるといった特徴がある)

- 【応用B3】さらに見るべきヒットを絞り込むにはどういうオプションを指定すればいいだろうか?
#fold(←こたえ。,例えば、「キーワードを含めない」オプションで'''rois'''を指定してみる)

- 【応用B4】'DBCLS' は「ライフサイエンス統合データベースセンター」の略号であるが、たまに「ライフサイエンス総合データベースセンター」と間違えられる。そう間違えられている例を"で囲うことでインターネット検索エンジンを用いて抽出しなさい。
#fold(←こたえ。,"ライフサイエンス総合データベースセンター”でググって、「キーワードを含めない」オプションで'''ライフサイエンス統合データーベースセンター'''を指定してみる)

** 生命科学DB横断検索 [#mbfec250]

インターネット上のすべてのサイトがググれるわけではありません。グーグルで検索してもググれない状態になっていることを以下のように呼ばれています。

&size(30){[[グーグル八分>http://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%BC%E3%82%B0%E3%83%AB%E5%85%AB%E5%88%86]]};

ライフサイエンス分野のコンテンツがググッても出てこないのは、グーグル八分に遭っているからではなく、検索用のインデックスが作成されていないから、です(もちろん、コンテンツがインターネット上で公開されていないからということの方が本邦ではとくに多いのですが)。Googleも学術資料用に[[Google Scholar>http://scholar.google.co.jp/]]という特別なサービスを作っていますが、DBCLSではそういったものに頼らずに持続的に日本語を母国語とする我々が使いやすい生命科学データベース横断検索サービスを維持しております。

> http://biosciencedbc.jp/dbsearch/

-【実習C1】''高血圧''で、1)ググりなさい、2)Google Scholar検索してみなさい、3)生命科学データベース横断検索しなさい。それぞれの検索結果を比較してみなさい。
-【実習C2】生命科学データベース横断検索結果の左側に各データベースごとの得られた結果のエントリ数が表示されるので、それらを確認せよ。そして、ハイライト表示されているワードには''高血圧''はもちろんであるが、他のワードもハイライトされているものがあるのを見つけなさい。果たしてそれは何か?
#fold(←こたえ。,’hypertension’このように日本語で検索しても英語でのデータベースも同時に翻訳されて検索結果が返ってくるのがこの横断検索の大きな特徴です。)
-【実習C3】検索結果を見てみましょう。「医療・薬」の左側の’+’をクリックして階層を解いてみましょう。さらに「薬」の階層を’+’をクリックすることで解いてみましょう。どんな「データベース」にどれだけのヒットがあったか、見てみましょう。「GenomeNet内JAPIC」には薬の添付文書の検索結果など、フリーで利用可能なデータベースの検索結果が得られていることを確認し、中身の一部を見てみなさい。
-【応用C4】いわゆる「データベース」以外にも、蛋白質・核酸・酵素の過去記事や、文科省「ゲノム」特定領域研究の報告書といった、日本語の文献もヒットしてきていることを確認し、中身の一部を見てみなさい。
- 【応用C5】自分の研究テーマに関係のあるキーワード(例えば''シロイヌナズナ'')や指導教員の名前(例えば''朽津和幸'')で検索してみなさい。どういういったデータベースのどのエントリがヒットしてくるか?

[[生命科学データベース横断検索を使い倒す>http://togotv.dbcls.jp/20110223.html]] http://lifesciencedb.jp/image/small_video_icon.png

** Allie:略語検索エンジン [#u53dd605]

- 【実習D1】'SPF'でググリなさい。どういったことが起こるか?
#fold(←こたえ。,例えば、'DBCLS'でGoogle検索しても「ライフサイエンス統合データベースセンター」以外の'DBCLS'はインターネット上にそれほどないため困らないのであるが、短い略語の場合は同義語がインターネット上に多数存在して調べたい情報に行き着くまでに非常に苦労することになります。)

つまり、こういうことです。

&size(30){[[ググるなあぶない>http://motdb.dbcls.jp/?plugin=attach&pcmd=open&file=donotgoogle.jpg&refer=AJACS26%2Fbono]]};

> http://allie.dbcls.jp/

- 【実習D2】Allieを用いて'SPF'を検索してみなさい。共起している略語やその略語の専門分野を見ることで、1)実験用マウスを飼う環境を意味する'SPF'、2)日焼け止めクリームに書いてある'SPF'の略す前の形(long form)を調べよ。
#fold(←こたえ。,1)specific pathogen-free 2)sun protection factor)

- 【実習D3】Allieを用いて'iPS'を検索してみなさい。何年からこの略語は使われだしたか?ここで調べる限り、いくつの論文がこの略語を用いているか?またその論文のリストを表示せよ。
#fold(←こたえ。,'induced pluripotent stem'を意味するiPSという語は2007年から860の論文中に出現している(2013年5月5日現在)。それらの論文でよく一緒に使われている略語は'ES'である。)

- 【応用D4】自分の研究分野でよく使われている略語を入力し、他の分野ではどういった意味に使われているか調べてみなさい。

[[Allieを使って略語の正式名称を検索する2010>http://togotv.dbcls.jp/20100831.html]] http://lifesciencedb.jp/image/small_video_icon.png

** 核酸配列 [#yeaa6bdc]
GenBankやRefSeqなどいろいろデータベースが存在して混乱気味なので以下にまとめます。
#ref(http://motdb.dbcls.jp/?plugin=attach&refer=AJACS13%2Fthecla&openfile=flow.gbref.006.png)
-どんなデータが?
--GenBank … 研究者が登録した配列(生データ)
--[[RefSeq:http://www.ncbi.nlm.nih.gov/RefSeq/]] … GenBank に登録された配列を、NCBIがまとめてreferenceとしてまとめたもの
---元来は、登録される配列は断片であったので(昔のDNAシーケンサーは長く読めなかった and/or つないでいない)
--Entrez Gene … RefSeq の配列に対して、外部リンク、ゲノム上の位置、遺伝子名、Gene Ontology(機能を表す用語)などのアノテーション情報をつけたもの
-コメント
--GenBankもRefSeqもNucleotide (GenBank)から検索できます
--RefSeqは、アクセッション番号が、NM_#########、NC_#########、XM_#########などになっています。
--結局:RefSeqにデータがあればよいですが、微生物系はキビシイかも
--参考:昔、キーワード検索をしたら、同じ名前の全然 違う遺伝子のデータをダウンロードしてしまい、論文出版後に再現性がとれないとクレームがついた事件があったりしたので、検索は十分に気をつけましょう。

- 【実習E1】Entrez Geneで'SOD'と遺伝子名で検索しましょう。
> http://www.ncbi.nlm.nih.gov/nuccore

検索結果の各エントリの'FASTA'のリンクをクリックすると塩基配列がFASTAフォーマットで得られます。ここからいろんな生物種のSODとアノテーションされた核酸配列を集めることが可能です。
実に多くのエントリがひっかかってきますが、すべてが完全長(complete cds)ではなく、またRefSeqだけでなくGenBankの配列もまじっていることを確認しましょう。

*** GGRNA [#o6ca489b]
RefSeqのある生物種に対して超高速に検索できるようにしたDBCLS謹製のサービス。

- 【実習E2】ヒトの遺伝性乳がんに関与しているといわれている遺伝子'''BRCA2'''をGGRNAで検索しましょう。そのアミノ酸配列をエントリ中から探し出しましょう(ヒント:CDSの項目の、translation=のところに書かれています)。
- 【応用E3】上で探しだしたヒト'''BRCA2'''のアミノ酸配列をクエリとして相同な遺伝子を配列類似性(BLAST)検索しましょう。データベースとしてはアミノ酸配列セットを用い、検索プログラムにはBLASTPを選びましょう。
例えば、シロイヌナズナの配列セットに対して検索する場合にはTAIR BLAST、

> http://www.arabidopsis.org/Blast/

ユーカリの配列セットに対して検索する場合にはかずさDNA研究所のEucalyptus camaldulensis Genome DatabaseのBLAST検索

> http://www.kazusa.or.jp/eucaly/search.html#similarity

を使うほうがオリジナルのNCBI BLAST

> http://www.ncbi.nlm.nih.gov/blast/

よりも使い勝手がよいようです。

この操作によりヒト遺伝子'''BRCA2'''のhomologがシロイヌナズナとユーカリにおいて見いだせますが、前者はヒットした遺伝子にきっちりとBRCA2 homologと書かれていましたが、後者はそうではありませんでした。このように''遺伝子アノテーションは最初から整備されているものではなく、データベースとして維持管理して初めて享受できるもの''です。データベースを管理してくれている人たちに感謝して利用しましょう。

** 遺伝子発現 [#g6c16a37]

*** NCBI Gene Expression Omnibus [#d0507d2e]

*** RefEx (Reference Expression dataset) [#u9218007]