MotDB


AJACS39 のバックアップソース(No.2)

&size(36){データベース活用による知のめぐりのよい細胞生物学};

担当:[[坊農秀雅>http://dbcls.rois.ac.jp/~bono/]]([[ライフサイエンス統合データベースセンター>http://dbcls.rois.ac.jp/]])

----
~目次
#contents
----

* はじめに:参加者アンケート [#u0f5ae55]
- おもにMacの人:
- おもにWindowsの人:
- iPhoneの人:
--そのうちiPhoneでウェブブラウジングメインの人:
- ウェブブラウザはInternet Explorerの人:
- ウェブブラウザはFirefoxの人:
- ウェブブラウザはSafariの人:
- ウェブブラウザはChromeの人:
- データベースを良く利用する人:
- バイオインフォマティクスを使っている人:
- プログラミングをたしなむ人:
- データベースを構築している人:
- データベースを構築したい人:
- ライフサイエンス統合データベースセンターの存在を知っていた人:

* DBチュートリアル:統合TV [#z4f87418]
* DBカタログ&コンテンツ [#a668ddeb]
** Integbioデータベースカタログ [#h45be91d]
> http://biosciencedbc.jp/dbcatalog/dbcatalog.cgi?pg=1

文字通り「データベースのデータベース」。日本国内のものが中心。DBの形式、対象、生物種、提供機関などで分類されています。

- 【実習A1】データベースカタログにアクセスし、「DB型」→「プロジェクト」のカテゴリーを表示しなさい。テーブル上にある「ソート」を変更してエントリを並び替え、「アクセスの多い順」にしなさい。上位のデータベースをクリックし、右のウインドウに表示されるそのデータベースに関する詳細情報(日本語)を閲覧しなさい。
- 【実習A2】「表示形式」を「リスト」から「サムネイル」に変更してみなさい。より多くのデータベースエントリが一画面が表示され、全体を俯瞰することができます。サムネイルに「休止中」と書かれているデータベースを見つけなさい。
- 【応用A3】サムネイルに「休止中」と書かれたデータベースはなぜ休止中となっているか、その理由を考えてみなさい。

[[生命科学系データベースカタログを使い倒す 2009>http://togotv.dbcls.jp/20090523.html]] http://lifesciencedb.jp/image/small_video_icon.png

** 新着論文レビュー [#he1feed7]

> http://first.lifesciencedb.jp/

Nature,Science,Cell などに代表されるトップジャーナルに掲載された日本人を著者とする生命科学分野の論文について,論文の著者自身の執筆による,専門分野の異なる生命科学研究者にむけた日本語によるレビューを,だれでも自由に閲覧・利用できるようWeb上にていち早く無料で公開するサイト。DBCLS謹製。

[[ライフサイエンス 新着論文レビュー First Author'sを使い倒す>hhttp://togotv.dbcls.jp/20110301.html]] http://lifesciencedb.jp/image/small_video_icon.png

** 領域融合レビュー [#we800397]
* DB検索 [#md8b6007]

** Google [#cb591881]

> http://www.google.co.jp/

Google(「グーグル」と読みます)検索することを「ググる」といいます。そこでインターネット上では、自分でインターネット検索もせずにあれこれと質問をしてくるユーザーに対して以下のようにいうことがあります。

&size(30){ググれカス};

- 【実習B1】''DBCLS''でググりなさい。何件ヒットがありますか?
#fold(←こたえは左の+マークをクリックすると出てきます,2011年5月17日現在、約 227,000 件)

でもこれは「ウェブ全体から検索」した結果なのです。

- 【実習B2】ググった結果のページ中で「日本語のページを検索」のリンクを探してクリックしなさい。
#fold(←こたえ。上記の結果と比較してどう変化するでしょうか?,2011年5月17日現在、約 252,000 件)

- 【実習B3】さらに検索窓右下の「検索オプション」をクリックして絞り込みをかけてみなさい。''ドメイン''で'''.ac.jp'''を指定すると何件ぐらいに絞り込まれますか?
#fold(←こたえ。得られる結果にはどういった特徴があるだろうか?,2011年5月17日現在、約17,000 件で、ドメインがdbcls.rois.ac.jpのサイトばかりがヒットしてくるといった特徴がある)

- 【応用B4】さらに見るべきヒットを絞り込むにはどういうオプションを指定すればいいだろうか?
#fold(←こたえ。,例えば、「キーワードを含めない」オプションで'''rois'''を指定してみる)

- 【応用B5】'DBCLS' は「ライフサイエンス統合データベースセンター」の略号であるが、たまに「ライフサイエンス総合データベースセンター」と間違えられる。そう間違えられている例を"で囲うことでインターネット検索エンジンを用いて抽出しなさい。
#fold(←こたえ。,"ライフサイエンス総合データベースセンター”でググって、「キーワードを含めない」オプションで'''ライフサイエンス統合データーベースセンター'''を指定してみる)

** 生命科学DB横断検索, Sagace by 医薬基盤研究所 [#mbfec250]

インターネット上のすべてのサイトがググれるわけではありません。グーグルで検索してもググれない状態になっていることを以下のように呼ばれています。

&size(30){[[グーグル八分>http://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%BC%E3%82%B0%E3%83%AB%E5%85%AB%E5%88%86]]};

ライフサイエンス分野のコンテンツがググッても出てこないのは、グーグル八分に遭っているからではなく、検索用のインデックスが作成されていないから、です(もちろん、コンテンツがインターネット上で公開されていないからということの方が本邦ではとくに多いのですが)。Googleも学術資料用に[[Google Scholar>http://scholar.google.co.jp/]]という特別なサービスを作っていますが、DBCLSではそういったものに頼らずに持続的に日本語を母国語とする我々が使いやすい生命科学データベース横断検索サービスを維持しております。

> http://biosciencedbc.jp/dbsearch/

-【実習C1】''高血圧''で、1)ググりなさい、2)Google Scholar検索してみなさい、3)生命科学データベース横断検索しなさい。それぞれの検索結果を比較してみなさい。
-【実習C2】生命科学データベース横断検索結果の左側に各データベースごとの得られた結果のエントリ数が表示されるので、それらを確認せよ。そして、ハイライト表示されているワードには''高血圧''はもちろんであるが、他のワードもハイライトされているものがあるのを見つけなさい。果たしてそれは何か?
#fold(←こたえ。,’hypertension’このように日本語で検索しても英語でのデータベースも同時に翻訳されて検索結果が返ってくるのがこの横断検索の大きな特徴です。)
-【実習C3】検索結果を見てみましょう。「医療・薬」の左側の’+’をクリックして階層を解いてみましょう。さらに「薬」の階層を’+’をクリックすることで解いてみましょう。どんな「データベース」にどれだけのヒットがあったか、見てみましょう。「GenomeNet内JAPIC」には薬の添付文書の検索結果など、フリーで利用可能なデータベースの検索結果が得られていることを確認し、中身の一部を見てみなさい。
-【応用C4】いわゆる「データベース」以外にも、蛋白質・核酸・酵素の過去記事や、文科省「ゲノム」特定領域研究の報告書といった、日本語の文献もヒットしてきていることを確認し、中身の一部を見てみなさい。
- 【応用C5】自分の研究テーマに関係のあるキーワード(例えば''シロイヌナズナ'')や指導教員の名前(例えば''朽津和幸'')で検索してみなさい。どういういったデータベースのどのエントリがヒットしてくるか?

[[生命科学データベース横断検索を使い倒す>http://togotv.dbcls.jp/20091008.html]] http://lifesciencedb.jp/image/small_video_icon.png

** Allie:略語検索エンジン [#u53dd605]


- 【実習D1】'SPF'でググリなさい。どういったことが起こるか?
#fold(←こたえ。,例えば、'DBCLS'でGoogle検索しても「ライフサイエンス統合データベースセンター」以外の'DBCLS'はインターネット上にそれほどないため困らないのであるが、短い略語の場合は同義語がインターネット上に多数存在して調べたい情報に行き着くまでに非常に苦労することになります。)

つまり、こういうことです。

&size(30){[[ググるなあぶない>http://motdb.dbcls.jp/?plugin=attach&pcmd=open&file=donotgoogle.jpg&refer=AJACS26%2Fbono]]};

> http://allie.dbcls.jp/

- 【実習D2】Allieを用いて'SPF'を検索してみなさい。共起している略語やその略語の専門分野を見ることで、1)実験用マウスを飼う環境を意味する'SPF'、2)日焼け止めクリームに書いてある'SPF'の略す前の形(long form)を調べよ。
#fold(←こたえ。,1)specific pathogen-free 2)sun protection factor)

- 【実習D3】Allieを用いて'iPS'を検索してみなさい。何年からこの略語は使われだしたか?ここで調べる限り、いくつの論文がこの略語を用いているか?またその論文のリストを表示せよ。
#fold(←こたえ。,'induced pluripotent stem'を意味するiPSという語は2007年から440の論文中に出現している。それらの論文でよく一緒に使われている略語は'ES'である。)

- 【応用D4】自分の研究分野でよく使われている略語を入力し、他の分野ではどういった意味に使われているか調べてみなさい。

[[Allieを使って略語の正式名称を検索する2010>http://togotv.dbcls.jp/20100831.html]] http://lifesciencedb.jp/image/small_video_icon.png

** inMeXes → LSD [#cdd47739]


inMeXesは、逐次PubMed/MEDLINE表現検索エンジンです。

> http://docman.dbcls.jp/im/

- 【実習E1】inMeXesで'diff’と入力してみなさい。いくつもの候補が表示されることを確認してからさらに'erent'と入力してみなさい(結果として'different'と入力)。この前もしくは後にはどんな前置詞がよく使われるだろうか?
#fold(←こたえ。,前には'of'、あとには'from’が一番多い)

- 【実習E2】'different from'のリンクをクリックすると、LSD(Life Science Dictionary)プロジェクトのWebLSDサービスでの共起検索結果が表示される。この成句の前に付く単語にはどのようなものがあるか、「一語前でソート」ボタンをクリックするなどして調べよ。

- 【応用E3】さらにつづけて'ial'と入力し(結果として'differential'と入力)、先ほどから画面が動的に変わっていくことを確認せよ。この後にはどんな名詞がよく使われるか?さらに'ly'をつけて副詞形にした場合はどういう結果が出てくるか?

[[inMeXesを使い倒す>http://togotv.dbcls.jp/20091216.html]] http://lifesciencedb.jp/image/small_video_icon.png 

[[ライフサイエンス辞書を使い倒す2009〜オンライン辞書編〜>http://togotv.dbcls.jp/20090227.html]] http://lifesciencedb.jp/image/small_video_icon.png 


** DNA DB overview [#yeaa6bdc]

> http://lifesciencedb.jp/ddbj/

DDBJ/EMBL/GenBank(DNA塩基配列のデータベース)に登録されている全レコードをプロジェクト単位で分類。「生物種」と「研究の型」の二次元で分類。データを一括ダウンロード可能。

- 【実習F1】「生物群区分」で特定のカテゴリーを選ぶと、研究プロジェクト数が絞り込まれることで数が変化する。「生物群区分」で「ヒト」を選ぶ前と後で「研究の型別分類」の「機能RNA・RNAゲノム」の項目はいくつからいくつに変化するか?
#fold(←こたえ。,25,774→212)
- 【実習F2】「生物群区分」で「ヒト」、「研究の型別分類」で「mRNA」を選んで得られる研究プロジェクトのリストを、「研究プロジェクトの一覧」を「サイズ順」にすることでデータサイズの大きなプロジェクト順に並び替えなさい。トップ3にランキングされる研究プロジェクトはそれぞれ何か?それぞれのエントリについて「詳細」をクリックしてそのレコードを見てみなさい。
#fold(←こたえ。,1位: 15000'のネズミとヒトの全長cDNA決定, 15000以上のヒトネズミ全長cDNAの最初の読み取りと解析, ヒトとマウスの15000の全長cDNA:参照データ、2位: 21,243種のヒト完全長cDNAの完全塩基配列決定と特性評価・NEDOヒトcDNA配列決定プロジェクト、3位: NEDO human cDNA sequencing project focused on splicing variants)
-- 【参考】DDBJ形式のデータを読み解くのに[[DDBJ のデータ公開形式 (flat file) の説明>http://www.ddbj.nig.ac.jp/sub/ref10-j.html]]が参考になります。
- 【実習F3】統合ホームページ中の「ダウンロード」のタブをクリックすると、国内のゲノム・ポストゲノムプロジェクト配列データのダウンロードページに辿り着ける。この中から興味のあるプロジェクトを選び(例えば、シロイヌナズナ (Riken2004年))、公開されている配列をFASTA形式で一括ダウンロードしなさい。
- 【応用F4】上の実習でわずか数クリックで実現した一括ダウンロードできることのメリットは何だろうか?それがない場合、どういった手続きをしないといけないかを考えてみなさい。
#fold(←ヒント。,NCBI Entrezなどで一回ずつFASTA形式のファイルをダウンロードする場合と比較してみましょう。)

[[DNAデータベース総覧と検索を使い倒す>http://togotv.dbcls.jp/20091022.html]] http://lifesciencedb.jp/image/small_video_icon.png 

** GGRNA(RefSeq search) [#h3b20ca0]
** GEO overview [#g6c16a37]

> http://lifesciencedb.jp/geo/

NCBIの[[GEO>http://www.ncbi.nlm.nih.gov/projects/geo/]](Gene Expression Omnibus:mRNA発現情報のデータベース)に登録されている全レコードをプロジェクト単位で分類。「生物群区分」、「測定技術分類」、「解剖学分類」の三次元で分類。データを一括ダウンロード可能。

- 【実習G1】右上のフォームで興味のあるキーワード(例えば''hypoxia'')で検索しなさい。どのような結果が返ってくるか、検索前の画面と比較してみなさい。検索結果のテーブルの最上部のヘッダ部分の「登録日」をクリックして、その結果を登録日順に並び替えてみなさい。また、「生物群区分」や「測定技術分類」のタブをクリックすると何がおこるか、実際にクリックして試してみなさい。最後に左上の「トップ」をクリックして検索結果をリセットしなさい。
- 【実習G2】「生物群区分」で特定のカテゴリーを選ぶと、研究プロジェクト数が絞り込まれることで数が変化する。「生物群区分」で「ヒト」を選ぶ前と後で「測定技術分類」の「GeneChip」の項目はいくつからいくつに変化するか?そして、この数字から何がいえるか、考えてみなさい。
#fold(←こたえ。,11182→4629、これまでGeneChipデータとしてGEOに登録されたもののうち約4割がヒトのものである。)
- 【実習G3】最上部のタブの「登録データ推移」をクリックすると、これまでの登録データの推移がグラフ表示される。ここで、「測定技術分類」の「GeneChip」をクリックした際のグラフと、「オリゴアレイ」をクリックした際のグラフをそれぞれ表示してみなさい。この二つのグラフの違いから何がいえるか、考えてみなさい。
#fold(←こたえの一例。,GeneChipの場合その利用のほとんどがHumanかRodentである(約8割)一方、オリゴアレイの場合はそれが約半分とさまざまな生物種での利用が広まっていることがいえる。)
- 【応用G4】右上のフォームで興味のあるキーワードで検索し、その結果を登録日順に並び替えた上で、右上のRSSボタンをクリックして、検索結果をRSSとして登録しなさい。そしてRSS readerに登録し、日々エントリが増えないか、追跡しなさい。

[[遺伝子発現バンク(GEO)目次を使い倒す 2010>http://togotv.dbcls.jp/20100326.html]] http://lifesciencedb.jp/image/small_video_icon.png 

** RefEx (Reference Expression dataset) [#u9218007]
** DBCLS SRA [#p0db8dc1]
* DBアーカイブ [#ye59cce9]
** DDBJ(DNA DataBank of Japan: 塩基配列データ) [#r4dc87d3]
** DOR(DDBJ Omics Archive: 遺伝子発現データを含めたオミックスなデータ)、GEO(遺伝子発現データ) [#nbed1414]
** DRA(SRA)(DDBJ Sequence Read Archive: 次世代シーケンサーから得られた塩基配列データ) [#j08e50b6]
** 生命科学系DBアーカイブ(上記を含めたその他諸々) [#e691b284]

> http://dbarchive.biosciencedbc.jp/

[[toxicogenomicsのデータ>http://dbarchive.biosciencedbc.jp/jp/open-tggates/desc.html]]はここからも配布。

[[生命科学系データベースアーカイブの使い方>http://togotv.dbcls.jp/20100820.html]] http://lifesciencedb.jp/image/small_video_icon.png


* DB知恵袋: ライフサイエンスQA(LSQA) [#z7e42c36]

>http://qa.lifesciencedb.jp/