MotDB


AJACS5/skmt

AJACS5


目次


_ 統合ホームページの紹介

http://lifesciencedb.jp/

統合データベースプロジェクトのサービスは上記のURLで提供しています。簡単に全体像を紹介しましょう。ではまずみなさんの手元のPCに統合ホームページを表示しましょう。

  1. URLを入力するのはスペルミスなどめんどうくさいので、検索を利用しましょう。みなさんのPCの検索というアイコンを押すと左側にGoogle検索の窓が出ます。
  1. LSDBと入力(小文字でも可)してI'm Feeling Luckyのボタンを押します。
  1. 統合ホームページが表示されました!

_ ポータルサービス

世の中にはたくさんのデータベース、ジャーナル、学会、など知っていると便利なリソースがたくさんあります。自分の専門分野のことはよく知っていても、少し離れるとなかなか見つからないものです。そういうときにはポータルサービスを利用しましょう。

  1. 生命科学データベースカタログ
  2. 生命科学学会協会カタログ
  3. ゲノム・ポストゲノム主要プロジェクト一覧

_ 検索サービス DB検索と文献検索

世の中には様々な検索サービスがあります。統合データベースプロジェクトでは、キーワードによる検索を数種類用意しています。たくさんのデータベースを一度に検索できる横断検索や、日本語文献の検索サービス、GenBank?やGEOなど巨大で複雑なデータベース検索があります。GoogleやYahooのように簡単では無いですが、今日の実習で使い方を覚えましょう。

  1. 生命科学データベース横断検索
  2. DNAデータベース総覧と検索(DDBJ/EMBL/GenBank)
  3. 遺伝子発現バンク(GEO)目次

_ 自然言語処理によるサービス

自然言語処理とはなんぞや?ということは、午前中の佐藤先生の講義や、後の演習で紹介されますが、それを使った高度なサービスを提供しています。

  1. OReFiL (オンラインリソースファインダー)
  2. Allie (略語の正式名称を検索)

_ ツールやリソース

  1. アナトモグラフィー/BodyParts3D (解剖整理棚)
  2. Wired-Marker (参照情報共有ツール)
  3. 生物アイコン

_ 教材

  1. 統合TV
  2. MotDB

_ 基盤技術開発

ウェブサービス、APIを使って自分でプログラムを動かす人は必見です。世の中のデータベースをぐりぐり使いましょう。

_ 参画機関の成果

  1. かずさアノテーション

_ 生命科学データベース横断検索の利用法

横断検索サービスは国内外の有用なデータベースや文献を一括して検索するサービスです。各データベースの情報はオリジナルのサイトにおいたまま、検索に必要な情報をクロウリングやオリジナルデータを使って作製します。いわばGoogleのような検索です。検索エンジンはHyper Estraierを使っています。このエンジンは現在mixiの検索などに使われているオープンソースのプログラムです。統合DBセンターでは約20ノードで構成されるクラスターサーバーで計算をさせています。

_ 1 横断検索に収録されているデータベース

現在横断検索に収録されているデータの一覧は横断検索収録DB一覧で見ることができます。それぞれのデータベースの属性にあわせて画面の左側にグループごとにわけて検索結果が表示されるようになっています。

_ 1-1 日本語文献

蛋白質核酸酵素
共立出版の生命科学の総説誌。創刊約53年の歴史を持つ。基礎的な話題を幅広くとりあげる。日本語の総説はなかなか業績にはなりにくいかもしれないが、選ばれて書けるのは誇りだし、何より他の人にわかってもらうにはやはりまずは日本語。
毎日新聞
CDによって提供される毎日新聞のテキストデータを使った過去記事の検索。オンライン上のニュースは一定時間がたつと消滅してしまうので、過去のニュースを探す時に便利。
文科省「ゲノム」研究報告書
文部科学省の特定領域研究のうち「ゲノム」と呼ばれる領域の報告書を集めて検索できる。科学研究費には種別が色々あるが、重点的な課題はこのように大きなグループで進められる。つまり重要な成果が報告書にはたくさん記載されていると思われるので、それらを集めて一括して検索できるようにするのが目標。

_ 1-2 特許

日本特許 公開特許広報,公表特許広報など
特許権が認められた発明のデータ、申請されて一定期間後に公開された特許の申請データ
米国特許(外部情報)
アメリカの特許。機械的な大量ダウンロードは禁止されているので検索は米国特許庁のシステムに質問を投げている。
欧州特許 (外部情報)
ヨーロッパの特許。米国特許と同様。

_ 1-3 用語解説

ウィキペディア
オンライン百科事典。英語版が中心だが全部で264言語ある。英語版には250万の記事、日本語版にも50万近い記事がある。誰もが自由に編集に参加できる。最初は記述の正確性に欠けるのではと言われていたが、ネイチャーにブリタニカ百科事典と比較しても劣らないという調査結果が報告されたりした。

_ 1-3 基本のデータベース

KEGG
Kyoto Encyclopedia of Genes and Genomesの略。生命システム情報統合データベース。京大化学研究所および東大医科研の金久研究室によって構築されている世界的に有名なデータベース。遺伝子配列を中心に論文から関連する記述を抽出しパスウェイやリンクとして再構築し知識として体系づける。統合データベースプロジェクトでは後述する医薬に関する薬や化合物の統合を担っている。
PDBj
Protein Data Bank Japan の略。生体高分子の立体構造データベースの日本アーカイブ。国内の登録を受け付けるとともに、日本語のドキュメントも整理されている。今年、登録された立体構造が5万を超えた。
RefSeq
Reference Sequenceから命名された。GenBankへの登録数が増えredundancyが問題になってきたため、重複の無い基準となる配列のコレクションを作った。現在リリース29で5千以上の生物種にわたって500万以上の蛋白質がコレクションされている。
OMIM
Online Mendelian Inheritance in Manの略。ヒトの遺伝子と遺伝病のカタログ。

_ 1-4 生物種ごとのデータベース

  1. ヒト、動物
    H-Inv
    ヒト遺伝子アノテーションデータベース。ヒトの遺伝子と転写産物を対象とした統合データベース。ヒトゲノム上の遺伝子に対してcDNAを基準にして様々な情報を注釈付けするプロジェクト。産業技術総合研究所。
    JSNP
    日本の一塩基多型(SNPs)のデータベース。理化学研究所と東大医科研によりミレニアムプロジェクトやオーダーメイド医療実現化プロジェクトで測定されたデータが中心。最近はDNAチップにより解析されている。データそのものはA, G, C, T の塩基の情報だが、正しく理解するには遺伝学の知識も必要。
    DBTSS
    転写開始点及びプロモーター領域に関するデータベース。完全長cDNA配列の5'末端の情報が中心。現在では次世代シーケンサーも利用されている。東大医科研。
    HUGE
    ヒト長鎖 cDNA (KIAA cDNA) 解析情報データベース。かずさDNA研究所。
    NEDO
    ヒト長鎖 cDNA (FLJ cDNA) 解析情報データベース。かずさDNA研究所。
    BodyMap
    ヒトの臓器ごとの遺伝子発現を観測したデータベース。ESTという短い遺伝子配列の解読法を生み出した。現在実験データの追加はされていないが、発現データの統合データベースとして更新されいてる。
    FANTOM
    Functional Annotation of the mouseの略。マウス遺伝子の機能情報に関するデータベースで現在のバージョンはFANTOM3。FANTOM1および2はcDNAの機能に関する注釈が中心であったが、現在ではCAGEのデータが公開されており、RNA mappingのデータとしても利用価値が高い。京大の山中教授が万能細胞を作るときに参考にしたデータベースとして話題になった。
  2. 植物
    CLOVER
    クローバーとマメ科植物を対象とした、ゲノム情報とゲノム研究用リソースのデータベース。かずさDNA研究所。
    RAPDB
    Rice Annotation Project Databaseの略。イネゲノム上の全遺伝子の構造と機能の人手によるアノテーション。農業生物資源研究所。
    RPSD
    イネ、トウモロコシ、小麦等の植物のタンパク質構造データベース
  3. 微生物
    CYANOBASE
    シアノバクテリア(藍藻)ゲノムデータベース。(午前中の講義で紹介がありました。)
    RHIZOBASE
    根粒菌のゲノムデータベース。かずさDNA研究所。
    GTOP
    ゲノムにコードされる全タンパク質の配列データを解析した結果をまとめたデータベース。配列相同性解析を主な手段として、立体構造の情報を積極的に利用していることが特徴
    Mycoplasma penetrans genome
    マイコプラズマのゲノムデータベース。マイコプラズマは細胞壁やアミノ酸合成経路を持たない細菌。真核生物の細胞に共生する。ゲノムサイズは小さい。
  4. 医薬
    ゲノムネットJAPIC
    日本医薬情報センター(JAPIC)の医薬品添付文書情報とKEGG DRUGを統合したデータベース。
    OMIM
    Online Mendelian Inheritance in Manの略。ヒトの遺伝子と遺伝病のカタログ。
  5. 糖鎖、脂質関連
    GGDB
    糖鎖に関連する遺伝子(糖転移酵素遺伝子など)の各種情報についてのデータベース
    LipidBank
    整理活性脂質データベース。脂質に関するデータを化合物ごとに整理しデータベース化。
  6. 海外
    EntrezGene
    RefSeq
    PIR
    OMIM

_ 1-5 これから追加するデータベース

  • 理研のデータベース群
  • 医薬系データベース
  • タンパク関連データベース
     
    国内だけでも500以上のデータベースがあると予想されます。今後はこれらの中から役に立つものを順に追加していきます。

_ 実習 それではみなさんも実際にキーワードを入力して検索してみましょう

 
Link: AJACS5(4168d) AJACS6/thecla(4178d) AJACS5/thecla(4191d)
Last-modified: 2008-10-18 (土) 11:07:07 (4191d)