MotDB


AJACS27/thecla

_ 「Sequence Read Archive(SRA)の活用術:その統計と検索」


AJACS本郷9 > 「Sequence Read Archive(SRA)の活用術:その統計と検索」


_ はじめに

  • Sequence Read Archive (SRA) は、次世代シーケンサーによるデータを集めたデータベースです。
  • 今回はデータ解析はやりません

_ 次世代シーケンサー (NGS) とは

  • そもそも言葉が
    • 新型シーケンサー
    • 次世代シーケンサー
    • New-generation Sequencing (NGS)
    • Next-generation Sequencing (NGS)
    • 他にmassively parallel DNA sequencing とか...

_ 何が新型/次世代なのか?

_ SRAとは

  • NGSのデータのレポジトリサイトです
  • SRA = Sequence Read Archive
    • 昔は「Short Read Archive」だったが、shortでなくなってきたので
  • 誰(どこ)が集めているのか?
    • NCBI(米): SRA
    • EBI(欧): ENA (European Nucleotide Archive)
    • DDBJ(日): DRA (DDBJ Sequnece Read Archive)
    • 3局でデータの交換をしている
      • DDBJを見に行ったとして、入っているのは日本だけ、ということはない、ということです。
      • (ただ、個人情報にからむものは、実際の配列データはしかるべきところにしかないものがあるとかないとか)

_ NCBI SRAやめます事件(11/2/16 現地時間)

_ NGSデータの規模

  • 【実習】どのくらいのデータ量になるか考えてみましょう
    • ゲル板:750 (base/lane) × 48/4 lanes
    • キャピラリ:500 (base/lane) × 96 lane
    • 次世代: 36 (base/seq) × 40M seq/run

      ←こたえはここをクリック

      9kbase、48kbase、1.44Gbase

    • ↑これらの数字は規模感をつかむだけなので、ざっくりな数字になっています(1 runにかかる時間は比較してないですし)
    • ↑これらの数字は「塩基数」であって、シーケンサの出力である「画像データ」のデータサイズでないことに注意!
    • そして、その画像データはSRAには登録されていない
  • [参考] 各シーケンサの性能比較

_ 【実習】DRASearchを使ってみる( http://trace.ddbj.nig.ac.jp/DRASearch/

  • こういうときはNCBIと思いがちですが、データ転送量が多い + インターフェースきれい なのでDDBJを使いましょう
    • http://trace.ddbj.nig.ac.jp/DRASearch/ にアクセス
    • Keyword に興味のある語を入れてみましょう(例:variation)
    • Filtered by の document type で絞り込み:Study
    • Filtered by の organism で絞り込み:Homo sapiens
    • ACCESSION の SRP...... をクリック → 詳細が
    • 画面右の Navigation にあるFASTQやSRALiteからデータがダウンロード可能
  • DDBJにあるドキュメント見てみる

_ 統計情報から検索する (SRAs: http://sra.dbcls.jp/ )

  • まずは普通に全部表示:まずは見てみる → by Studies
    • 最初は新着順です
    • 【実習】収載されているもので大規模にデータを出しているプロジェクトは何でしょう? → Exps や Runs をクリックして sortしてみる
  • 目的別
    • 【実習】興味のある「目的」をクリックしてどんなプロジェクトがあるか見てみましょう
  • Platform別
    • 【実習】興味のある「Platform」をクリックして、(以下同)
  • 生物種別
    • 【実習】興味のある「生物種」をクリックして、(以下同)

Study数の変化

Total: 4380 → 5660 → 6042 → 6102 → 6537 → 6578

_ 文献から検索する

_ 今後

  • 混沌としておりますが、バージョンアップなどしてこなれていく + 整理される(はず)

AJACS本郷9 > 「Sequence Read Archive(SRA)の活用術:その統計と検索」


 
添付ファイル: filedra.meta.halfsize.png 693件 [詳細] file66414.jpg 786件 [詳細]
 
Link: AJACS27(2909d)
Last-modified: 2011-07-15 (金) 14:21:30 (3052d)