MotDB


AJACS27/thecla のバックアップソース(No.4)

*「Sequence Read Archive(SRA)の活用術:その統計と検索」 [#p3804c20]

----
[[AJACS本郷9>AJACS27]] > 「Sequence Read Archive(SRA)の活用術:その統計と検索」
----

-Sequence Read Archive (SRA) は、新型シーケンサーによるデータを集めたデータベースです。

**新型シーケンサー (NGS) とは [#vb0a8f56]
-そもそも言葉が
--新型シーケンサー
--次世代シーケンサー
--New-generation Sequencing (NGS)
--Next-generation Sequencing (NGS)
--他にmassively parallel DNA sequencing とか...
**何が新型なのか? [#maedadd4]
-90年代
--ゲル板で
--ポリアクリルアミドゲル電気泳動 + 蛍光標識ダイデオキシヌクレオチド
#ref(http://bunseiserver.pharm.hokudai.ac.jp/img/seuencer-monitar.jpg)
[[DNAシーケンス解析(北大・薬・分子生物)より:http://bunseiserver.pharm.hokudai.ac.jp/gihou/sequence.html]]
--[[DNAシークエンシング - Wikipedia -- 検出:http://ja.wikipedia.org/wiki/DNA%E3%82%B7%E3%83%BC%E3%82%AF%E3%82%A8%E3%83%B3%E3%82%B7%E3%83%B3%E3%82%B0#.E6.A4.9C.E5.87.BA]]も参照

-00年代
--キャピラリ
#ref(66414.jpg)
[[ABI PRISM® 3100-Avant Genetic Analyzerより:http://www.appliedbiosystems.jp/website/jp/product/modelpage.jsp?MODELCD=50768&MODELPGCD=66447]]

-10年代
--NGSの登場
#ref(http://www.hssnet.co.jp/images/2/2_3_10_3_sample05.gif)
[[次世代シーケンス解析サービス:概要・原理 | 北海道システム・サイエンス株式会社:http://www.hssnet.co.jp/2/2_3_10_1.html]]より
--Sanger法(dideoxy法)→ パイロシーケンシング
--超並列

**SRAとは [#a5364707]
-NGSのデータのレポジトリサイトです
-SRA = Sequence Read Archive
--昔は「Short Read Archive」だったが、shortでなくなってきたので
-誰(どこ)が集めているのか?
--NCBI(米): [[SRA:http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?]]
--EBI(欧): [[ENA:http://www.ebi.ac.uk/ena/home]] (European Nucleotide Archive)
--DDBJ(日): [[DRA:http://trace.ddbj.nig.ac.jp/dra/index.shtml]] (DDBJ Sequnece Read Archive)
--3局でデータの交換をしている
---DDBJを見に行ったとして、入っているのは日本だけ、ということはない、ということです。
---(ただ、個人情報にからむものは、実際の配列データはしかるべきところにしかないものがあるとかないとか)

**NGSデータの規模 [#q0c94951]
-【実習】どのくらいのデータ量になるか考えてみましょう
--ゲル板:750 (base/lane) × 48/4 lanes
--キャピラリ:500 (base/lane) × 96 lane 
--新型: 36 (base/seq) × 40M seq/run
#fold(←こたえはここをクリック,9kbase、48kbase、1.44Gbase)
--↑これらの数字は規模感をつかむだけなので、ざっくりな数字になっています(1 runにかかる時間は比較してないですし)
--↑これらの数字は「塩基数」であって、シーケンサの出力である「画像データ」のデータサイズでないことに注意!
--そして、その画像データはSRAには登録されていない
-[参考] 各シーケンサの性能比較
--http://bit.ly/ngsspecbydritoshi (二階堂さん@理研)
--http://dbcls.rois.ac.jp/~kawano/ng.html (河野さん@DBCLS)

**【実習】(デモ)SRA @NCBI でどんなデータが入っているか確認してみる [#lfcfbdb8]
-やっぱりこの分野の人は、NCBIに行きますよねぇ。
-http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi? にアクセスしてみる
-Search > SRA Objects > テキストボックスにキーワード

-メモ:やっぱしいきなりDDBJで探すことにするか?
--データを落とすのに国内の方がサクサクいくし


-(予算問題)
-とりあえず検索してみる(クエリ:要検討)

-DDBJにあるドキュメント見てみる
--データ構造(StudyとかExpとかRunとか)
#ref(dra.meta.halfsize.png)
[[DDBJ Sequence Read Archive - Document - Metadata:http://trace.ddbj.nig.ac.jp/dra/documentation.shtml]]より
-DRASearchを使ってみる( http://trace.ddbj.nig.ac.jp/DRASearch/ )

-統計情報から検索 (SRAs: http://sra.dbcls.jp/ )
--目的別
--Platform別
--生物種別
-データの増加具合を確認
-文献から
-鎖鋸:http://g86.dbcls.jp/kusarinoko
--(どういうクエリで検索さすか)

----
[[AJACS本郷9>AJACS27]] > 「Sequence Read Archive(SRA)の活用術:その統計と検索」
----