MotDB


AJACS27/thecla のバックアップソース(No.6)

*「Sequence Read Archive(SRA)の活用術:その統計と検索」 [#p3804c20]

----
[[AJACS本郷9>AJACS27]] > 「Sequence Read Archive(SRA)の活用術:その統計と検索」
----

**はじめに [#z296afbf]
-Sequence Read Archive (SRA) は、新型シーケンサーによるデータを集めたデータベースです。
-今回はデータ解析はやりません
--[[第24回 DDBJing 講習会 in 東京:http://www.ddbj.nig.ac.jp/ddbjing/24dl.html]]などご覧ください


**新型シーケンサー (NGS) とは [#vb0a8f56]
-そもそも言葉が
--新型シーケンサー
--次世代シーケンサー
--New-generation Sequencing (NGS)
--Next-generation Sequencing (NGS)
--他にmassively parallel DNA sequencing とか...
**何が新型なのか? [#maedadd4]
-90年代
--ゲル板で
--ポリアクリルアミドゲル電気泳動 + 蛍光標識ダイデオキシヌクレオチド
#ref(http://bunseiserver.pharm.hokudai.ac.jp/img/seuencer-monitar.jpg)
[[DNAシーケンス解析(北大・薬・分子生物)より:http://bunseiserver.pharm.hokudai.ac.jp/gihou/sequence.html]]
--[[DNAシークエンシング - Wikipedia -- 検出:http://ja.wikipedia.org/wiki/DNA%E3%82%B7%E3%83%BC%E3%82%AF%E3%82%A8%E3%83%B3%E3%82%B7%E3%83%B3%E3%82%B0#.E6.A4.9C.E5.87.BA]]も参照

-00年代
--キャピラリ
#ref(66414.jpg)
[[ABI PRISM® 3100-Avant Genetic Analyzerより:http://www.appliedbiosystems.jp/website/jp/product/modelpage.jsp?MODELCD=50768&MODELPGCD=66447]]

-10年代
--NGSの登場
#ref(http://www.hssnet.co.jp/images/2/2_3_10_3_sample05.gif)
[[次世代シーケンス解析サービス:概要・原理 | 北海道システム・サイエンス株式会社:http://www.hssnet.co.jp/2/2_3_10_1.html]]より
--Sanger法(dideoxy法)→ パイロシーケンシング
--超並列
--どんなの?
#ref(http://g86.dbcls.jp/~togoriv/wp-content/uploads/2011/04/GenomeSequencer1_sm.png)
#ref(http://g86.dbcls.jp/~togoriv/wp-content/uploads/2011/04/genomesequencer2_sm.png)
#ref(http://g86.dbcls.jp/~togoriv/wp-content/uploads/2011/05/Genomesequencer3_sm1.png)
---Togo picture gallery ( http://g86.dbcls.jp/~togoriv/ ) より
#ref(http://creativecommons.jp/wp/wp-content/uploads/2009/10/by.png)
© 2011 DBCLS Licensed under CC 表示 2.1 日本
←クレジットをいれれば、転載・改変・再利用 OK

**SRAとは [#a5364707]
-NGSのデータのレポジトリサイトです
-SRA = Sequence Read Archive
--昔は「Short Read Archive」だったが、shortでなくなってきたので
-誰(どこ)が集めているのか?
--NCBI(米): [[SRA:http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?]]
--EBI(欧): [[ENA:http://www.ebi.ac.uk/ena/home]] (European Nucleotide Archive)
--DDBJ(日): [[DRA:http://trace.ddbj.nig.ac.jp/dra/index.shtml]] (DDBJ Sequnece Read Archive)
--3局でデータの交換をしている
---DDBJを見に行ったとして、入っているのは日本だけ、ということはない、ということです。
---(ただ、個人情報にからむものは、実際の配列データはしかるべきところにしかないものがあるとかないとか)
***NCBI SRAやめます事件(11/2/16 現地時間) [#sf7df990]
-[[NCBI To Discontinue Sequence Read Archive and Peptidome:http://www.ncbi.nlm.nih.gov/About/news/16feb2011]]
--予算がなくなったのでやめます
--解析結果は受け付けます
---RNA-Seq, ChIP-Seq, and epigenomic data that are submitted to GEO
---Genomic and Transcriptomic assemblies that are submitted to GenBank
---16S ribosomal RNA data associated with metagenomics that are submitted to GenBank
--EBI、DDBJは直後に続けます宣言
---[[EMBL-EBI will continue to support the Sequence Read Archive for raw data (PDF):http://www.ebi.ac.uk/ena/SRA_announcement_Feb_2011.pdf]]
---[[DDBJ will continue Sequence Raw Data Archiving:http://www.ddbj.nig.ac.jp/whatsnew/2011/DRA20110222.html]]
-NCBI SRA(一応)続けられます宣言(11/5/9)
--(とりあえず)[[SRA Archive is still in service. (List of all News, Events and Notifications):http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=history]]

**NGSデータの規模 [#q0c94951]
-【実習】どのくらいのデータ量になるか考えてみましょう
--ゲル板:750 (base/lane) × 48/4 lanes
--キャピラリ:500 (base/lane) × 96 lane 
--新型: 36 (base/seq) × 40M seq/run
#fold(←こたえはここをクリック,9kbase、48kbase、1.44Gbase)
--↑これらの数字は規模感をつかむだけなので、ざっくりな数字になっています(1 runにかかる時間は比較してないですし)
--↑これらの数字は「塩基数」であって、シーケンサの出力である「画像データ」のデータサイズでないことに注意!
--そして、その画像データはSRAには登録されていない
-[参考] 各シーケンサの性能比較
--http://bit.ly/ngsspecbydritoshi (二階堂さん@理研)
--http://dbcls.rois.ac.jp/~kawano/ng.html (河野さん@DBCLS)

**【実習】DRASearchを使ってみる( http://trace.ddbj.nig.ac.jp/DRASearch/ ) [#o7b298cc]
-こういうときはNCBIと思いがちですが、データ転送量が多い + インターフェースきれい なのでDDBJを使いましょう
--http://trace.ddbj.nig.ac.jp/DRASearch/ にアクセス
--Keyword に興味のある語を入れてみましょう(例:variation)
--Filtered by の document type で絞り込み:Study
--Filtered by の organism で絞り込み:Homo sapiens
--ACCESSION の SRP...... をクリック → 詳細が
--画面右の Navigation にあるFASTQやSRALiteからデータがダウンロード可能
-DDBJにあるドキュメント見てみる
--データ構造(StudyとかExpとかRunとか)
#ref(dra.meta.halfsize.png)
[[DDBJ Sequence Read Archive - Document - Metadata:http://trace.ddbj.nig.ac.jp/dra/documentation.shtml]]より

**統計情報から検索する (SRAs: http://sra.dbcls.jp/ ) [#r9d815cb]
-まずは普通に全部表示:まずは見てみる → by Studies
--最初は新着順です
--【実習】収載されているもので大規模にデータを出しているプロジェクトは何でしょう? → Exps や Runs をクリックして sortしてみる
-目的別
--【実習】興味のある「目的」をクリックしてどんなプロジェクトがあるか見てみましょう
-Platform別
--【実習】興味のある「Platform」をクリックして、(以下同)
-生物種別
--【実習】興味のある「生物種」をクリックして、(以下同)

-データの増加具合を確認
--[[現在:http://sra.dbcls.jp/index.1107140402.html]] (7/8 更新)
--[[1週間前:http://sra.dbcls.jp/index.1107090402.html]](7/1 更新)
--[[1ヶ月前:http://sra.dbcls.jp/index.1106150402.html]](6/3 更新)
--[[2ヶ月前:http://sra.dbcls.jp/index.1105150402.html]](5/13 更新)
--[[3ヶ月前:http://sra.dbcls.jp/index.1104150402.html]](4/7 更新)
--[[半年前:http://sra.dbcls.jp/index.1101150402.html]](12/30 更新)

#fold(Study数の変化,Total: 4380 → 5660 → 6042 → 6102 → 6537 → 6578)
--グラフにしてみた
---[[Study別(Totalあり):http://sra.dbcls.jp/sra.stat.html]]
---[[Study別(Totalなし):http://sra.dbcls.jp/sra.stat.2.html]]


**文献から検索する [#ie158519]
-SRAs の文献リスト: http://sra.dbcls.jp/cgi-bin/publication.cgi
--NGS関連文献とそこで言及されているNGSデータのリスト
--目的/Platform/生物種で絞り込み可能
-鎖鋸(kusarinoko):http://g86.dbcls.jp/kusarinoko
--目的:「使える」データをさがす
--文献として成果が出ているSRAデータセットをさがしてデータの内容とともに俯瞰する
--生物種、目的に制限あり
--【実習】鎖鋸をつかってみる:hypoxia で検索
---この場合、データが汚い(よくある):SRAsのリストでExperimentを比較 http://sra.dbcls.jp/cgi-bin/experimentlist.cgi?rp=SRP000403&limit=20


*今後 [#yf06d685]
-混沌としておりますが、バージョンアップなどしてこなれていく + 整理される(はず)

----
[[AJACS本郷9>AJACS27]] > 「Sequence Read Archive(SRA)の活用術:その統計と検索」
----