MotDB


AJACS53/nakazato

「次世代シーケンサー(NGS)と関連するデータベース・ツール」 担当:仲里 猛留


AJACS御茶ノ水 > 「次世代シーケンサー(NGS)と関連するデータベース・ツール」


_ おことわり

  • 次世代シーケンシングデータのコマンドラインによる解析は今日は演習はやりません。
    • ∵ 時間がない。マシンパワーとディスク容量が必要なため。データの転送に膨大な時間がかかるため。目的別に解析の方法が違う
  • 時間があれば紙芝居(あるいは3分クッキング方式)でお見せします
  • ↓ かわりに参考サイト

_ 参考

_ 次世代シーケンサ(とそのデータ)基礎知識

  • 言葉
    • 次世代シーケンサ
    • 次世代シーケンサー
    • 新型シーケンサ
    • New-generation Sequencing (NGS)
    • Next-generation Sequiencing (NGS)
    • 他にmassively parallel DNA sequencing とか...
    • 最近は、 High-throughput DNA sequencing (technology) をよく使う印象(略語はNGS)

_ 何が新型/次世代なのか?

_ NGSデータの規模

  • 【実習】どのくらいのデータ量になるか考えてみましょう
    • ゲル板:750 (base/lane) × 48/4 lanes

      ←こたえはここをクリック

      9kbase

    • キャピラリ:500 (base/lane) × 96 lane 

      ←こたえはここをクリック

      48kbase

    • 次世代: 36 (base/seq) × 300M seq/run

      ←こたえはここをクリック

      10.8Gbase = 10,800,000kbase

    • ↑これらの数字は規模感をつかむだけなので、ざっくりな数字になっています(1 runにかかる時間は比較してないですし)
    • ↑これらの数字は「塩基数」であって、シーケンサの出力である「画像データ」のデータサイズでないことに注意!
    • そして、その画像データはSRAには登録されていない
  • [参考] 各シーケンサの性能比較

_ NGSの利用範囲

  • ゲノム、発現解析、メタゲノム解析、ChIP-Seq(転写因子解析)、SNP解析、...
    • 目的によって必要なデータ量も違う

      #ref(): File not found: "NGSreq.png" at page "AJACS53/nakazato"

    • 機器に合った利用を

      #ref(): File not found: "NGSinst.png" at page "AJACS53/nakazato"

_ NGS関連データベース

_ SRAとは

  • NGSのデータのレポジトリサイトです
  • SRA = Sequence Read Archive
    • 昔は「Short Read Archive」だったが、shortでなくなってきたので
  • 誰(どこ)が集めているのか?
    • NCBI(米): SRA
    • EBI(欧): ENA (European Nucleotide Archive)
    • DDBJ(日): DRA (DDBJ Sequnece Read Archive)
    • 3局でデータの交換をしている
      • DDBJを見に行ったとして、入っているのは日本だけ、ということはない、ということです。
      • 個人情報にからむものは、実際の配列データはしかるべきところにしかない。本日最後のセッション参照。

_ NCBI SRAやめます事件(11/2/16 現地時間)

_ 【実習】DRASearchを使ってみる( http://trace.ddbj.nig.ac.jp/DRASearch/

  • こういうときはNCBIと思いがちですが、データ転送量が多い + インターフェースきれい なのでDDBJを使いましょう
    • http://trace.ddbj.nig.ac.jp/DRASearch/ にアクセス
    • Keyword に興味のある語を入れてみましょう(例:variation)
    • Filtered by の document type で絞り込み:Study
    • Filtered by の organism で絞り込み:Homo sapiens
    • ACCESSION の SRP...... をクリック → 詳細が
    • 画面右の Navigation にあるFASTQやSRALiteからデータがダウンロード可能
  • DDBJにあるドキュメント見てみる
    • データ構造(StudyとかExpとかRunとか)

      #ref(): File not found: "dra.meta.halfsize.png" at page "AJACS53/nakazato"

      DDBJ Sequence Read Archive - Document - Metadataより
    • 実データ:FASTQ形式
      @DRR001107.1 GEZQ5FO01EEA7F length=77
      GCAACATTCAACACATATGTGTTGAATGTTGCACGACGGNGTGTCGCGTCTCTCAAGGCACACAGGGAGTAGNGNNN
      +DRR001107.1 GEZQ5FO01EEA7F length=77
      C@BBBECCECDBBBAAAAA<441111<?@>?=?????44!00044322====22--..//6998222<7<3/!/!!!
      • 1行目: @ + タイトル
      • 2行目:塩基配列
      • 3行目: + (+ タイトル)
      • 4行目:シーケンスクオリティ
    • 実データ その2:SRA形式
      • FASTQ形式データはディスク容量を食うので圧縮した形式 → SRA ToolkitでFASTQ形式に変換して用いる
      • たまに変換にミスることがある。ダウンロードに失敗していないならば、ファイルが壊れてアップされていることがあるので、NCBI(か、手近にDDBJ)にクレームを入れましょう。

_ 統計情報から検索する (DBCLS SRA: http://sra.dbcls.jp/ )

  • 統計情報の詳細: http://sra.dbcls.jp/trends.html
  • 目的別
    • 【実習】興味のある「目的」をクリックしてどんなプロジェクトがあるか見てみましょう
  • Platform別
    • 【実習】興味のある「Platform」をクリックして、(以下同)
  • 生物種別
    • 【実習】興味のある「生物種」をクリックして、(以下同)
  • 組合わせで
    • 【実習】Search SRA data 欄でいくつかの条件を組み合わせて検索してみる
    • 個々のプロジェクトの中身を見てみましょう
    • Sequencing Profileの欄から各々のRun(例:ERR030856)についてクリックして、詳細を見てみよう。→ FastQCによりQuality Checkをかけた結果です

_ 文献から検索する

  • 質のいいデータで解析したい → ひとつの基準として論文が出ていれば質は高かろう
  • DBCLS SRA の文献リスト: http://sra.dbcls.jp/cgi-bin/publication.cgi
    • NGS関連文献とそこで言及されているNGSデータのリスト
    • 目的/Platform/生物種で絞り込み可能
    • 目的:「使える」データをさがす
    • 文献として成果が出ているSRAデータセットをさがしてデータの内容とともに俯瞰する
    • 生物種、目的に制限あり

_ 疾患から検索する

  • 文献が出ているもののうち、疾患に関連するものを疾患名でまとめた → 論文が出ていないものについても拡張予定
  • 1. DBCLS SRAにアクセス
  • 2. 下の方の Search by diseasesから

_ NGSデータの解析

_ 概要

#ref(): File not found: "NGSflow.png" at page "AJACS53/nakazato"

_ Quality Control (QC)

_ 解析その1(Whole Genome, Transcriptomics)

  • その1:既知のゲノムに貼る (Reference Genome Mapping)
    • QCの結果をもとに、使わない部分(使い物にならない部分)を除去する ... FASTX-Toolkit などを用いる
    • マッピング... tophat2、bowtie、bwa などを用いる(どれを使えばいいか? → 速度と精度、目的によって使い分けます)
      bowtie2 -x hg19. -U SRR1294107.fastq > SRR1294107.sam    ← SRR1294107 を hg19 に対してマッピングしてSAM形式で出力
      • FASTQ形式 → SAM形式
    • マッピング形式の可視化
    • SAM形式は必要に応じてバイナリ形式のBAM形式に変換して用います(逆にBAM形式を人間が読めるようにSAM形式にすることもある)
      samtools view -Sb SRR1294107.sam -o SRR1294107.bam (SAMからBAMへの変換)
    • 発現量の定量 ... cufflinks などを用いる
      • control に対してサンプル(KOした、疾患状態、...)の発現はどう違うか? ... cufflinks のうちcuffdiff
        cuffdiff ensembl_gene.gtf  -o result SRR1294107.bam control.bam  ←controlに対してSRR1294107での発現がどう違うか?
      • ここでensembl_gene.gtf にはトランスクリプトームの情報が含まれています(アノテーション情報)
      • 転写単位ごとの発現量情報推定 ... cummeRbund (cufflinks の結果を解析するRパッケージ)
    • 多分、ここまで行き着かないだろうので、二階堂さんがAJACSで話した内容の統合TVを参考にしてください: http://togotv.dbcls.jp/20120926.html#p01
  • その2:一からつなげる(De novo Assemble)

_ DDBJ Read Annotation Pipelineの使い方

1. DDBJ Read Annotation Pipelineにアクセス
2. ゲストとしてログイン をクリック。もしくは User ID: guest Passwordは空白でログインできます
3. まず、解析する配列ファイルを指定します。DRA (DDBJ Read Archive)に登録済みの場合はリストから選択、登録していない場合はファイルをアップロードします
 1. DRAを指定した場合、データのメタデータ(サンプル名や実験条件など)が表形式で表示されます。データのダウンロードや閲覧が可能です
 2. 解析に使用する配列データは一番下のテーブルから選択します
4. 解析に使用するツールを選択します。ツール名はツールのオリジナルサイトにリンクされています。「Help」にあるアイコンをクリックするとそれぞれのツールのヘルプが表示されます
 1. 既にゲノムが解読されている配列にマッピングする場合には「Reference Genome Mapping」を、新規にアセンブリする場合には「de novo Assembly」を選びます
 2. 使用するツールにチェックを入れて「NEXT」
5. 解析に使用するリード長を決定します
 1. 「Quality Score」のボタンをクリックすると、配列セットのQualityスコアが表示されます
 2. サンプルと(必要があれば)解析するリード長を指定して「confirm」をクリックします
 3. 複数のサンプルがある場合には、それぞれのサンプルについて配列長を指定できます
 4. 解析するすべてのサンプルを「confirm」したら、「NEXT」
6. マッピングする場合、リファレンスとなるゲノムを指定します(de novo Assemblyの場合にはこの過程はスキップされます)
 1. Majorな生物についてはあらかじめ登録されている中から選択します
 2. リストにない場合には、ゲノム配列のIDを指定して配列をダウンロードします
7. 解析プログラムのパラメータを指定します
8. 解析終了のお知らせを受け取るメールアドレスを入力します(必須)。今回はゲストアカウントなので解析は実行できませんが、実際には「BACK」の右側に「RUN」ボタンがあります
9. 左側にある「MENU」の「STATUS」から、解析の実行状況について確認できます
10. 実行結果から、リファレンス配列(Chromosome)とMapping結果ファイル(out.sam、下から3番目)をダウンロードし、Tablet などのViewerで結果を表示できます(ファイルサイズが大きいため、今回は省略します)

_ 解析その2(ChIP-Seq、転写因子解析)

  • その1で書いたマッピングするところまでは発現解析と同じです(FASTQ → SAM → BAM)
  • binding site予測 ... macs2 などを用いる
    samtools sort   oct4.bam oct4.sort    ← 下準備:BAMファイルのソート
    samtools index oct4.sort.bam           ← 下準備:インデックス作成
    macs2 -t Oct4.bowtie.sort.rmRepeat.bam -c GFP.bowtie.sort.rmRepeat.bam -f BAM -g mm -n Oct4 -B -q 0.01
  • 高次解析に進みます

_ 解析その3(SNV/Indel解析)

  • SNV: single nucleotide variation
  • その1で書いたマッピングするところまでは基本的に発現解析と同じです(FASTQ → SAM → BAM)
  • samtools を用いる場合
    • bwaでマッピング、samtoolsでSNP callという流れは割とみながやっている手法です
      samtools mpileup -Bugf in_genome.fasta in_sorted.bam | ./bcftools view -bvcg - > out_raw.vcf
    • 参考:http://ameblo.jp/drosk/entry-11222753481.html
  • GATKを用いる場合
    • GATKはSNP解析、変異解析に特化したソフト
    • 流れ
      • Indel付近をリマッピング(一塩基のずれが結果に響くので丁寧にマッピングする)
      • SNV検出 ーーーアノテーション情報付与 ... SNPEff などを用いる
  • SAM/BAM形式 → vcf形式

_ 得られたNGSデータの登録

_ SRAへのNGSデータの登録


AJACS御茶ノ水 > 「次世代シーケンサー(NGS)と関連するデータベース・ツール」


 
Link: AJACS53(852d)
Last-modified: 2015-05-18 (月) 09:49:55 (889d)