MotDB


AJACS21/bono2

講習会のページに戻る

次世代シーケンサの活用法/データの解析法


目次


_ はじめに

勇をたのみにがむしゃらに相手を選ばず戦っている。

これは弱冠の者の行為である。

強い相手を避け、弱い者を選んで戦い、進退のツボを心得る。

これは壮年にならなければ出来ぬことだ。

_ アンケート

  • すでに次世代シーケンサーからのデータ解析やっている: 3

_ これまでの新型シーケンサー応用例

  • Whole Genome Shotgun(WGS): ゲノム配列解読
  • resequence: 個体差(DNA配列)
  • RNA-seq: 遺伝子発現(RNA or cDNA配列)
  • ChIP-seq: 転写因子結合配列
  • epigenome: メチル化されたDNA配列

_ サンプル

  • 一種類の生物種
    • ゲノム配列有・ゲノムアノテーション有:ヒトや有名モデル生物(マウス、ラット、ショウジョウバエなど)
      ゲノムマッピング→既存ゲノムアノテーション(RefSeq?)と比較
    • ゲノム配列有・ゲノムアノテーション無:ブタとかカイコとか
      ゲノムマッピング→近縁種のゲノムアノテーションと比較
    • ゲノム配列無・ゲノムアノテーション無
      unigene作るのと同じようにMEGABLAST
  • メタゲノム(複数の生物種が混在)
    既知の配列すべてに対して配列類似性検索

_ 戦術

基本的にはこれまでの大量DNA配列解析と同じ→「これまで」のレベルに持って行くところをまずやる

  • ゲノムマッピング(Reference Genome Mapping)
    それぞれの断片がゲノム中のどこに由来するものか、マッピングする。
  • de novo assembly
    先見的な知識なしに解読した配列をつなぎ合わせる(assembly)。
  • ゲノム(遺伝子)アノテーションと比較
    新しいものかどうかは、これまで分かっているものと比較しないと不可能。そのためには、ちゃんとアノテーション(キュレーション)されたリファレンスが必要。

_ 解析ツールの現状

_ DDBJ Read Annotation Pipelineの使い方

1. 統合データベースプロジェクトページ の「アーカイブ」にあるDDBJリードアーカイブをクリック
2. 「解析パイプラインでデータを解析」もしくは上部にある「Pipeline」タブをクリック
3. User ID: guest Passwordは空白でログインできます
4. まず、解析する配列ファイルを指定します。DRA (DDBJ Read Archive)に登録済みの場合はリストから選択、登録していない場合はファイルをアップロードします
 1. DRAを指定した場合、データのメタデータ(サンプル名や実験条件など)が表形式で表示されます。データのダウンロードや閲覧が可能です
 2. 解析に使用する配列データは一番下のテーブルから選択します
5. 解析に使用するツールを選択します。ツール名はツールのオリジナルサイトにリンクされています。「Help」にあるアイコンをクリックするとそれぞれのツールのヘルプが表示されます
 1. 既にゲノムが解読されている配列にマッピングする場合には「Reference Genome Mapping」を、新規にアセンブリする場合には「de novo Assembly」を選びます
 2. 使用するツールにチェックを入れて「NEXT」
6. 解析に使用するリード長を決定します
 1. 「Quality Score」のボタンをクリックすると、配列セットのQualityスコアが表示されます
 2. サンプルと(必要があれば)解析するリード長を指定して「confirm」をクリックします
 3. 複数のサンプルがある場合には、それぞれのサンプルについて配列長を指定できます
 4. 解析するすべてのサンプルを「confirm」したら、「NEXT」
7. マッピングする場合、リファレンスとなるゲノムを指定します(de novo Assemblyの場合にはこの過程はスキップされます)
 1. Majorな生物についてはあらかじめ登録されている中から選択します
 2. リストにない場合には、ゲノム配列のIDを指定して配列をダウンロードします
8. 解析プログラムのパラメータを指定します
9. 解析終了のお知らせを受け取るメールアドレスを入力します(必須)。今回はゲストアカウントなので解析は実行できませんが、実際には「BACK」の右側に「RUN」ボタンがあります
10. 左側にある「MENU」の「STATUS」から、解析の実行状況について確認できます
11. 実行結果から、リファレンス配列(Chromosome)とMapping結果ファイル(out.sam、下から3番目)をダウンロードし、Tablet などのViewerで結果を表示できます(ファイルサイズが大きいため、今回は省略します)

_ MiGAP の使い方

1. 統合データベースプロジェクトページの「ツール&解析サービス」にあるMiGAPをクリック
2. 左上のバナーをクリック
3. 「Login」からOpenIDでログイン
4. 「Pipe Line」にアセンブリ済みの配列を アップロード or ペースト (Sample data をクリックすると入力ボックスにサンプル配列が入力される)
5. 入力した配列が「直鎖状」か「環状」か、「真正細菌」の配列か「アーキア」の配列かを選ぶ
6. 「Run」で計算開始
7. 計算状況は「Current Process」から確認できます
8. 「Change User Level」でユーザレベルを変えられます。Bronze = 初心者(すべてお任せ)、Silver = 中級者(プログラムのパラメータを自分で設定可能)、Gold = 上級者(解析プログラムを組み込んだりできるらしい)
9. 計算が終了すると、「Pipe Line History」から結果を見ることができます
 1. フォルダをクリックすると解析のサマリーと、各種ファイルのダウンロードリンクが表示されます(-a の付いているファイルがアノテーション付きの結果ファイル)
 2. ゲノムマップ上をクリックすると、その部分が拡大される。矢印をクリックするとORFの詳細が表示される(chrome ではORFの詳細が表示されない。FireFox?はOK)
 3. 例えば「result-aa.fasta」「result.csv」「result-a.csv」をダウンロードして中身を閲覧

_ おわりに

大事の義は、

人に談合せず、

一心に究めたるがよし。

 
Link: AJACS21(3712d)
Last-modified: 2010-09-02 (木) 17:26:06 (3706d)