MotDB


AJACS23/nakao

AJACS23

Galaxy でできるゲノムスケール共同研究

担当:中尾光輝(ライフサイエンス統合データベースセンター)

目次

_ 今日のゴール

ゲノムスケールデータの共同研究を進めるための Webベースのゲノム情報解析ツール Galaxy の使い方を学ぶ。

_ ゲノムデータの解析

_ 超大量

  • 1000人ゲノム
    • 70TB
  • 一回の実験
    • 数テラバイトのデータ
    • 数ギガバイトのFASTQファイル

_ データのファイル形式が多種

  • データ変換が大変

_ ツールが多様

  • インストールが大変
  • 使い方を覚えるのが大変

_ 定型処理と個別処理

  • データセットに依存してくりかえし
  • 試行錯誤して解析を深める部分
  • 論文作成時はくりかえしデータセットから統計値をとりだす

_ ゲノムスケール共同研究に必要なこと

メールに添付して解析データを共同研究者と共有するのがほぼ不可能になってきている。 しっかりとしたセキュリティ管理のあるFTPサイトやウェブサイトを構築するのも簡単なことではない。

_ データセットの共有

  • 大量データの共有

_ 解析手順の共有

_ 解析の再現性

_ アクセス権のコントロール

_ Galaxy とは

_ 大量、多様、多種のうち、多様と多種を解決できるいま静かなブームになりつつあるツール。

_ ツールのダウンロードやインストールの手間無しに、どこからでも、解析できるウェブアプリ

  • インストール不要
  • クラウド型サービス

_ マルチプルアラインメント、ゲノムアノテーション比較、メタゲノムサンプルプロファイル解析などなど可能

_ データヒストリ機能

_ データ解析ツール

  • データ可視化
  • 簡単な統計計算
  • プログラムの実行
  • EMBOSS ツールの実行

_ ゲノム解析向け機能

  • ゲノム座標計算(座標の重なりなど)
  • ゲノムとデータの関連付け(ビルド番号指定)
    • hg18 などのビルドを指定すると、自動的にゲノムブラウザへのリンクをつける。
  • シンテニーアライメントの取得
  • シンプルなゲノムブラウザを内蔵
  • メタゲノム解析

_ ワークフロー機能

  • 複数の解析ツールの連鎖

_ 共有機能

  • データセット
  • ワークフロー
  • 解析結果(サプリメントデータ)
  • こまかいアクセス権の制御が可能
  • データライブラリ
  • ページ

_ http://usegalaxy.org にて公開サービス

  • ペンシルバニア州立大学で主に開発されている。

_ オープンソースソフトウェア

  • ダウンロードして、簡単にイントラネットに設置できる。
    • 10分くらいでセットアップが終わります。
  • ツールを作って、追加できる。
    • シェルスクリプトにできるものはすべてツールに組み込めます。

_ 豊富なドキュメントとスクリーンキャスト

_ Galaxy 活用事例紹介

_ Windshield splatter analysis with the Galaxy metagenomic pipeline, Genome Research

_ 実習:Galaxy 入門

_ 準備

  1. Galaxy をウェブブラウザで開く:http://galaxy.dbcls.jp もしくは http://usegalaxy.org

_ 簡単なデータ操作

_ 1. データのアップロード

  1. 1. 「ツール」→「Get Data」→「Upload File」ツールを選択
  2. 2. 「URL/Text:」に下記のデータをコピー&ペースト
    chr22 1000 5000 cloneA 960 + 1000 5000 0 2 567,488, 0,3512
    chr22 2000 6000 cloneB 900 - 2000 6000 0 2 433,399, 0,3601
  3. 3. スペースをタブに変換
    1. 1.「ツール」→「Text Manipulation」→「Convert」ツールを選択

_ 2. 行の取り出し

行の選択:cloneA を含む行を選択

  1. 1. 「ツール」→「Filter and Sort」→「Filter」ツールを選択
  2. 2. 「With following condition:」の値を c4=='cloneA' に書き換えて実行
  3. 3. あたらしくできたヒストリーを確認する。

_ 3. 列の取り出し

列の選択:カラム(1、4)を抜き出す

  1. 1. 「ツール」→「Text Manipulation」→「Cut」ツールを選択
  2. 2. 「Cut columns:」の値を c1, c4 に変更して実行
  3. 3. あたらしくできたヒストリーを確認する。

_ 4. メタデータの編集

  1. 1. ヒストリパネルの「1: Pasted Entry」鉛筆アイコン(Edit attributes)をクリック
  2. 2. メタデータを確認する
    1. Name:表示される名前
    2. Info:ヒストリの「情報」に表示される内容
    3. Database/Build:帰属するゲノムのビルドなど
  3. 3.Name を「My Data」に変更する。
  4. 4. Save して確認する

_ Galaxy 101: The first thing you should try

_ 1. UCSC からデータを取得する

_ 2. かんたんなデータ操作をおこなう

_ 3. Galaxy のヒストリーシステムを理解する

_ 4. ワークフローを作成し編集してみる

_ 5. ワークフローに自分のデータを適用してみる

_ まとめ

  1. Galaxy の紹介をし、簡単な使い方の紹介をしました。
  2. アカウント作成すると、共有機能(送る側)も利用できます。

_ 参照

 
Link: AJACS23(3371d)
Last-modified: 2010-11-05 (金) 17:01:05 (3371d)