MotDB


AJACS21/wada

AJACS21

R/Bioconductorを使った遺伝子発現解析〜導入と解析例〜  担当:和田智

目次

_ Rとは

フリーウェアでオープンソースのデータ解析環境

  • データの操作や計算、可視化のためのソフトが統合されたもの
  • 最新の解析手法のパッケージが公開・更新され、サンプルデータも豊富
  • 対話的に実行可能
  • Windows, MacOSX, UNIXとマルチプラットホームで動作

_ BioConductorとは

生命科学分野のためのRパッケージプロジェクト

  • マイクロアレイデータなどの遺伝子発現プロファイルや質量分析データ、タンパク質相互作用データなどの解析パッケージ集

_ R/BioConductor の導入

_ 【実習】R/BioConductorのインストール

  1. http://cran.r-project.org/bin/windows/base/を開きます。
  2. トップにある「Download R 2.11.1 for Windows」をクリックして、インストーラ(R-2.11.1-win32.exe)をダウンロードします。
  3. インストーラのダウンロードが完了したら、インストーラを実行します。
    • 言語は日本語でOKのはずですが、インストールの途中で文字化けした場合、一度インストールを中止し、言語をEnglishにしてやり直してください。
      1.「Startup Option」のところで「Yes (customized startup)」を選んでください(コンポーネント選択の次の画面)
      2. 最初の二つはそのままでOK
      3.「Internet Access」のところで、プロキシ接続が必要な場合(企業や学校からつなぐ場合に必要となることがあります)は「Internet2」を選択します。
      4. あとはそのままで全部OK
  4. インストールが完了すると、デスクトップに"R 2.11.1"のアイコンが作成されます。
  5. アイコンをダブルクリックし、Rを起動します。
  6. Bioconductor の一括インストール
    1.
    source("http://bioconductor.org/biocLite.R")
    と打ち込んでリターン
    2.
    biocLite()
    と打ち込んでリターン
    3. でインストールが始まります。


  1. さらに必要なパッケージのインストールを行います。
    1. R 上部のメニューから「パッケージ」→「ダウンロードサイトの選択」を選択します。
    2. 「BioC annotation」を選んで OK
    3. R 上部のメニューから「パッケージ」→「パッケージのインストール」を選択します。
    4. Ctrlを押しながら、「hgu133plus2cdf」と「hgu133a.db」を選択して OK





_ R/BioConductor を用いた解析例

_ 【実習】R/BioConductorを用いたマイクロアレイデータの正規化


  • 【参考動画】http://lifesciencedb.jp/image/small_video_icon.png

    1. Rを起動します。
    2.「ファイル」の「ディレクトリの変更」をクリックして、マイクロアレイデータ(CELファイル)のあるフォルダを選択します。初期値のままならば「GSE18226_RAW」というフォルダです。
    3.
    library(affy)
    と入力し、解析パッケージを読み込みます。
    4.
    write.exprs(justRMA(), file="RMA_expression.txt")
    と入力します。少々時間がかかりますが、しばらくそのままで待ちます。何もエラーメッセージが出なければ、RMAで正規化されたデータがタブ区切りのテキストファイル(RMA_expression.txt)として保存されます。
    5.
    write.exprs(mas5(ReadAffy()), file="MAS5_expression.txt")
    と入力します。MAS5による正規化はRMA以上に時間がかかると同時に、大量のメモリを消費するのでマシン環境によってはエラーが出ることがあります。同様に何もエラーが出なければ、MAS5で正規化されたデータがタブ区切りのテキストファイル(MAS5_expression.txt)として保存されます。
    6.
    write.exprs(mas5calls(ReadAffy()), file="MAS5calls_expression.txt")
    と入力します。MAS5の Present / Absent コールがタブ区切りテキスト(MAS5calls_expression.txt)で保存されます。

_ 【実習】R/BioConductorを用いた発現変動遺伝子(マーカー遺伝子)の抽出

  • 今回の解析では前立腺癌細胞と正常細胞のデータセット「GSE12348」をRMAで正規化した発現データを使います。
    をダウンロード(右クリックして「名前を付けてリンク先を保存」してください)し、先程使った「GSE18226_RAW」というフォルダに入れます。「ファイル」の「ディレクトリの変更」をクリックして、「GSE18226_RAW」フォルダを選択します。
    1.
    data <- read.table("gse12348_rma.txt", header=T, row.names=1)
    と入力し、データを読み込みます。
    2.
    data[1:5,]
    と入力すると、5行目までのデータを見ることができます。CA1-6が癌細胞、NEとNSが正常細胞です。
    3.
    mean_ca <- rowMeans(data[,c(1:6)])
    mean_n <- rowMeans(data[,c(7:9)])
    と打ち込み、癌細胞と正常細胞群、それぞれの発現値の平均値を計算します。
    4.
    dif <- mean_ca - mean_n
    平均した発現量の比を計算します。
    RMAで正規化した場合、発現値はlog2対数変換されていますので、log2(癌細胞/正常細胞)はこのような計算式になります。
    5.
    sum(dif > 2)
    とすると、4倍以上高発現しているプローブ数が分かります。今回の解析ではこれらのプローブから更にt検定によって候補を絞り込みます。
    6.
    library(genefilter)                           #必要なパッケージの読み込み
    dif_list <- dif[dif > 2]                      #前準備
    dif_data <- as.matrix(data[names(dif_list),]) #前準備
    label <- c(0,0,0,0,0,0,1,1,1)                 #前準備
    t検定のための準備です。
    7.
    tt <- rowttests(dif_data, factor(label)) #t検定の実行
    p_value <- tt$p.value
    names(p_value) <- names(dif_list)
    このように打ち込むと、高発現している候補遺伝子全てに対してt検定を行い、そのp-valueを取り出すことができます。
    8.
    p_value_b <- p_value * length(p_value)   #補正
    p_value_sig <- p_value_b[p_value_b<0.05] #p<0.05のプローブを抽出
    これで、癌細胞で有意に高発現しているプローブの抽出ができました。
    p_vslue_sig
    と入力すると、結果が出ます。


_ レポートの作成

  • 文献などから情報を得たり、更に解析を進めるために、抽出したプローブにアノテーションを付ける必要があります。そこで
    library(annaffy)                                       #必要なパッケージの読み込み
    report <- aafTableAnn(names(p_value_sig),"hgu133a.db") #アノテーションを付加
    saveHTML(report, "report.html")                        #html形式でレポートを作成
    このように入力することでレポートを作成することができます。
    • さまざまなデータベースのリンクから、情報を得ることができます。

_ その他のマイクロアレイデータ解析


 
添付ファイル: filegse12348_rma.txt 1352件 [詳細]
 
Link: AJACS21(3712d)
Last-modified: 2010-08-04 (水) 14:33:42 (3735d)