MotDB


AJACS39 のバックアップの現在との差分(No.7)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
統合データベース講演会&講習会 in 東京理科大学 (20130515)

&size(36){データベース活用による知のめぐりのよい細胞生物学};

担当:[[坊農秀雅>http://dbcls.rois.ac.jp/~bono/]]([[ライフサイエンス統合データベースセンター>http://dbcls.rois.ac.jp/]])他DBCLS特任研究員ズ
担当:[[坊農秀雅>http://dbcls.rois.ac.jp/~bono/]]、[[小野浩雅>http://dbcls.rois.ac.jp/~hono/]]、[[仲里猛留>http://dbcls.rois.ac.jp/~nakazato/]]([[ライフサイエンス統合データベースセンター>http://dbcls.rois.ac.jp/]])

講演「データベース活用による知のめぐりのよい細胞生物学」 90分ののち、以下の講習会90分の予定。
[[講演「データベース活用による知のめぐりのよい細胞生物学」(スライド) >http://www.slideshare.net/sayamatcher/ss-21162664]]90分ののち、以下の講習会90分の予定。
講演編で紹介するデータベースやウェブツールの一覧(PDF)はこちら↓。

講演で紹介したデータベースやウェブツールの一覧はこちら。
#ref(130515DBTable.pdf)
----
~目次
#contents
----

* 講習会のはじめに:参加者アンケート [#u0f5ae55]
- おもにMacの人:
- おもにWindowsの人:
- おもにiPadの人:
- iPhoneの人:
- おもにMacの人:7人くらい
- おもにWindowsの人:大勢
- おもにiPadの人:0
- iPhoneの人:0
--そのうちiPhoneでウェブブラウジングメインの人:
- ウェブブラウザはInternet Explorerの人:
- ウェブブラウザはFirefoxの人:
- ウェブブラウザはInternet Explorerの人:40人くらい
- ウェブブラウザはFirefoxの人:7人くらい
- ウェブブラウザはSafariの人:
- ウェブブラウザはChromeの人:
- データベースを良く利用する人:
- バイオインフォマティクスを使っている人:
- プログラミングをたしなむ人:
- データベースを構築している人:
- データベースを構築したい人:
- ライフサイエンス統合データベースセンターの存在を知っていた人:

* DBチュートリアル:統合TV [#z4f87418]
以下に紹介するツールの多くは統合TVでその使い方が動画で紹介されています。是非参考にして下さい。

> http://togotv.dbcls.jp/ja/


* DBカタログ&コンテンツ [#a668ddeb]
** Integbioデータベースカタログ [#h45be91d]
> http://integbio.jp/dbcatalog/

文字通り「データベースのデータベース」。日本国内のものが中心。DBの形式、対象、生物種、提供機関などで分類されています。

- 【実習A1】データベースカタログにアクセスし、「一覧を絞り込む」から「ゲノム」のところをクリックし、ゲノム関係のデータベースだけに絞り込まれるのを確認しなさい。
- 【応用A2】興味あるキーワードで「一覧内を検索する」のフォームからデータベースを検索してみなさい(例えば、「イネ」)。
- 【応用A3】サムネイルに「休止中」と書かれたデータベースはなぜ休止中となっているか、その理由を考えてみなさい。

[[Integbioデータベースカタログの使い方>http://togotv.dbcls.jp/20121127.html]] http://lifesciencedb.jp/image/small_video_icon.png

* DB検索 [#md8b6007]

** Google [#cb591881]

> http://www.google.co.jp/

Google(「グーグル」と読みます)検索することを「ググる」といいます。そこでインターネット上では、自分でインターネット検索もせずにあれこれと質問をしてくるユーザーに対して以下のようにいうことがあります。

&size(30){ググれカス};

- 【実習B1】''DBCLS''でググりましょう。何件ヒットがありますか?
#fold(←こたえは左の+マークをクリックすると出てきます,2013年5月5日現在、約 1,020,000 件)

- 【実習B2】さらに検索窓右上の歯車マークをクリックすると出てくる「検索オプション」をクリックして絞り込みをかけてみましょう。''ドメイン''で'''.ac.jp'''を指定すると何件ぐらいに絞り込まれますか?
#fold(←こたえ。得られる結果にはどういった特徴があるだろうか?,2013年5月5日現在、約 11,800 件で、ドメインがdbcls.rois.ac.jpのサイトばかりがヒットしてくるといった特徴がある)

- 【応用B3】さらに見るべきヒットを絞り込むにはどういうオプションを指定すればいいだろうか?
#fold(←こたえ。,例えば、「キーワードを含めない」オプションで'''rois'''を指定してみる)

- 【応用B4】'DBCLS' は「ライフサイエンス統合データベースセンター」の略号であるが、たまに「ライフサイエンス総合データベースセンター」と間違えられる。そう間違えられている例を"で囲うことでインターネット検索エンジンを用いて抽出しなさい。
#fold(←こたえ。,"ライフサイエンス総合データベースセンター”でググって、「キーワードを含めない」オプションで'''ライフサイエンス統合データーベースセンター'''を指定してみる)

** 生命科学DB横断検索 [#mbfec250]

インターネット上のすべてのサイトがググれるわけではありません。グーグルで検索してもググれない状態になっていることを以下のように呼ばれています。

&size(30){[[グーグル八分>http://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%BC%E3%82%B0%E3%83%AB%E5%85%AB%E5%88%86]]};

ライフサイエンス分野のコンテンツがググッても出てこないのは、グーグル八分に遭っているからではなく、検索用のインデックスが作成されていないから、です(もちろん、コンテンツがインターネット上で公開されていないからということの方が本邦ではとくに多いのですが)。Googleも学術資料用に[[Google Scholar>http://scholar.google.co.jp/]]という特別なサービスを作っていますが、DBCLSではそういったものに頼らずに持続的に日本語を母国語とする我々が使いやすい生命科学データベース横断検索サービスを維持しております。

> http://biosciencedbc.jp/dbsearch/

-【実習C1】''高血圧''で、1)ググりなさい、2)Google Scholar検索してみなさい、3)生命科学データベース横断検索しなさい。それぞれの検索結果を比較してみなさい。
-【実習C2】生命科学データベース横断検索結果の左側に各データベースごとの得られた結果のエントリ数が表示されるので、それらを確認せよ。そして、ハイライト表示されているワードには''高血圧''はもちろんであるが、他のワードもハイライトされているものがあるのを見つけなさい。果たしてそれは何か?
#fold(←こたえ。,’hypertension’このように日本語で検索しても英語でのデータベースも同時に翻訳されて検索結果が返ってくるのがこの横断検索の大きな特徴です。)
-【実習C3】検索結果を見てみましょう。「医療・薬」の左側の’+’をクリックして階層を解いてみましょう。さらに「薬」の階層を’+’をクリックすることで解いてみましょう。どんな「データベース」にどれだけのヒットがあったか、見てみましょう。「GenomeNet内JAPIC」には薬の添付文書の検索結果など、フリーで利用可能なデータベースの検索結果が得られていることを確認し、中身の一部を見てみなさい。
-【応用C4】いわゆる「データベース」以外にも、蛋白質・核酸・酵素の過去記事や、文科省「ゲノム」特定領域研究の報告書といった、日本語の文献もヒットしてきていることを確認し、中身の一部を見てみなさい。
- 【応用C5】自分の研究テーマに関係のあるキーワード(例えば''シロイヌナズナ'')や指導教員の名前(例えば''朽津和幸'')で検索してみなさい。どういういったデータベースのどのエントリがヒットしてくるか?

[[生命科学データベース横断検索を使い倒す>http://togotv.dbcls.jp/20110223.html]] http://lifesciencedb.jp/image/small_video_icon.png

** Allie:略語検索エンジン [#u53dd605]

- 【実習D1】'SPF'でググリなさい。どういったことが起こるか?
#fold(←こたえ。,例えば、'DBCLS'でGoogle検索しても「ライフサイエンス統合データベースセンター」以外の'DBCLS'はインターネット上にそれほどないため困らないのであるが、短い略語の場合は同義語がインターネット上に多数存在して調べたい情報に行き着くまでに非常に苦労することになります。)

つまり、こういうことです。

&size(30){[[ググるなあぶない>http://motdb.dbcls.jp/?plugin=attach&pcmd=open&file=donotgoogle.jpg&refer=AJACS26%2Fbono]]};

> http://allie.dbcls.jp/

- 【実習D2】Allieを用いて'SPF'を検索してみなさい。共起している略語やその略語の専門分野を見ることで、1)実験用マウスを飼う環境を意味する'SPF'、2)日焼け止めクリームに書いてある'SPF'の略す前の形(long form)を調べよ。
#fold(←こたえ。,1)specific pathogen-free 2)sun protection factor)

- 【実習D3】Allieを用いて'iPS'を検索してみなさい。何年からこの略語は使われだしたか?ここで調べる限り、いくつの論文がこの略語を用いているか?またその論文のリストを表示せよ。
#fold(←こたえ。,'induced pluripotent stem'を意味するiPSという語は2007年から860の論文中に出現している(2013年5月5日現在)。それらの論文でよく一緒に使われている略語は'ES'である。)

- 【応用D4】自分の研究分野でよく使われている略語を入力し、他の分野ではどういった意味に使われているか調べてみなさい。

[[Allieを使って略語の正式名称を検索する2010>http://togotv.dbcls.jp/20100831.html]] http://lifesciencedb.jp/image/small_video_icon.png

** 核酸配列 [#yeaa6bdc]
GenBankやRefSeqなどいろいろデータベースが存在して混乱気味なので以下にまとめます。
#ref(http://motdb.dbcls.jp/?plugin=attach&refer=AJACS13%2Fthecla&openfile=flow.gbref.006.png)
-どんなデータが?
--GenBank … 研究者が登録した配列(生データ)
--[[RefSeq:http://www.ncbi.nlm.nih.gov/RefSeq/]] … GenBank に登録された配列を、NCBIがまとめてreferenceとしてまとめたもの
---元来は、登録される配列は断片であったので(昔のDNAシーケンサーは長く読めなかった and/or つないでいない)
--Entrez Gene … RefSeq の配列に対して、外部リンク、ゲノム上の位置、遺伝子名、Gene Ontology(機能を表す用語)などのアノテーション情報をつけたもの
-コメント
--GenBankもRefSeqもNucleotide (GenBank)から検索できます
--RefSeqは、アクセッション番号が、NM_#########、NC_#########、XM_#########などになっています。
--結局:RefSeqにデータがあればよいですが、微生物系はキビシイかも
--参考:昔、キーワード検索をしたら、同じ名前の全然 違う遺伝子のデータをダウンロードしてしまい、論文出版後に再現性がとれないとクレームがついた事件があったりしたので、検索は十分に気をつけましょう。

- 【実習E1】Entrez Geneで'SOD'と遺伝子名で検索しましょう。
> http://www.ncbi.nlm.nih.gov/nuccore

検索結果の各エントリの'FASTA'のリンクをクリックすると塩基配列がFASTAフォーマットで得られます。ここからいろんな生物種のSODとアノテーションされた核酸配列を集めることが可能です。
実に多くのエントリがひっかかってきますが、すべてが完全長(complete cds)ではなく、またRefSeqだけでなくGenBankの配列もまじっていることを確認しましょう。

*** GGRNA [#o6ca489b]
RefSeqのある生物種に対して超高速に検索できるようにしたDBCLS謹製のサービス。

- 【実習E2】ヒトの遺伝性乳がんに関与しているといわれている遺伝子'''BRCA2'''をGGRNAで検索しましょう。そのアミノ酸配列をエントリ中から探し出しましょう(ヒント:CDSの項目の、translation=のところに書かれています)。
- 【応用E3】上で探しだしたヒト'''BRCA2'''のアミノ酸配列をクエリとして相同な遺伝子を配列類似性(BLAST)検索しましょう。データベースとしてはアミノ酸配列セットを用い、検索プログラムにはBLASTPを選びましょう。
例えば、シロイヌナズナの配列セットに対して検索する場合にはTAIR BLAST、

> http://www.arabidopsis.org/Blast/

ユーカリの配列セットに対して検索する場合にはかずさDNA研究所のEucalyptus camaldulensis Genome DatabaseのBLAST検索

> http://www.kazusa.or.jp/eucaly/search.html#similarity

を使うほうがオリジナルのNCBI BLAST

> http://www.ncbi.nlm.nih.gov/blast/

よりも使い勝手がよいようです。

この操作によりヒト遺伝子'''BRCA2'''のhomologがシロイヌナズナとユーカリにおいて見いだせますが、前者はヒットした遺伝子にきっちりとBRCA2 homologと書かれていましたが、後者はそうではありませんでした。このように''遺伝子アノテーションは最初から整備されているものではなく、データベースとして維持管理して初めて享受できるもの''です。データベースを管理してくれている人たちに感謝して利用しましょう。

** 遺伝子発現 [#g6c16a37]
***【実習】RefExを使って、組織特異的遺伝子を検索する [#k12a82c3]
-[[RefEx >http://refex.dbcls.jp/]]は、DBCLS が提供する、4つの異なる実験手法(EST、GeneChip、CAGE、RNA-seq)によって得られた40種類の正常組織における遺伝子発現量を並列に表現することで、手法間の比較とともに各遺伝子の発現量を直感的に比較することが可能な、リファレンス(参照)データセットです。

*** [[RefEx(Reference Expression Dataset)>http://refex.dbcls.jp/]]  [#u9218007]
&color(green){ヒト、マウス、ラットの4つの異なる実験手法によって得られた40種類の正常組織における遺伝子発現リファレンスデータセット};

> http://refex.dbcls.jp/

-[[RefEx >http://refex.dbcls.jp/]]は、DBCLS が提供する、4つの異なる実験手法(EST、GeneChip、CAGE、RNA-seq)によって得られた40種類の正常組織における遺伝子発現量を並列に表現することで、手法間の比較とともに各遺伝子の発現量を直感的に比較することが可能な、リファレンス(参照)データセットです。
- キーワード・遺伝子名検索では逐次的に検索語候補が提示される
-『転写因子』や『Gタンパク質共役受容体』などのようなあるカテゴリーに属した遺伝子群についてまとめて検索可能
- 『組織特異的遺伝子』をワンタッチで検索
***【実習】RefExを使って、組織特異的遺伝子を検索する [#d71c8bae]

-1. [[http://refex.dbcls.jp/>http://refex.dbcls.jp/]]を開きます。
-2. 画面中央の「組織特異的に発現する遺伝子を見る」の臓器アイコンにカーソルを合わせると、更に詳細な部位のアイコンが出るので、調べたい臓器(例は肝臓)をクリックします。
-3. 一覧表示画面では、左のバーから「絞り込み検索」や「ソート項目」の切り替えができます。
-4. 「Download」アイコンをクリックすると検索結果のタブ区切りテキストがダウンロードされます。
-5. 各遺伝子の青字の部分(例 [[fibrinogen alpha chain>http://refex.dbcls.jp/gene_info.php?lang=ja&db=human&geneID=2243&refseq=NM_000508&unigene=Hs.351593&probe=205649_s_at]])をクリックすると詳細情報を閲覧できます。
-6. 「ヒートマップ on Bodyparts3D」では、表示する部位の切り替え(全身・体幹部・頭部)ができます。「皮膚・骨格筋を表示」もしくは「アニメーション表示」にチェックを入れるとどのように表示されるでしょうか。
-7. 「組織40分類別データ」では、バーの上にマウスオーバーすると測定部位と発現値が表示されます。
-8. 「Download」をクリックすると、表示中の遺伝子の組織40分類別の発現データがタブ区切り形式でダウンロードできます。
-9. 「Probe set ID」のリンク先をクリックすると、どういう情報が参照できるでしょうか。
-10. オーソログ対応遺伝子について、ヒトとマウスで比較してみましょう。どのような違いがあるでしょうか。
-11. 自分の研究テーマに関連する、また興味のある遺伝子について検索してみましょう。

***[[DAVID: The Database for Annotation, Visualization and Integrated Discovery>http://david.abcc.ncifcrf.gov/]] [#x426b06b]
&color(green){マイクロアレイデータの生物学的な解釈};
***【実習】DAVIDを用いて、発現データの結果を生物学的に解釈する [#ge07a166]
:DAVID| The Database for Annotation, Visualization and Integrated Discovery

> http://david.abcc.ncifcrf.gov/

- マイクロアレイ実験の一般的な目的は、実験条件によって得られたある遺伝子群の発現が生物学的にどういう意味を持つかを考えることです。
#ref(AJACS14/thecla/microarray.analysis.005.png)
-今回は、その方法の一つとして、マイクロアレイの結果に[[Gene Ontology>http://www.google.co.jp/url?sa=t&source=web&cd=4&ved=0CEEQFjAD&url=http%3A%2F%2Fja.wikipedia.org%2Fwiki%2F%25E9%2581%25BA%25E4%25BC%259D%25E5%25AD%2590%25E3%2582%25AA%25E3%2583%25B3%25E3%2583%2588%25E3%2583%25AD%25E3%2582%25B8%25E3%2583%25BC&ei=ve9QTd6XMtG6cbeW1KUH&usg=AFQjCNF8U-O4ktlMGoR9DNC0wKltmbjtmw]]の用語を付与することで、生物学的な解釈を行います。
-[[【復習用】DAVIDを使ってマイクロアレイデータを解析する 2012>http://togotv.dbcls.jp/20120927.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png

- マイクロアレイデータの準備 [#wd2c65be]
- マイクロアレイデータの準備 
サンプルデータとして、[[NCBI GEO>http://www.ncbi.nlm.nih.gov/geo/]]より取得した公共の遺伝子発現データを用います。このデータは、ある実験の前後の2群間で有意に発現減少した遺伝子群のリストです。
&br;
→ [[マル秘遺伝子リスト>http://motdb.dbcls.jp/?plugin=attach&refer=AJACS24%2Fhono&openfile=110208_IDlist.txt]]
&br;
(右クリックして「新しいタブで開く」もしくは「名前を付けてリンク先を保存」してください。)
&br;
このデータは、どのような実験から得られたデータなのか、どのように解釈できるのかをDAVIDを使って考察してみましょう!

***【実習】DAVIDを用いて、発現データの結果を生物学的に解釈する [#t120060f]

-1. 上部メニューの「Start Analysis」をクリックします。
-2. 画面左側バーで、probe IDリストをコピペ or ファイルを指定します。
-3. リストのIDの種類タイプを選択します。 … 今回は、「AFFY_ID」と「Gene List」
-4. Submit List をクリックするとリストが読み込まれます。
-5. アップロードしたリストは、左側バーの「List Manager」で「Uploaded List_1」として保存されています。削除やrenameもできます。
-6. 解析を続けます。真ん中の「Functional Annotation Tool」をクリックします。
-7. 「Gene Ontology」をクリックすると、Gene Ontologyを用いた解析の細かいメニューが表示されます。
-8. 今回は、GOTERM_BP_FAT (BP=Biological Process)に注目します。その右の「Chart」をクリックすると結果がポップアップされます。
-9. P-value を2回クリックしてp-valueが小さい(統計的に有意である)順にしてみましょう … p-value小さい順は、一度やればしばらく覚えているので、次からはしばらくは必要ないです
#fold(結果,#ref(AJACS24/hono/david_go_bp.png));
-[応用編] Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみましょう。生物学的にどういうことが言えるでしょうか。
#fold(サンプルデータの答え,Arabidopsis thaliana (シロイヌナズナ)の植物細胞と細胞壁分解酵素を用いて取り除いた植物細胞([[プロトプラスト>http://ja.wikipedia.org/wiki/%E3%83%97%E3%83%AD%E3%83%88%E3%83%97%E3%83%A9%E3%82%B9%E3%83%88]])との比較(=植物細胞の[[脱分化>http://ja.wikipedia.org/wiki/%E3%82%AB%E3%83%AB%E3%82%B9_%28%E6%A4%8D%E7%89%A9%29]]前・後));

----



*** [[NCBI Gene Expression Omnibus (GEO)>http://www.ncbi.nlm.nih.gov/geo/]] [#d0507d2e]
*** 【参考】[[NCBI Gene Expression Omnibus (GEO)>http://www.ncbi.nlm.nih.gov/geo/]] [#d0507d2e]
&color(green){世界最大の遺伝子発現([[マイクロアレイ>http://ja.wikipedia.org/wiki/DNA%E3%83%9E%E3%82%A4%E3%82%AF%E3%83%AD%E3%82%A2%E3%83%AC%E3%82%A4]])データベース(レポジトリ)};

> http://www.ncbi.nlm.nih.gov/geo/

- [[GEO>http://www.ncbi.nlm.nih.gov/geo/]]のエントリについて [#lca52056]
- GEO ID 番号の最初の3文字が   
     GPL:  プラットフォーム(マイクロアレイ等の型番)
     GSM: サンプル(1枚のマイクロアレイから出たデータ)
     GSE:  シリーズ(1つの実験で出たデータを集めたもの。通常複数の GSM からなる)
     GDS:  データセット(NCBIで比較可能なデータを集めて再編成したもの。GEO上で簡単な解析が可能)
&br;&br;

***【参考】GEOを使って、自分の興味のある遺伝子の(ある実験条件下における)発現状況を調べる [#a83d5bfe]
***【参考】【実習】GEOを使って、自分の興味のある遺伝子の(ある実験条件下における)発現状況を調べる [#a83d5bfe]
-[[【復習用】NCBI GEOの使い方2〜遺伝子プロファイルの検索・処理済みデータの取得〜 2011>http://togotv.dbcls.jp/20111020.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. [[http://www.ncbi.nlm.nih.gov/geo/>http://www.ncbi.nlm.nih.gov/geo/]]を開きます。
-2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
-3. 今回は例として「[[nanog>http://www.google.co.jp/search?hl=ja&q=Nanog%E9%81%BA%E4%BC%9D%E5%AD%90]]」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
-4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
-5. 検索結果の右端にある画像をクリックすると、[[発現データの詳細をみる>http://www.ncbi.nlm.nih.gov/geo/gds/profileGraph.cgi?&dataset=DEAryz&dataset=yyyzzz$&gmin=5173.000000&gmax=11680.000000&absc=&gds=2294&idref=161072_at&annot=Nanog]]ことができます。
-6. [[このサンプル(GDS2294)>http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS2294]]では、nanogはどういう細胞のどういう実験条件で発現が増減しているか調べてみましょう。
-7. ページ下部の「samples」に列挙された[[リンク>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM130365]]をクリックすると、そのサンプル(一枚のマイクロアレイ)の詳細を閲覧できます。
-8. [[リンク先のページ>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM130365]]の中ほどにある[[「series」のリンク>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE5583]]をクリックすると、この実験全体の詳細情報が見られます。
-9. [[この実験全体の詳細情報ページ>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE5583]]の下部にある[[「Series Matrix File(s)」>ftp://ftp.ncbi.nih.gov/pub/geo/DATA/SeriesMatrix/GSE5583/]]をクリックすると、この実験の正規化補正済みのマイクロアレイデータをダウンロードすることができます。

***【参考】GEOを使って、自分の興味のあるマイクロアレイ実験データセットを検索&生データをダウンロードする [#ze44dc22]
***【参考】【実習】GEOを使って、自分の興味のあるマイクロアレイ実験データセットを検索&生データをダウンロードする [#ze44dc22]
-[[【復習用】NCBI GEOの使い方1〜マイクロアレイデータの検索・取得〜 2011>http://togotv.dbcls.jp/20110711.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. [[http://www.ncbi.nlm.nih.gov/geo/>http://www.ncbi.nlm.nih.gov/geo/]]を開きます。
-2. 画面中央の「Platforms」をクリックします。
-3. [[Platform(マイクロアレイの種類)の一覧画面が現れる>http://www.informatics.jax.org/javawi2/servlet/WIFetch?page=imageSummaryByMrk&key=25000&imageType=8]]ので、上部の「FIND PLATFORM」をクリックします。
-4. [[platformの検索画面>http://www.ncbi.nlm.nih.gov/geo/query/browse.cgi?mode=findplatform]]が現れるので、「Company name」に「Affymetrix」、「organism」に「Homo sapiens」を選択し、「FIND PLATFORM」をクリックします。
-5. [[Affymetrixのヒトのマイクロアレイの検索結果>http://www.ncbi.nlm.nih.gov/geo/query/browse.cgi?mode=foundplatform]]が表示されるので、中程にある「Affymetrix GeneChip Human Genome U133 Plus 2.0 Array」の左端にある[[「GPL570」というID>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570]]をクリックします。
-6. [[表示された画面>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570]]の真ん中あたりにある「series」下の「More...」をクリックすると、登録されているデータセットを閲覧できます。
-7. ブラウザの検索ボタンなどを使って「reprogramming」という単語を検索するとどういうデータがヒットするでしょうか?
-8. ヒットしたデータの左端にあるIDをクリックすると、[[そのデータセットの詳細情報>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE9832]]が閲覧できます
-9. ページ下部の「Download family」の中にある「Series Matrix File(s)」をクリックすると正規化済みのデータのダウンロードリンクが表示されます。
-10. ページ最下部の「Supplementary file」にあるリンクから生データをダウンロードすることができます。
-11. 自分の研究テーマに近い、また興味のあるマイクロアレイデータが利用可能か検索してみましょう。

***【参考】データセットブラウザ(Dataset browser)を利用して、GEOに登録されているマイクロアレイデータを解析する [#p112cdc5]
***【参考】【実習】データセットブラウザ(Dataset browser)を利用して、GEOに登録されているマイクロアレイデータを解析する [#p112cdc5]
-[[【復習用1】NCBI GEOの使い方3〜データセットブラウザの使い方1〜 2012>http://togotv.dbcls.jp/20120128.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-[[【復習用2】NCBI GEOの使い方4〜データセットブラウザの使い方2〜 2012>http://togotv.dbcls.jp/20120227.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. [[http://www.ncbi.nlm.nih.gov/geo/>http://www.ncbi.nlm.nih.gov/geo/]]を開きます。
-2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
-3. 今回は例として「[[nanog>http://www.google.co.jp/search?hl=ja&q=Nanog%E9%81%BA%E4%BC%9D%E5%AD%90]]」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
-4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験におけるnanog遺伝子の発現データが表示されます。
-5. 検索結果の[[アクセッション番号(今回は GDS2294)>http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS2294]]をクリックすると、解析用の「データセットブラウザ」が開きます。
-6. 「[[Expression profiles>http://www.ncbi.nlm.nih.gov/geoprofiles?term=GDS2294[ACCN]]]」をクリックすると、[[この実験データセットにおける個々の遺伝子発現状況を検索できるページ>http://www.ncbi.nlm.nih.gov/sites/entrez?db=geo&cmd=search&term=GDS2294[ACCN]]に飛びます。
-7. 検索窓に表示されているアクセッション番号の後に続けて遺伝子名を追加(今回は例として [[Oct4>http://www.google.co.jp/search?q=Oct4]] )すると、この実験データセット内におけるその遺伝子の発現データが検索できます。
-8. 「データセットブラウザ」の「[[Data Analysis Tools>http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS2294#details]]」では詳細なデータ解析が可能です。
-9. 「Find gene name or symbol:」のところに自分の興味ある遺伝子名を入れてみましょう。
-10. 「Find genes that are up/down for this condition(s):」の「GO」をクリックするとどのような遺伝子がヒットするでしょうか。
-11. 「Compare 2 sets of samples」では2群間で発現に差のある遺伝子を(統計学的に)検索できます。step1で発現量の違いを検出する方法を設定します。step.2で比較する2群の設定をします。step.3の「Query Group A vs. B」をクリックすると、検索が始まります。
-12. 「Cluster heatmaps」では、マイクロアレイデータ解析でよく用いられる[[ヒートマップ>http://images.google.co.jp/images?q=ヒートマップ]]でのデータ表示が行なえます。分類方法としてHierarchical、Partitional (K-means/K-medians)、By location on chromosomeの3種類が選べますが、それぞれどのようにデータが分類されるか試してみましょう。
-13. ヒートマップ上をクリックすると領域選択が開始されます。リサイズや移動で範囲を決定した後、Stack up をクリックすると選択した範囲が拡大されます。 
-14. サンプルの内容とIDの対応は、元のページに戻って、Sample Subsets から確認できます。
-15. さらに範囲選択して、Plot values をクリックすると、各遺伝子のサンプルごとの発現の様子がプロットで確認できます。 
-16. 範囲選択して、View in Entrez をクリックすると、選択範囲内のデータを棒グラフで見られます。 
-17. 範囲選択して、Download をクリックすると、選択範囲内のデータがテキスト形式でダウンロードできます。 
-18.  「Experiment design and value distribution」では実験データにおける発現の分布を参照できます。これにより、各サンプルのデータが互いに比較可能か(実験上のミスがないか)チェックすることができます。

***【参考】GEO2Rを利用して、GEOに登録されているマイクロアレイデータを解析する [#r4b74645]
***【参考】【実習】GEO2Rを利用して、GEOに登録されているマイクロアレイデータを解析する [#r4b74645]
-[[【復習用】NCBI GEOの使い方5〜GEO2Rを使う〜>http://togotv.dbcls.jp/20120524.html#p01]] http://lifesciencedb.jp/image/small_video_icon.png
-1. [[http://www.ncbi.nlm.nih.gov/geo/>http://www.ncbi.nlm.nih.gov/geo/]]を開きます。
-2. 画面中央下の「[[Series>http://www.ncbi.nlm.nih.gov/geo/browse/?view=series]]」をクリックします。
-3. 検索機能を使って興味のある実験データセットを探すことができます。
-4. 今回は喫煙による遺伝子発現の変化に関するデータについて調べたいというモチベーションを例にするので、「cigarette smoke」と入力し、検索します。
-5. [[GSE17913 - Effects of Cigarette Smoke on the Human Oral Mucosal Transcriptome>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17913]] という喫煙による口腔粘膜の遺伝子発現を調べたデータセットが見つかったので、「[[GSE17913>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17913]]」をクリックします。
-6. 今回のテーマであるGEO2Rへのリンクはページ下部にあるので、リンクをクリックし[[GEO2Rのページに移動>http://www.ncbi.nlm.nih.gov/geo/geo2r/?acc=GSE17913]]します。
-7. このデータセットに含まれるサンプルの一覧が表示されます。列見出しをクリックすると各項目でソートできます。「Title」をクリックすると、今回のデータセットが、喫煙者・非喫煙者のそれぞれ男性・女性の頬粘膜(buccal mucosa)から得られたサンプルであることがわかります。
-8. 比較したいグループをそれぞれ設定します。「Define groups」をクリックして、それぞれのグループ名を入力します。今回は、非喫煙者の女性(never_smoker_F)と、喫煙者の女性(smoker_F)のサンプルをそれぞれグループ化します。

&color(red){(※GEO2Rの各ジョブの実行は時間がかかるので要注意。講習では[[復習用統合TV>http://togotv.dbcls.jp/20120524.html#p01]]の実行結果を見ながら進めるので、実行しないでください。)};

-9. グループに入れたいサンプルをクリックやドラッグで選択してからグループ名をクリックすると、サンプルがグループに登録されます。
-10. 次に、「Samples」をクリックした後、「Value distribution」タブをクリックし、「View」をクリックすると各サンプルの発現分布を調べることができます。
-11. 発現分布が箱ひげ図で示されます。データセットブラウザと異なり、GEO2R では投稿された生のデータを用いて解析されます。
-12. "Export" をクリックすると、箱ひげ図で与えられている値をまとめたタブ区切りテキストが表示され、これらを保存できます。 
-13. GEO2R タブに戻り、"Top 250" をクリックすると、選択したグループ間で各遺伝子の発現量に差があるかどうかの t 検定の結果、P 値が小さい順に 250 件表示されます。"P.Value" は元の P 値、"adj.P.Val" は多重検定の補正をかけた後の P 値です。有意性の評価は adj.P.Val に基づいています。 
"t" は普通の t の標準偏差を全遺伝子の標準偏差を用いて調整したもの (moderated-t) です。普通の t より精度が上がっていますが、普通の t 分布に従うものとして扱えます。 "B" は2つのグループで発現量が異なっている対数オッズ値です。exp(B)/(1+exp(B)) の値が、発現量が異なっている確率で
す。"logFC" は、発現量の差が何倍であるかを2底の対数にしたものです。つまり値が 2 なら 4 倍の差を示しています。ここでの解析では発現量が対数で与えられている必要がありますが、元のデータでは対数になっていないことがあります。そのような場合デフォルトでは自動検出し、対数変換して計算してくれます。その上でこのような表示がされます。
-14. 行をクリックすると、その行の遺伝子の各サンプルでの発現量グラフが見られます。
-15. 今回喫煙者女性・非喫煙者女性間で最も差が大きいとされた遺伝子であるシトクロム P450 (異物代謝に関わる遺伝子)は、喫煙者群で有意に発現増加したことがわかります。
-16. "Sample values" をクリックすると、発現量の値が一覧できます。 
-17. "Select columns" をクリックすると、表示するカラムを変更できます。 "logFC" を消し "GO.Function" を追加してみましょう。
-18. "Save all results" をクリックすると、結果をテキストで表示・保存できます。
-19. Options タブをクリックすると、いくつかの設定を変更できます。右の項目は多重検定の補正法の選択です。デフォルトでは Benjamini & Hochberg の方法が使われていますが、これを Bonferroni の方法に変更してみます。中央はデータの対数をとるかどうかの選択です。デフォルトでは先程説明したとおり自動検出です。左の項目はプラットフォームの注釈の選択です。"NCBI generated" がある場合はそれの方が信頼できます。
-20. Options に変更を加えたら、GEO2R タブに戻って "Recalculate" をクリックします。 変更を反映した計算結果が表示され、多重検定の補正法を変更したため、adj.P.Val が変わっていることがわかります。
-21. Profile graph の項目では、プローブ ID を元に、個々の遺伝子の発現状況を調べることができます。
-22. 「View data for (platform ID)」をpクリックするとプラットフォームの情報が表示されるので、目的の遺伝子のプローブ ID を、ブラウザの検索機能 (Ctrl+F)を用いて調べます。今回は例としてNFE2L2(酸化ストレスによって活性化する転写因子)を検索してみましょう。
-23. 一番左がプローブIDなので、これをコピーし、さきほどの"Enter ID" の窓にプローブ ID をペーストし、"Set" をクリックすると。発現量のグラフが表示されます。(なおこの操作では、何の計算も実行されないので、検定の結果の P 値を調べることはできません。)
-24. R script タブをクリックするとこれまでに実際に実行された R のスクリプトを見ることができます。これを参考に、手元の R でパラメータを調整するなどして更なる解析を行うことができます。
- R の使い方については、下記の統合TV のコンテンツ「統計解析ソフト「R」の使い方」シリーズをご覧ください。
-[[統計解析ソフト「R」の使い方 〜導入編〜>http://togotv.dbcls.jp/20090618.html#p01]] 
-[[統計解析ソフト「R」の使い方 〜ヒートマップ編〜>http://togotv.dbcls.jp/20091219.html#p01]] 
-[[統計解析ソフト「R」での立廻り>http://togotv.dbcls.jp/20111107.html#p01]]