MotDB


AJACS10/neta のバックアップソース(No.2)

#contents

----

*ホモロジー検索(BLAST) [#o7198fd5]
**データベース [#v379de9e]
-DNA塩基配列
--[[GenBank>http://www.ncbi.nlm.nih.gov/Genbank/]]/[[EMBL>http://www.ebi.ac.uk/embl/]]/[[DDBJ>http://www.ddbj.nig.ac.jp/Welcome-j.html]], [[RefSeq>http://www.ncbi.nlm.nih.gov/RefSeq/]]など
---[[GenBankエントリの例>http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=NM_000558]]
---現在は[[A型インフルエンザの配列を集めたページ>http://www.ncbi.nlm.nih.gov/genomes/FLU/SwineFlu.html]]も提供されています 
-アミノ酸配列
--Swiss-Prot, trEMBL, [[UniProt>http://www.uniprot.org/]]など
---[[UniProtエントリの例>http://beta.uniprot.org/uniprot/O14548]]

**ツール [#l0590274]
//**アミノ酸配列のアラインメント [#f7b2516b]
//***「マトリクス」=類似の程度を示す [#j18f41ca]
//-PAM250
//-BLOSUM62

//***ダイナミックプログラミング = DP [#kb9a11e1]
//-「最適経路中の部分経路もまた最適経路になっている」
//-動的計画法は、この原理を利用して最適化問題を解く。
//-ある問題を、多段階に「バラす」ことができる場合、動的計画法によって各段階の最適解(経路)を求め、それをたどることで、全体の問題を解くことが可能になる。

//***まじめにDPやるとタイヘンなんで、はしょる [#zba85d5e]
-SSEARCH
--配列全体を探索
-FASTA
--よく似た領域の周囲だけを探索
-BLAST
--「ワード」の一致を発見
--そこからアラインメントを横へ伸ばす。伸びなくなったらあきらめる。
--きわめて高速で巨大配列も探索可能
-BLAST検索のprogram option

|program|入力|DB|概要|
|BLASTN|DNA塩基配列|DNA塩基配列|入力配列(DNA塩基配列)と類似の核酸配列を検索|
|BLASTP|アミノ酸配列|アミノ酸配列|入力配列(アミノ酸配列)と類似のアミノ酸配列を検索|
|BLASTX|DNA塩基配列|アミノ酸配列|入力DNA塩基配列をアミノ酸に翻訳した配列で、類似のアミノ酸配列を検索|
|TBLASTN|アミノ酸配列|DNA塩基配列|入力アミノ酸配列を、DNA塩基配列のデータベースをアミノ酸配列に翻訳したものに対して、類似の配列を検索|
|TBLASTX|DNA塩基配列|DNA塩基配列|入力DNA塩基配列をアミノ酸配列に翻訳したものを、核酸配列データベースをアミノ酸配列に翻訳したものとの類似を検索|
|PSI-BLAST|アミノ酸配列|アミノ酸配列|入力配列とアミノ酸データベースとの検索を繰り返すことで、弱い類似しかない配列を検索可能にする方法|
|PHI-BLAST|アミノ酸配列|アミノ酸配列|配列の「パターン」で類似の配列を検索する|

これらのプログラムはもともと自分の使えるサーバやパソコンにインストールして使うものですが、BLASTなんかはウェブ経由でも使えるようになっています

**【実習】BLAST検索 [#jeff5520]
-統合TV: http://togotv.dbcls.jp/20070808.html

-今回はBLASTを使って機能未知のアミノ酸配列の機能を推定してみましょう。

+以下の配列をコピーします (control-C)
--書き写すのは大変な上に必ず打ち間違えますので、やめましょう
// >opsin Rh2(Drosophila melanogaster)
 MERSHLPETPFDLAHSGPRFQAQSSGNGSVLDNVLPDMAHLVNPYWSRFAPMDPMMSKIL
 GLFTLAIMIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFYY
 ETWVLGPLWCDIYAGCGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKILFI
 WMMAVFWTVMPLIGWSAYVPEGNLTACSIDYMTRMWNPRSYLITYSLFVYYTPLFLICYS
 YWFIIAAVAAHEKAMREQAKKMNVKSLRSSEDCDKSAEGKLAKVALTTISLWFMAWTPYL
 VICYFGLFKIDGLTPLTTIWGATFAKTSAVYNPIVYGISHPKYRIVLKEKCPMCVFGNTD
 EPKPDAPASDTETTSEADSKA
+NCBI BLASTのページを開きます: http://www.ncbi.nlm.nih.gov/blast/
--右クリックから「新しいタブで開く」(or 新しいウインドウを開く)を選択して別のタブで開くと便利です
--NCBI: National Center for Biotechnology Information 米国国立生物工学情報センター
+「protein blast」を選択します
--アミノ酸配列が入力で、アミノ酸データベースに対して検索を行います
+「Search」窓に上記配列をペーストします (control-V)
+「Choose database」で「swissprot」を選択
--検索対象としてどのデータベースを選ぶかは非常に重要です。解析の目的に合わせて適切なデータベースを選びます
--今回は機能未知配列の(なるべく)正確な機能を推定したいので、人手で整備されている(データがきれいな)swissprotを選びました。
+Algorithm が blastp (protein-protein BLAST) になっているのを確認する
+「BLAST」ボタンをクリック → これで計算が始まります
--結果の一番上に、Conserved Domain(機能が共通しているタンパク質で保存されている領域)が表示されます 
--実行が遅いときはこちら:[[あらかじめ検索した結果>http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&VIEW_RESULTS=FromRes&RID=0REWVY3W016&UNIQ_OBJ_NAME=A_SearchResults_1M4UXG_3hkf_1Z9x5s21o_GTSlj_1y7wld&QUERY_INDEX=0]]
//--計算している間(モノによっては結構時間がかかります)、The Conserved Domain Database (CDD)  が表示される
//--すぐ計算が終わった場合は表示されない。→ 結果ページの右上にある「Show Conserved Domains」をクリックすることで表示できる。
+画像の7tm_1をクリック
//(もしくはページの右上にある「Show Conserved Domains」をクリック)
--conserved domainとして「pfam00001, 7tm_1, 7 transmembrane receptor (rhodopsin family)..」が見つかった(7回膜貫通型receptor; Pfam00001)
---どういうドメインを持っているかで大体の機能の予測ができることも多いです
+戻って、検索の結果を見てみます
--まずアラインメントされた(並べることのできた)領域の絵が出力されています
--その下にヒットしてきた配列のリストとスコア、E-valueが表示されます
---E-valueとは、そのライブラリで偶然に同じスコアでヒットする''本数''の期待値
--配列リストの右の「G」は「Entrez gene (遺伝子ごとに情報をとりまとめたデータベース)」へのリンク
---どのような情報がとりまとめられているか、確認してみましょう
--さらに下の方に行くと、配列のアラインメントを見れます

***計算結果をいろいろな方法で表示 [#ddee5775]
-結果上部にある「Formatting options」から結果を別の書式で表示させることができます。
-結果上部にある「Download」から結果を別の書式で表示させることができます。

-【応用】テーブル形式で結果を保存し、エクセルで開いてみよう
+「Download」をクリックします
+「Alignment」のしたにある「Hit Table(text) 」をクリックします
--デスクトップとかに保存します
--保存したファイルはテキストファイルなので、「メモ帳」とかでも開けます
+Excelを起動します
+「ファイル」→「開く」からさきほどダウンロードしたファイルを開きます
--ファイル名は「なんたらかんたら-Alignment.txt」
--ファイルが灰色になって選択できない場合には、「選択対象」とやらを「すべての読み込み可能なファイル」から「すべてのファイル」に変更します
+「カンマやタブなどの〜」を選んで「次へ」
+区切り文字 のところで、「タブ」と「コンマ(カンマ?)」両方にチェックを入れます → 「次へ」
+「完了」を押すとBLASTの結果をExcelで表示できました


//-【参考】: cDNAやESTのゲノムへのマッピング(貼り付け)は、BLATのほうがよい&br;
//のちほど「真核生物のスプライスサイト予測」で利用します。結果の見え方や速度を比較しましょう

//-系藤樹を表示させよう
//--下へスクロールして「Alignments」の上から順に数本にチェック入れる
//--「Distans tree of results」をクリック
//--「Tree Method」を「Fast Minimum Evolution」から「Neighbour joining」に変更したり、樹型を「rectangle」から「slanted」「radial」などに変更してみましょう

-【応用】: 検索結果で得られた類似な配列をFASTA形式でまとめどりしよう
--統合TV: http://togotv.dbcls.jp/20070926.html

+結果ページの「Alignments」(リストの下)のところに、それぞれの配列の先頭にチェックボックスがあるので、欲しい配列にチェックを入れます
--全部欲しい場合には「Select all」をチェックすれば全部の配列にチェックが入ります。もう一回押せばチェックを解除できます
+今回は上から5個の配列にチェックを入れてみます
+「Select all」の横にある「Get selected sequences」を押します
+上の方にある「Display: Summary」のところを「FASTA」に変更します(自動的にページが更新されます)
//--20個以上のすべての配列が表示されるように、右側の数字の部分を変更します(自動更新)
+「Send to」のところを「File」に変更します(自動的に配列をダウンロードします)
+メモ帳でダウンロードしたファイルを開きます

***その他の機能 [#k440c1fc]
-【応用】: PSI-BLASTを使うと、何回も繰り返し検索を実行することで類似が低いが遠縁であるような配列を捕まえることもできます。上記の配列で実行してみましょう。
--統合TV: http://togotv.dbcls.jp/20071016.html

+新しく[[BLAST>http://www.ncbi.nlm.nih.gov/blast/]]のサイトを開きます
--前の配列が残っている場合には入力ボックスの上にある「Clear」を押して前の配列を消してから実行します
+配列を入力ボックスにコピペし、検索対象データベースを確認します
+「Algorithm」のところを「PSI-BLAST (Position-Specific Iterated BLAST)」に変更します
+「BLAST」ボタンをクリック
--表示される結果が1回目のPSI-BLASTの結果です(1回目の結果は blastp の結果と同じになります)
+「Descriptions」(絵の下)にある「Run PSI-Blast iteration 2 with max 500」の横にある「Go」をクリックすると2回目の検索が始まります
--「Descriptions」のところで New マークが付いている配列が新しく見つかった配列です

----

*現在進行中のゲノムプロジェクトを調べる 〜GOLDデータベース〜 [#ba426fce]
-[[GOLD: Genomes OnLine Database>http://www.genomesonline.org/]]
--世界中で行われた/行われているゲノムプロジェクトを集めたデータベース
-統合TV: http://togotv.dbcls.jp/20090403.html

-【演習】:解読が終了したゲノムプロジェクト・現在進行中のゲノムプロジェクトを調べてみましょう
--真ん中にある「GOLD Tables」をクリックすると、終了したゲノムプロジェクトの数と、それぞれの生物ドメイン(真核/真正細菌/古細菌)で進行中のゲノムプロジェクト数が見れます

--すでに終了しているプロジェクトはいくつありますか?
--真核生物で現在進行中のゲノムプロジェクトはいくつありますか?
--真正細菌、古細菌で進行中のプロジェクトはいくつありますか?

---真核生物:Eukaryote (E)
---真正細菌:Bacteria (B)
---古細菌:Archaea (A)

-メタゲノムプロジェクト(ある場所にいる生物のゲノムをまとめて読む)の数も見れます
--どのような場所の生物集団が対象になっていますか?調べてみましょう

-【演習】:あの生物(犬とかネコとか)のゲノムは読まれているか?調べてみよう。
--まず、調べたい生物の学名(ヒトの場合だとHomo sapiens)を調べます
---catとかdogのような一般名では調べられません
---大抵[[WikiPedia>http://ja.wikipedia.org/]]とかに載ってます
---NCBIの[[taxonomy>http://www.ncbi.nlm.nih.gov/Taxonomy/]]とかでも調べられる

--「属」の部分(ヒトの場合だと Homo)をコピーします
---sapiensの部分は「種」といいます

--GOLD Tablesの真ん中へんに「Search GOLD」というのがあるのでクリック
---「Genus」(属)の部分にペーストして「Submit search」をクリックすると検索できます
---「species」(種)も指定できますが、検索条件をきつくしすぎると、結果が帰ってこないかもしれません

--調べたゲノムプロジェクトは終了していましたか?進行中でしたか?それとも誰もやっていない?

----


[[工事現場>./construction]]