MotDB


AJACS湘南/講習内容/part3

AJACS湘南/講習内容へもどる


目次


_ 塩基配列の注釈(annotation)の基礎

_ ゲノムの注釈 genome annotation

  • 構造注釈 structural annotation
    遺伝子の構造を記載したアノテーション
  • 機能注釈 functional annotation
    遺伝子の機能を記載したアノテーション

_ 遺伝子の「構造 structure」を予測すること

  • DNAは読めるが、それだけでは遺伝子はわからない
  • ゲノムを読んだら遺伝子の構造を把握することがまず第一

_ 遺伝子構造アノテーションの基礎

_ 類似配列検索

  • 既知の遺伝子に類似な配列は遺伝子たぶん
  • オーソログ ortholog (種分化と同時に遺伝子が分離)
  • パラログ paralog (種のなかで遺伝子が重複)

_ 【実習】遺伝子発見ツール

_ GlimmerとGeneMark.hmm

Glimmer: http://www.cbcb.umd.edu/software/glimmer/

Glimmer(server): http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi

GeneMark.hmm: http://exon.gatech.edu/genemark/

GeneMark.hmm for Prokaryotes: http://exon.gatech.edu/genemark/gmhmm2_prok.cgi

  • 【実習】サンプル配列はかずさで決定した光合成細菌 Synechocystis PCC 6803 株のこの図の先頭2.5 kbの配列です。
    Glimmer(server)GeneMark.hmm for Prokaryotes (生物種はSynechocystis_PCC6803を選択)で解析しなさい。 どのような遺伝子予測結果が帰るでしょう?
>Synechocystis_PCC6803 (Chr) 1-2500
GGCGCGCCATCGCCGGCTGGCGGAAATTACCGAAATGATCCACACCGCTAGTTTGGTCCA
CGATGACGTGGTGGATGAGGCGGATCTGCGGCGGAATGTGCCCACGGTGAATAGTTTATT
TGACAATCGGGTGGCAGTGTTAGCGGGGGATTTCCTCTTTGCCCAATCTTCTTGGTATTT
GGCTAACTTAGATAATTTGGAGGTGGTGAAATTATTATCGGAGGTAATTCGGGACTTTGC
GGAGGGGGAAATTTTACAGAGCATCAATCGTTTTGACACCGACACAGATTTAGAAACCTA
TTTGGAAAAAAGCTATTTTAAAACCGCCTCTCTCATTGCCAACAGTGCCAAGGCAGCGGG
GGTTTTGAGCGATGCGCCCCGGGATGTGTGTGATCATCTTTACGAATATGGTAAACATTT
GGGGTTAGCGTTCCAGATTGTGGACGATATTTTAGATTTCACTTCCCCCACGGAGGTTTT
GGGGAAACCGGCCGGGTCAGATTTAATCAGCGGCAACATCACCGCCCCAGCCCTATTTGC
CATGGAAAAATATCCCCTACTTGGTAAATTAATTGAACGGGAATTTGCCCAGGCGGGGGA
TTTGGAACAGGCCCTGGAATTGGTAGAACAGGGGGATGGTATCCGGCGATCAAGGGAATT
GGCCGCGAACCAAGCGCAACTGGCCCGGCAACATCTGAGTGTGCTGGAAATGTCCGCTCC
GAGAGAATCTCTGTTGGAATTAGTTGATTATGTGCTTGGTCGTCTCCATTAGGTTTTCCC
GTAGATTTTTTCCCAGCGGGCTTGATTGCGTTGAATAAAACTCCCCAAACCATTGTTTTT
TACAAACCCTACGGAGTTCTGTGTCAATTTACCGATAATTCTGCCCATCCCCGGCCGACG
TTGAAGGATTATATTAATTTGCCAGATTTATATCCCGTGGGGCGTTTGGATCAAGATAGC
GAAGGACTATTGCTGCTCACCAGCAACGGTAAACTTCAGCATCGTTTGGCCCACCGGGAG
TTTGCCCACCAACGTACTTATTTTGCCCAAGTAGAAGGCTCTCCAACGGACGAAGACCTA
GAACCCCTGCGGCGGGGCATAACTTTCGCGGATTACCCTACCAGACCGGCGATCGCCAAA
ATTATCACTGAACCAGATTTTCCCCCCAGAAATCCTCCCATTCGTTATCGAGCCTCCATT
CCCACCAGTTGGTTAAGCATTACCCTAACGGAGGGGCGCAATCGTCAGGTACGTCGAATG
ACAGCGGCAGTGGGCTTCCCTACCCTACGATTGGTGCGGGTGCAAATACAGGTTACTGGT
CGCTCTCCCCAACAGGGCAAAGGTAAGTCAGCAGCAACTTGGTGCTTAACCCTAGAAGGT
TTGAGTCCGGGGCAATGGCGACCCCTGACCCCTTGGGAAGAAAATTTTTGCCAGCAACTC
TTAACGGGAAATCCCAATGGTCCCTGGCAGAAAAAATTTGGCGATCGCCGTTGATCAAGG
CTCCCTCCCCCCAGGGCATTAAAATAGGAACAGTTGCCGAACTCCCTATCAAGCCGAATC
ATTAATCATCCCGTTTATGTCCTATCTAATCGCTGTGGTAGCCAACCGCATTGCCGCCGA
AGAAGCTTATACAACCTTGGAACAGGCAGGATTTGCCCAAAAGAATTTGACTATCATTGG
CACAGGTTATAAAACCGCTGACGAATTTGGCTTGGTGGACCCGAAAAAACAAGCTATCAA
AAGGGCAAAGCTCATGGCCATCTGGTTAGTACCCTTTGGTTTCGCTGCCGGTTATTGCTT
TAACCTCATCACTGGCTTGAGCACCTTAGATTGGGCTGGAGACCCCGGTAACCACATTGT
GGGCGGCCTCCTAGGGGCGATCGGTGGAACCATGGGGAGTTTCTTTGTCGGTGGGGGCGT
GGGCTTAAGCTTTGGCAGTGGGGACAGTTTGCCCTATCGAAACCTTTTGCAAGCGGGGAA
ATATTTGGTAGTGGTGGCCGGTGGTGAACTGCAAAAACAACGGGCAACCAATTTACTCCG
GCCCCTCAATCCTGAATATCTCCAGGGTTATACCGCCCCCGATGAAGCTTTTGTTTGAAC
TCCATCTTGAGCGGTAATGACTTCCCCGAAGAAGTTATAAACTTGTAGGCAATTCGGGCA
GACCGAAGGGCTTACCAACCGTATTGGGACCAAACTGGGTGCCTGTAAAGGGATTCTGCT
ACCCTTACCCCCCGCAATTGGTTTAACAGGGGTAAATGACCCTGGGGTGCGGATAAATCC
CAGGTAAAGCCCTTGGGCCAACGGGTCCAAACATTGCCGCTTTTCCAGCCAATTTTCGGC
CAAAGCTTGGTAAATTCTTTTCCGGACGCCAACCAGAGTCGTCGTTGCACCGAAAAACCA
AAATTACCGTTGGAGTGGAGCCACCACAAAGCATTAATGGTGTGCAGGTCTAGGGCAGGA
AATTTTTCTACTTCTGTGAAATAGAGCCATTGTCTTTGAC
  • 【応用】生物種をわざとまちがえると (大腸菌 E. coliにしてみるとか) 結果はどうなりますか?

_ 真核生物のゲノム注釈

_ 原核生物よりも困難な理由

  1. 遺伝子密度が低い
  2. 遺伝子構造が複雑
    • エクソン=イントロン構造
    • エクソンはタンパク質を指定する情報が載っている「コード領域」
    • イントロンは転写後にスプライシングにより切り捨てられる「非コード領域」
    • イントロンが切り出されることをスプライシングという
    • イントロンが切り出される位置をスプライスサイトという
      スプライスサイトをきちんとおさえないと、コード領域が「ズレ」てしまう

_ 真核生物は「コード領域予測+スプライスサイト予測の組み合わせ」

_ コード領域予測の方法

  • 配列類似+遺伝子予測法(原核生物と同じ)
  • expressed sequence tags (EST) を貼り付ける方法
    • dbEST: http://www.ncbi.nlm.nih.gov/dbEST
    • 転写されたRNAを逆転写したものがcDNA (complementary DNA)
    • cDNAの端だけを重複をゆるして大量に読んだものがEST
    • 転写(transcription)されたRNAを網羅的に研究する→「transcriptome」である
  • 大量に存在するESTや、アミノ酸配列を貼り付けることで遺伝子を探す
    • GT-AGルールに従うのがキモ

_ スプライスサイトの予測

  • 保存されている短い配列パターンをコンセンサスという
  • スプライスサイトのコンセンサスは GT-AG しかない
  • スプライスサイトの周辺の微弱な情報を「総合」
    • ニューラルネットワークによるモデル化
      モデル化に際しては、学習データの厳選が重要!
  • NetGene2
    http://www.cbs.dtu.dk/services/NetGene2/

_ 真核生物ゲノムの遺伝子発見の実際

  • 複数の解析方法の組み合わせによる画像化
  • 手作業による「編集」が必須である
  • それでも最大65%の精度
    実験の情報のフィードバックにより修正が必要

_ 【実習】スプライスサイト予測・Martでデータ取得

_ Netgene2

精度の高いスプライスサイト予測プログラム

http://www.cbs.dtu.dk/services/NetGene2/

  • Human, C. elegans(線虫), A. thaliana(シロイヌナズナ)
  • シロイヌナズナのマトリクスは双子葉植物の多くに使える(すくなくとも、ミヤコグサとトマトでは実用になることを確認した)
  • 【応用(ややこしめ)】: C. elegansのcDNAの配列ををゲノム塩基配列にマップして、その結果とスプライスサイト予測の結果を比較しよう [#s04d436b]
  • C. elegansのcDNAもしくはmRNAの配列をどのようにして取得するか?
    1. "Caeno..."のつづりが思い出せなかったので、NCBI Taxonomyに行って nematode で検索
    2. Caenorhabditis elegansがでてきたので、開く
    3. Nucleotideの横の数字(384,898)をクリックしてEntrezを開いた
    4. 検索窓の txid6239[Organism:noexp] に "full length cDNA" を追加して問い合わせすると2配列が得られた
    5. L39939を開いてfeaturesの「mRNA」をクリックし、以下のcDNA塩基配列を得た。
>(gi|675503:276-323, 373-448, 496-590, 634-729, 923-1264, 1319-1591, 1639-1856, 2003-2114) Caenorhabditis elegans cathepsin B-like cysteine proteinase (cpr-6) gene, complete cds
AAGCGACGACAACTTGCGATCAACACGCTGACCGTCGACGCCAACATGAAGACGTTGCTCTTCCTTTCCT
GCATAGTGGTAGCAGCTTATTGCGCATGCAATGATAACCTTGAGTCCGTTTTGGACAAATATCGCAATCG
TGAAATTGACTCAGAAGCAGCTGAGCTTGACGGAGATGACTTGATCGACTATGTCAATGAAAACCAAAAT
CTTTGGACGGCTAAGAAACAAAGACGTTTTTCATCGGTCTACGGAGAGAACGACAAGGCGAAATGGGGAT
TGATGGGTGTCAACCATGTCAGACTTTCTGTTAAGGGCAAACAACACTTGTCCAAGACCAAGGATCTCGA
TTTGGACATTCCAGAAAGCTTTGATTCTCGTGACAATTGGCCAAAATGCGATTCCATCAAGGTCATCAGA
GACCAGTCAAGCTGTGGATCCTGCTGGGCTTTCGGAGCCGTTGAGGCAATGTCTGATCGTATTTGCATTG
CTTCCCATGGAGAACTTCAAGTTACACTTTCCGCTGATGATCTTCTCAGTTGCTGCAAAAGCTGTGGATT
CGGATGTAACGGAGGAGATCCATTGGCTGCCTGGCGCTACTGGGTGAAGGATGGAATCGTTACTGGATCA
AACTACACCGCTAACAATGGGTGCAAGCCATACCCATTCCCACCATGTGAGCATCACTCGAAGAAAACCC
ACTTCGATCCATGTCCACACGATTTGTACCCAACTCCAAAATGTGAAAAGAAGTGCGTTTCTGATTACAC
TGACAAGACTTACTCCGAGGACAAATTCTTTGGCGCCAGCGCGTACGGAGTCAAGGATGACGTTGAAGCC
ATCCAGAAAGAATTGATGACTCACGGACCCCTTGAGATCGCTTTCGAGGTTTACGAGGATTTCTTGAACT
ATGACGGTGGAGTCTATGTTCACACCGGAGGAAAGCTCGGAGGAGGACACGCCGTCAAGCTTATCGGATG
GGGTATTGACGATGGAATCCCATACTGGACAGTTGCCAACTCTTGGAACACCGACTGGGGAGAGGATGGA
TTCTTCCGTATCCTGAGAGGAGTTGATGAGTGTGGAATTGAATCTGGAGTTGTTGGAGGAATTCCAAAGC
TCAATAGTCTTACCTCAAGACTTCACAGACACCACCGCCGCCACGTCTACGATGACAACTACTGAACCAT
CATTCCATTTGAACAAAACCTTTATTTCTTTTAAATTTCTATATGTATAAAAATGAATGAGTTAATCAAT
  1. ゲノムへのマッピングはBLATが高速で良い。UCSCを使う ( http://genome.ucsc.edu/ )
  2. BLAT -> C. elegans でサーチする。一瞬で結果が返るのでびっくりする。
browser details 675503:276-323  1253     1  1260  1260 100.0%     X   +    6607162   6609000   1839

が最も良くマッチしているので、browserでマッピングの状況をながめる。画像をたたくとdetailsのリンク先と同じ情報が表示される。BLATはGT-AGルールにしたがってcDNAの配列をゲノムにマッピングしていることに注意されたい。ゲノム上のポジションになっているのでわかりにくいが、8つのエクソンがただしくゲノム上に対応づけられている。

  1. 次に、Entrezから、このcDNA配列を含むゲノムの塩基配列を得る(単にfasta formatでこのエントリの全体を表示した結果)
>gi|675503|gb|L39939.1|CELCPR6G Caenorhabditis elegans cathepsin B-like cysteine proteinase (cpr-6) gene, complete cds
ATTAGGTTTTTCCATCATATAACCCTTTCAAACGAAATTAATGTGCTAAATCTGTTAAGTTTCAATATTT
TCCTTGTCTTTAGGTCAATCTTCTTTGCCACACAGTTCAAACTACTACCGCCGAGTCACGTCACACCATC
ACAGGATAGTGACCGGTCCTAGGATGTACCCTGACACTGTGATGGACGCAGCCGACACTCTTATCGAAAT
GCACAGGGCCAAATTTGATAACGAAAACATGTTCTATAAAAGCATGCTGATAAAAGCGAGCAGTCAAGCG
ACGACAACTTGCGATCAACACGCTGACCGTCGACGCCAACATGGTAGGCTTTTGAACTTTGAAGTAATTT
TTAGAGAAAATTTGAATTCTAGAAGACGTTGCTCTTCCTTTCCTGCATAGTGGTAGCAGCTTATTGCGCA
TGCAATGATAACCTTGAGTCCGTTTTGGGTAGGTTGGATATTGATGAAGCTTTCTGAAAATTTCAATTTA
TTAAGACAAATATCGCAATCGTGAAATTGACTCAGAAGCAGCTGAGCTTGACGGAGATGACTTGATCGAC
TATGTCAATGAAAACCAAAATCTTTGGACGGTAAACTTATACTCACAAAATATTCATCTAATGGATTTTT
CAGGCTAAGAAACAAAGACGTTTTTCATCGGTCTACGGAGAGAACGACAAGGCGAAATGGGGATTGATGG
GTGTCAACCATGTCAGACTTTCTGTTAAGGTATGCACATCAAATTTGAATTCGGTTATTTGAAAACGTCA
ATTGTTTTGATTGATAGACGGCTTATCACAAAATAGAAGAGAATCAGACTGAAACATCAGGTGATCAAGT
TATAGATAGTGATCTTATATTCAAACAGTGCCTATCACTTCACTCACGTGCTCAACCATTCCACCCAAAC
AGCACTTTTCAGGGCAAACAACACTTGTCCAAGACCAAGGATCTCGATTTGGACATTCCAGAAAGCTTTG
ATTCTCGTGACAATTGGCCAAAATGCGATTCCATCAAGGTCATCAGAGACCAGTCAAGCTGTGGATCCTG
CTGGGCTTTCGGAGCCGTTGAGGCAATGTCTGATCGTATTTGCATTGCTTCCCATGGAGAACTTCAAGTT
ACACTTTCCGCTGATGATCTTCTCAGTTGCTGCAAAAGCTGTGGATTCGGATGTAACGGAGGAGATCCAT
TGGCTGCCTGGCGCTACTGGGTGAAGGATGGAATCGTTACTGGATCAAACTACACCGCTAACAATGGGTG
CAAGGTACAAATAGTACAAGAATAAAAAGATTTCAAACTAGAACCTAACCTTTTTCAGCCATACCCATTC
CCACCATGTGAGCATCACTCGAAGAAAACCCACTTCGATCCATGTCCACACGATTTGTACCCAACTCCAA
AATGTGAAAAGAAGTGCGTTTCTGATTACACTGACAAGACTTACTCCGAGGACAAATTCTTTGGCGCCAG
CGCGTACGGAGTCAAGGATGACGTTGAAGCCATCCAGAAAGAATTGATGACTCACGGACCCCTTGAGATC
GCTTTCGAGGTTTACGAGGATTTCTTGAACTATGACGGTGGAGTCTATGTTGTGAGTTGTACTGTTATTT
GACATAAAAACCTGAAAAAAAAATTCAGCACACCGGAGGAAAGCTCGGAGGAGGACACGCCGTCAAGCTT
ATCGGATGGGGTATTGACGATGGAATCCCATACTGGACAGTTGCCAACTCTTGGAACACCGACTGGGGAG
AGGATGGATTCTTCCGTATCCTGAGAGGAGTTGATGAGTGTGGAATTGAATCTGGAGTTGTTGGAGGAAT
TCCAAAGCTCAATAGTCTTACCTCAAGACTTCACAGGTGAACTTTTCAGCTATATTGCACGTGACATCTA
AAAAAAATATGATGTGATTTCGTTTCATGACTCCCATGCCAATGCCCAATTTCCTAAACGGAAACCTACT
TTTTATCTACTTAACTACTAAACCAACTTTTTTATGTTTCAGACACCACCGCCGCCACGTCTACGATGAC
AACTACTGAACCATCATTCCATTTGAACAAAACCTTTATTTCTTTTAAATTTCTATATGTATAAAAATGA
ATGAGTTAATCAATATTTGCATTATAGAATGTTTCTAGAAGAAGTTCGTGGCCGATAGAACTTTAACTGA
AATCCTAACAACACACTAAATCATTTGTAATTCTGCGCTCAGTTCCGATTGTGTCAAATGTTTTGCAAAG
TTTTCGTGCTGTTGTTCTCTCCGGCAATATCTTTTTTCTTTCTAGAAAC
  1. これをNetGene2 serverで解析してみる。
Donor splice sites, direct strand
---------------------------------
              pos 5'->3'  phase strand  confidence  5'      exon intron    3'
                  324       1     +        1.00       CGCCAACATG^GTAGGCTTTT H
                  344       0     +        0.74       GAACTTTGAA^GTAATTTTTA
                  449       1     +        0.85       TCCGTTTTGG^GTAGGTTGGA
                  453       2     +        0.74       TTTTGGGTAG^GTTGGATATT
                  591       0     +        1.00       TCTTTGGACG^GTAAACTTAT H
                  712       0     +        0.96       TGTCAACCAT^GTCAGACTTT
                  730       0     +        1.00       TTCTGTTAAG^GTATGCACAT H
                 1265       0     +        1.00       TGGGTGCAAG^GTACAAATAG
                 1857       1     +        1.00       GACTTCACAG^GTGAACTTTT H

(complement略)

Acceptor splice sites, direct strand
------------------------------------
              pos 5'->3'  phase strand  confidence  5'    intron exon      3'
                   83       2     +        0.00       TTGTCTTTAG^GTCAATCTTC
                  105       2     +        0.86       TGCCACACAG^TTCAAACTAC
                  400       1     +        0.61       TCCTGCATAG^TGGTAGCAGC
                  409       1     +        0.65       GTGGTAGCAG^CTTATTGCGC
                  633       0     +        0.94       GATTTTTCAG^GCTAAGAAAC
                  787       0     +        0.81       TGATTGATAG^ACGGCTTATC
                  806       1     +        0.54       CACAAAATAG^AAGAGAATCA
                  868       0     +        0.80       ATTCAAACAG^TGCCTATCAC
                 1318       0     +        0.56       CCTTTTTCAG^CCATACCCAT
                 1638       0     +        0.87       AAAAATTCAG^CACACCGGAG
                 2002       1     +        0.95       TATGTTTCAG^ACACCACCGC
  1. Acceptorの正解/不正解は 373 x, 496 x, 634 o, 923 x, 1319 o, 1639 o, 2003 o
  2. Donorの正解/不正解は 324 o, 448 o, 590 o, 729 o, 1264 o, 1591 x, 1856 o
  • Acの予測がより困難であることと、Ac/Dnどちらもfalse positivesが報告されることがわかる。
  • 【課題】: うっかりHumanのパラメータで予測させてしまうと、どのくらい違う結果が返ってくるでしょうか?

_ BioMart

欲しいデータをがっさりとまとめ取り。自分で解析しなくても、解析済みのデータが取得できる場合も

http://www.biomart.org

  • BioMartで遺伝子発現パターンが似ている遺伝子群のゲノム上流配列を一気に取得する
    • 本家統合TV: http://togotv.dbcls.jp/20070927.html (YouTube版: http://www.youtube.com/watch?v=QTdSaC9G2CU ) を参照
      脂肪細胞のマーカーとして用いられることの多いFABP4(Fatty Acid Binding Protein4)の発現パターン(発現プロファイル、発現プロフィールも同じ)を調べ、それと似た発現パターン(=脂肪細胞で発現が高い)を持つ遺伝子をリストアップし、それらの遺伝子のゲノム上の上流配列をEnsemblのBioMartを用いて一気に取得する方法を紹介

_ Gramenemart (植物)

植物のbiomart。同じbiomartシステムを使っていますが、操作方法がEnsemblと若干違います。

困ったことにIEでは使えないようです。時間があればdemoだけします

http://www.gramene.org/biomart/martview/

イネ TIGR ver. 4 で GO:0003700 (転写因子活性) が注釈されている遺伝子500本あまりの、上流(5'-UTR)1 kbの配列をまとめて一気に取得したい

  1. http://www.biomart.org/ を開き、Gramene へのリンクをクリックする
  2. dataset に Rice gene models (TIGRv4) を選び、nextをクリック
  3. Filterの画面になるので、欲しいデータセットを指定する (Region, Gene type, Ontologyなど)
    ここでは、Gene>Gene type>protein codingをcheck
    Gene ontology>Molecular functionにGO:0003700 を入力し、nextをクリック
  4. Attributeのページになるのでsequenceを選ぶ
  5. Type of Sequence to ExportでFlank (Gene)をcheck
  6. Upstream flankをcheckして、長さに1000 (bp)を指定する
  7. export をクリックすると、514本の転写活性因子と注釈された遺伝子の上流1 kbの配列がまとめ取りできる

http://www.gramene.org/tutorials/GrameneMart_tutorial.pdf (チュートリアル資料)

もしある特定の遺伝子群の上流に、何らかの共通のシスエレメントを探したいのなら、こういう方法で上流配列をまとめどりし、それを MEME ( http://meme.sdsc.edu/meme/meme.html ) のEM(期待値最大化)アルゴリズムを用い、上流の塩基配列セットから共通の特徴的な配列パターン (motif) を抽出できないものか、試みるのも良いかもしれません。ま、普通は情報処理だけでそー簡単に結果がでるほど甘くはありませんが、deletion 実験のヒントは得られるかもしれません。


AJACS湘南/講習内容へもどる

 
Last-modified: 2008-05-30 (金) 14:52:49 (4321d)