MotDB


AJACS32/bono のバックアップ差分(No.5)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
[[講習会のページに戻る>AJACS32]]

&size(36){コマンドラインで遺伝子配列を解析する};

----
~目次
#contents
----
事前調査: Mac: 4, Windows: 16, N/A: 1

* はじめに: 参加者アンケート [#r2e170d6]
- おもにMacの人:
- おもにWindowsの人:
- iPhoneの人:
--そのうちiPhoneは体の一部の人:
- iPadの人:
- バイオインフォマティクスを使っている人:
- プログラミングをたしなむ人:
- データベースを構築している人:
- データベースを構築したい人:
- ライフサイエンス統合データベースセンターの存在を知っていた人:

* 必要なコンピュータリテラシー [#xf9175d0]

** Google [#e3077b51]

> http://www.google.co.jp/

Google(「グーグル」と読みます)検索することを「ググる」といいます。そこでインターネット上では、自分でインターネット検索もせずにあれこれと質問をしてくるユーザーに対して以下のようにいうことがあります。

&size(30){ググれカス};

- 【実習B1】''DBCLS''でググりなさい。何件ヒットがありますか?
#fold(←こたえは左の+マークをクリックすると出てきます,2012年7月23日現在、約 448,000  件)

でもこれは「ウェブ全体から検索」した結果なのです。

- 【実習B2】ググった結果のページ中で「日本語のページを検索」のリンクを探してクリックしなさい。
#fold(←こたえ。上記の結果と比較してどう変化するでしょうか?,2012年7月23日現在、約  915,000 件)

- 【実習B3】さらに画面最下部の「検索オプション」をクリックして絞り込みをかけてみなさい。''ドメイン''で'''.ac.jp'''を指定すると何件ぐらいに絞り込まれますか?
#fold(←こたえ。得られる結果にはどういった特徴があるだろうか?,2012年7月23日現在、約14,800 件で、ドメインがdbcls.rois.ac.jpのサイトばかりがヒットしてくるといった特徴がある)

- 【応用B4】さらに見るべきヒットを絞り込むにはどういうオプションを指定すればいいだろうか?
#fold(←こたえ。,例えば、「キーワードを含めない」オプションで'''rois'''を指定してみる)

- 【応用B5】'DBCLS' は「ライフサイエンス統合データベースセンター」の略号であるが、たまに「ライフサイエンス総合データベースセンター」と間違えられる。そう間違えられている例を"で囲うことでインターネット検索エンジンを用いて抽出しなさい。
#fold(←こたえ。,"ライフサイエンス総合データベースセンター”でググって、「キーワードを含めない」オプションで'''ライフサイエンス統合データーベースセンター'''を指定してみる)

- 【実習B6】'SPF'でググリなさい。どういったことが起こるか?
#fold(←こたえ。,例えば、'DBCLS'でGoogle検索しても「ライフサイエンス統合データベースセンター」以外の'DBCLS'はインターネット上にそれほどないため困らないのであるが、短い略語の場合は同義語がインターネット上に多数存在して調べたい情報に行き着くまでに非常に苦労することになります。)

つまり、こういうことです。

&size(36){[[ググるなあぶない>http://motdb.dbcls.jp/?plugin=attach&pcmd=open&file=donotgoogle.jpg&refer=AJACS26%2Fbono]]};

** 脱線: GGRNA [#y1eedffd]

> http://ggrna.dbcls.jp/

遺伝子名や断片配列(塩基配列やアミノ酸配列)でRefSeqを検索できるサイト。DBCLS謹製。

http://lifesciencedb.jp/image/small_video_icon.png
[[GGRNAで遺伝子をGoogleのように検索する>http://togotv.dbcls.jp/20120124.html]] 


** cygwin(windowsの人のみ) [#vef33a7b]
cygwinをまだインストールしていない人は以下の動画を参考にインストールしてください。

http://lifesciencedb.jp/image/small_video_icon.png
[[WindowsでUNIX! 1. Cygwin インストール編>http://togotv.dbcls.jp/20110520.html]] 

** UNIX コマンド [#de3fd902]

http://lifesciencedb.jp/image/small_video_icon.png
[[WindowsでUNIX! 2. ファイル操作編>http://togotv.dbcls.jp/20110929.html]] 

- cd
- pwd
- ls
- cp
- mv
- rm


http://lifesciencedb.jp/image/small_video_icon.png
[[WindowsでUNIX! 3. ファイル操作応用編>http://togotv.dbcls.jp/20120710.html]] 

#ref(sample.zip)

- wc
- less
- gzip
- tar
- mkdir
- find

ここで紹介した以外に大きなファイルを扱う際に先頭の数行だけを表示する head、末尾の数行だけを表示する tailなどがあります。
> % head sample1.fa
> % tail sample1.fa


* Local BLAST [#e17b6eed]
できる人は統合TVみてどんどん進めてってください。Windowsのcygwin上で試みる人は、MacOSX版の方でやってみてください。

** Windows [#n783a910]

http://lifesciencedb.jp/image/small_video_icon.png
[[Local BLAST の使い方〜導入・準備編〜 2011>http://togotv.dbcls.jp/20110119.html]] 

http://lifesciencedb.jp/image/small_video_icon.png
[[Local BLAST の使い方〜検索実行・オプション編〜 2011>http://togotv.dbcls.jp/20110225.html]] 

** MacOSX [#o5cee03c]

http://lifesciencedb.jp/image/small_video_icon.png
[[Local BLAST の使い方〜導入・準備編(MacOSX版)〜 2011>http://togotv.dbcls.jp/20110420.html]] 

http://lifesciencedb.jp/image/small_video_icon.png
[[Local BLAST の使い方〜検索実行・オプション編(MacOSX版)〜 2011>http://togotv.dbcls.jp/20110608.html]] 





* 改行コード問題 [#y8b3afb0]
出てきたBLASTの結果。テキストファイルなのにある種のソフトウェアではうまく認識されないことがあります。その場合、この問題を疑ってください。

** 改行コード問題とは? [#yf6119ab]
使用プラットフォーム(OS)によって改行コードが異なるため、、
- Macのテキストファイル
#ref(mac.txt)
> % od -c mac.txt
> 0000000   c   a   r   r   i   a   g   e       r   e   t   u   r   n  \r
> 0000020   m   a   c

-Unixのテキストファイル
#ref(unix.txt)
> % od -c unix.txt
> 0000000   l   i   n   e       f   e   e   d  \n   u   n   i   x
> 0000016

-Windowsのテキストファイル
#ref(win.txt)
> % od -c win.txt 
> 0000000   C   R       a   n   d       L   F  \r  \n   w   i   n
> 0000016


** その対処法 [#q75d09de]
いくつかやり方がありますが、一番汎用性の高いものを紹介します。

> which perl

といれて

> $ which perl
> which: no perl in (/usr/local/bin:/usr/bin:/cygdrive/c/Program Files/Parallels/Parallels Tools/Applications:/cygdrive/c/Windows/system32:/cygdrive/c/Windows:/cygdrive/c/Windows/System32/Wbem:/cygdrive/c/Windows/System32/WindowsPowerShell/v1.0:/cygdrive/c/Program Files/MacType)
> which: no perl in (/usr/local/bin:/usr/bin:/cygdrive/c/ProgramFiles/Parallels/ParallelsTools/Applications:/cygdrive/c/Windows/system32:/cygdrive/c/Windows:/cygdrive/c/Windows/System32/Wbem:/cygdrive/c/Windows/System32/WindowsPowerShell/v1.0:/cygdrive/c/Program Files/MacType)

のように no perl と出たらPerlがインストールされていません。cygwinのインストール画面でオプション設定でPerlをインストールしてください。
のように no perl と出たらPerlがインストールされていません。cygwinのインストール画面でオプション設定でPerlをインストールしてください。ちなみにMacOSXの場合は買った状態でPerlがインストールされています。

以下のperlワンライナーでmac改行形式のファイル(mac.txt)がUNIX改行形式のファイル(mac_conv_unix.txt)に変換されます。

> perl  -pe 's/\r/\n/g' mac.txt > mac_conv_unix.txt



* データ後処理 [#z7c0084b]
** トップヒットだけを抽出 [#dcf9cf96]