バイオ やばいぉ・・・
BioPerlで塩基配列を扱ってみよう
- 2008-11-01 (Sat)
- BioPerl
この実習では塩基配列をアミノ酸配列への翻訳を行います。
いままでずっと、アミノ酸配列を扱ってきたので、気分転換に塩基配列を扱ってみたいと思います。
基本的には変わりません。というか流れは全く変わりません。変わったのは扱う配列の種類です。
まずは塩基配列のデータをgenbank からとってきましょう。
コードは以下。テキストエディタなどにコピペしてファイル名はtest4.plとしましょう。
use Bio::Perl;
use Bio::Tools::SeqStats;
$test_dna = get_sequence('genbank', "X12671");
$weight = Bio::Tools::SeqStats->get_mol_wt($test_dna);
print "\nMolecular weight of the sequence is between ",
$$weight[0], " and " , $$weight[1], "\n";
またそのファイルは
XPの場合 C:\Documents and Settings\ユーザー名に置きましょう。
アクセス手順はマイコンピューター→Cドライブ→Documents and Settings→ユーザー名とクリックしていけばたどり着きます。
Vistaの場合 C:\Users\ユーザー名に置きましょう。
アクセス手順はコンピューター→ローカルディスク(C)→ユーザー→ユーザー名でたどり着きます。
それでですが、配列をとってくるだけでは実習1と変わらないので、前回BioPerlで分子量を計算してみようで行った分子量の計算方法を復習がてらしてみましょう。
解説
01:use Bio::Perl;
02:use Bio::Tools::SeqStats;
03:$test_dna = get_sequence('genbank', "X12671");
04:$weight = Bio::Tools::SeqStats->get_mol_wt($test_dna);
05:print "\nMolecular weight of the sequence is between ",
06:$$weight[0], " and " , $$weight[1], "\n";
かなり前回のコードと似通っているので違いだけ説明します。
詳しい解説を必要とする方はBioPerlで分子量を計算してみようをごらんになってください。
前回との違い
一つ目 03が、swissprot からgenbank に変わった。(IDも)
二つ目03と04の変数が$test_seqから$test_dnaに変わった。
まぁ一つ目はただ単に配列を取りに行くデータベースがかわっただけで、二つ目も変数の名前がかわっただけです。本当に前回と同じことをやっています。
いままでずっと、アミノ酸配列を扱ってきたので、気分転換に塩基配列を扱ってみたいと思います。
基本的には変わりません。というか流れは全く変わりません。変わったのは扱う配列の種類です。
まずは塩基配列のデータをgenbank からとってきましょう。
コードは以下。テキストエディタなどにコピペしてファイル名はtest4.plとしましょう。
use Bio::Perl;
use Bio::Tools::SeqStats;
$test_dna = get_sequence('genbank', "X12671");
$weight = Bio::Tools::SeqStats->get_mol_wt($test_dna);
print "\nMolecular weight of the sequence is between ",
$$weight[0], " and " , $$weight[1], "\n";
またそのファイルは
XPの場合 C:\Documents and Settings\ユーザー名に置きましょう。
アクセス手順はマイコンピューター→Cドライブ→Documents and Settings→ユーザー名とクリックしていけばたどり着きます。
Vistaの場合 C:\Users\ユーザー名に置きましょう。
アクセス手順はコンピューター→ローカルディスク(C)→ユーザー→ユーザー名でたどり着きます。
それでですが、配列をとってくるだけでは実習1と変わらないので、前回BioPerlで分子量を計算してみようで行った分子量の計算方法を復習がてらしてみましょう。
解説
01:use Bio::Perl;
02:use Bio::Tools::SeqStats;
03:$test_dna = get_sequence('genbank', "X12671");
04:$weight = Bio::Tools::SeqStats->get_mol_wt($test_dna);
05:print "\nMolecular weight of the sequence is between ",
06:$$weight[0], " and " , $$weight[1], "\n";
かなり前回のコードと似通っているので違いだけ説明します。
詳しい解説を必要とする方はBioPerlで分子量を計算してみようをごらんになってください。
前回との違い
一つ目 03が、swissprot からgenbank に変わった。(IDも)
二つ目03と04の変数が$test_seqから$test_dnaに変わった。
まぁ一つ目はただ単に配列を取りに行くデータベースがかわっただけで、二つ目も変数の名前がかわっただけです。本当に前回と同じことをやっています。
スポンサーサイト
BioPerlで分子量を計算してみよう
- 2008-11-01 (Sat)
- BioPerl
この実習では、タンパク質の分子量の計算を行います。
分子量を計算するためには、use Bio::Perlに加えて、use Bio::Tools::SeqStats;の記述をします。
use Bio::Tools::SeqStatsの詳細が知りたい方は
perldoc Bio::Tools::SeqStats
でマニュアルを見てください。(なんとも自分勝手な筆者を許してくださいw)
ではプログラムコードを示します。
テキストエディタを開いて以下のコードをコピペしてください。
use Bio::Perl;
use Bio::Tools::SeqStats;
$test_seq = get_sequence('swissprot', "roa1_human");
$weight = Bio::Tools::SeqStats->get_mol_wt($test_seq);
print "\nMolecular weight of the sequence is between ",
$$weight[0], " and " , $$weight[1], "\n";
ファイル名はtest3.plとして保存します。
またそのファイルは
XPの場合 C:\Documents and Settings\ユーザー名に置きましょう。
アクセス手順はマイコンピューター→Cドライブ→Documents and Settings→ユーザー名とクリックしていけばたどり着きます。
Vistaの場合 C:\Users\ユーザー名に置きましょう。
アクセス手順はコンピューター→ローカルディスク(C)→ユーザー→ユーザー名でたどり着きます。
それでは、test3.pl の解説を行っていきます。
01:use Bio::Perl;
01:use Bio::Tools::SeqStats;
03:$test_seq = get_sequence('swissprot', "roa1_human");
04:$weight = Bio::Tools::SeqStats->get_mol_wt($test_seq);
05:print "\nMolecular weight of the sequence is between ",
06:$$weight[0], " and " , $$weight[1], "\n";
01:C言語で言う#inculde
BioPerlを使ったプログラムを書きますよ~というおまじないだと思ってください。
BioPerlを使うときはいつでも書くと覚えておいてください。
02:BioToolをつかいますよー というおまじないです。
BioToolを使うときは必ず必要な記述です。
03:02:Perl では、$○○ と、$で始まる単語は変数といいます。
変数は値(データ)を入れる(記憶する)入れ物です。
すなわち、$test_seq というのは変数、すなはち入れ物を用意したわけです。
その入れ物に何かを入れろ!という命令 =以下に来ています。
get_sequence(□□□□) は、名前の通り、sequence をとってこい(getしてこい)という命令です。
□□□□の部分には、sequenceを取ってくるデータベース名と、 そのデータベースのID(アクセッションナンバー)を記します。
今回の場合、 Genbankというデータベースの、 roa1_human というタンパク質のデータを取ってこいと命令しています。
つまりまとめると02:では、Genbankからroa1_human というタンパク質のデータを取ってきて、$test_seq という変数(入れ物)の中に入れろ、という命令をしています。
04:この行で、分子量の計算を行っています。
命令は、Bio::Tools::SeqStats->get_mol_wt( ) という長めの命令になっています。
この命令の最初に注目してもらいたいのですが、02:と同じ言葉すなわち、Bio::Tools::SeqStats
が出てきていますね。
つまり04はBio::Tools::SeqStatsに含まれるget_mol_wt( )っていう命令を実行しなさいと書いてあります。日本語で言う"に含まれる"をPerl では、"->"であらわします。
私はなんとなく左の方が大きい感じがするから">"と覚えました。
正式な意味はわかりません><
そうしてget_mol_wt() の引数(括弧の中身)である$test_seq が、 何の分子量を計算するかを表しています。
05.06:長い文ですが、2行で一つの表示命令になっています。
C言語でいうprintfです。Perlではprintで表します。
つまりこの部分は計算結果を画面に表示しろという命令だけです。
長い割に内容が薄かったですねw
行をまたがるのはperlでは命令の区切りは、セミコロン(;)なので問題ありません。
セミコロンが出てくるまでが1つの命令なので注意してください。
ちなみに出力結果をみると、 between 38715 and 38715 と同じ数字がならんでいます。
それは分子量が曖昧なアミノ酸配列があるからなのです。
よくわからないと思いますので実際にアミノ酸コード表をみてみましょう。
アミノ酸コード表
上から順にみていくと・・・・
最後の方にB(Asx)やZ (Glx)が見つかると思います。これは2つのアミノ酸のどちらか一方をあらわしています。それで分子量が□から○といったように曖昧となるのです。
分子量を計算するためには、use Bio::Perlに加えて、use Bio::Tools::SeqStats;の記述をします。
use Bio::Tools::SeqStatsの詳細が知りたい方は
perldoc Bio::Tools::SeqStats
でマニュアルを見てください。(なんとも自分勝手な筆者を許してくださいw)
ではプログラムコードを示します。
テキストエディタを開いて以下のコードをコピペしてください。
use Bio::Perl;
use Bio::Tools::SeqStats;
$test_seq = get_sequence('swissprot', "roa1_human");
$weight = Bio::Tools::SeqStats->get_mol_wt($test_seq);
print "\nMolecular weight of the sequence is between ",
$$weight[0], " and " , $$weight[1], "\n";
ファイル名はtest3.plとして保存します。
またそのファイルは
XPの場合 C:\Documents and Settings\ユーザー名に置きましょう。
アクセス手順はマイコンピューター→Cドライブ→Documents and Settings→ユーザー名とクリックしていけばたどり着きます。
Vistaの場合 C:\Users\ユーザー名に置きましょう。
アクセス手順はコンピューター→ローカルディスク(C)→ユーザー→ユーザー名でたどり着きます。
それでは、test3.pl の解説を行っていきます。
01:use Bio::Perl;
01:use Bio::Tools::SeqStats;
03:$test_seq = get_sequence('swissprot', "roa1_human");
04:$weight = Bio::Tools::SeqStats->get_mol_wt($test_seq);
05:print "\nMolecular weight of the sequence is between ",
06:$$weight[0], " and " , $$weight[1], "\n";
01:C言語で言う#inculde
BioPerlを使ったプログラムを書きますよ~というおまじないだと思ってください。
BioPerlを使うときはいつでも書くと覚えておいてください。
02:BioToolをつかいますよー というおまじないです。
BioToolを使うときは必ず必要な記述です。
03:02:Perl では、$○○ と、$で始まる単語は変数といいます。
変数は値(データ)を入れる(記憶する)入れ物です。
すなわち、$test_seq というのは変数、すなはち入れ物を用意したわけです。
その入れ物に何かを入れろ!という命令 =以下に来ています。
get_sequence(□□□□) は、名前の通り、sequence をとってこい(getしてこい)という命令です。
□□□□の部分には、sequenceを取ってくるデータベース名と、 そのデータベースのID(アクセッションナンバー)を記します。
今回の場合、 Genbankというデータベースの、 roa1_human というタンパク質のデータを取ってこいと命令しています。
つまりまとめると02:では、Genbankからroa1_human というタンパク質のデータを取ってきて、$test_seq という変数(入れ物)の中に入れろ、という命令をしています。
04:この行で、分子量の計算を行っています。
命令は、Bio::Tools::SeqStats->get_mol_wt( ) という長めの命令になっています。
この命令の最初に注目してもらいたいのですが、02:と同じ言葉すなわち、Bio::Tools::SeqStats
が出てきていますね。
つまり04はBio::Tools::SeqStatsに含まれるget_mol_wt( )っていう命令を実行しなさいと書いてあります。日本語で言う"に含まれる"をPerl では、"->"であらわします。
私はなんとなく左の方が大きい感じがするから">"と覚えました。
正式な意味はわかりません><
そうしてget_mol_wt() の引数(括弧の中身)である$test_seq が、 何の分子量を計算するかを表しています。
05.06:長い文ですが、2行で一つの表示命令になっています。
C言語でいうprintfです。Perlではprintで表します。
つまりこの部分は計算結果を画面に表示しろという命令だけです。
長い割に内容が薄かったですねw
行をまたがるのはperlでは命令の区切りは、セミコロン(;)なので問題ありません。
セミコロンが出てくるまでが1つの命令なので注意してください。
ちなみに出力結果をみると、 between 38715 and 38715 と同じ数字がならんでいます。
それは分子量が曖昧なアミノ酸配列があるからなのです。
よくわからないと思いますので実際にアミノ酸コード表をみてみましょう。
アミノ酸コード表
上から順にみていくと・・・・
最後の方にB(Asx)やZ (Glx)が見つかると思います。これは2つのアミノ酸のどちらか一方をあらわしています。それで分子量が□から○といったように曖昧となるのです。
- 最新記事はRSSで
- コメント
- 最新トラックバック
- リンク
- ブログで苗木 グリムス
- blog parts
応援ありがとうございます!
HageOyajiさんのブログは、数少ない高校生向けメディアとして毎回閲覧させていただいております。
私の出来ることにっしープロフィール にっしー君
HageOyaji通信へコメント、ありがとう。
君の活動を大変評価する一人です。是非、他の高校生にも輪を広げたいですね。
早速、7/22の次回分で、
HageOyaji【英語の勉強】英英辞典と英和辞典のコラボで英単語を覚える!>longmanさん
はじめまして。コメントありがとうございます。
>初めて英英を使う人にとっては最高の組み合わせですね。
そうですね。ロングマン英英辞典のdyna【英語の勉強】英英辞典と英和辞典のコラボで英単語を覚える!こんにちは、ちょっと共感したので。
初めて英英を使う人にとっては最高の組み合わせですね。
どうせなら完全にロングマン英英の補助版として作っても良いのではと思うlongman【英語の勉強】The Last Lecture>未来の選択さん
記事の内容への言及が無いなど記事との関連性が低いと判断できたため、コメントを削除させていただきました。dyna【英語の勉強】The Last Lecture>tottyさん
お役に立てて何よりです^^dyna【英語の勉強】The Last Lectureこの動画、感動しますよね!!
youtube動画へのリンクが役立ちました。ありがとうございます。totty近況報告 プロフェッショナル高校生>通りすがりさん
応援ありがとうございます^^
野望としては日本をよくしようってことですが、まだ軌道にも乗ってないのでそんなすごいことでもないです><
よかっdyna近況報告 プロフェッショナル高校生ついに、日本全体に貢献しようというんですね。
同じ高校生としてすごいなと思います。がんばってね^^通りすがり下流社会 新たな階層集団の出現ごぶさたです。
この本,最初に見たときは,下流の人たちの傾向として,音楽などけっこう個人の趣味を楽しんでたりするんですよね。
それはそれでこれからの時代,いいこドージマ