Home > スポンサー広告 > データベースから配列をとってこよう

スポンサーサイト

スポンサード リンク
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Comments:-

コメント欄

Trackback:-

この記事へのTrackBack URL
http://bioinformatics.blog7.fc2.com/tb.php/469-9025e6e1
スポンサーサイト from バイオ やばいぉ・・・

Home > スポンサー広告 > データベースから配列をとってこよう

Home > BioPerl > データベースから配列をとってこよう

データベースから配列をとってこよう

スポンサード リンク
まずは、Genbankのデータベースからタンパク質のデータを取ってくるという実習をしましょう。
それではテキストエディタを開いて下記をコピペ(コピーして貼り付け)してください。
use Bio::Perl;
$test_seq = get_sequence('genbank', "roa1_human");
write_sequence(">roa1_human.fasta",'fasta',$test_seq);

そしたらファイル名はtest1.plとしましょう。
またそのファイルは
XPの場合 C:\Documents and Settings\ユーザー名に置きましょう。
アクセス手順はマイコンピューター→Cドライブ→Documents and Settings→ユーザー名とクリックしていけばたどり着きます。
Vistaの場合 C:\Users\ユーザー名に置きましょう。
アクセス手順はコンピューター→ローカルディスク(C)→ユーザー→ユーザー名でたどり着きます。

そうしたらコマンドプロンプトを起動して、
perl test1.pl
を入力してエンターを押してください。
少しするとtest1.plのファイルがある場所にroa_human.fastaというファイルが作成されます。
そうしたら成功です。ちなみにファイルの中身はファイルの拡張子を.fastaから.txtに変更してテキストエディタでみることができます。
きっと以下のようなタンパク質のデータが並んでいると思います。
確認できたら以下の解説を読んで理解を深めましょう。
>P09651 RecName: Full=Heterogeneous nuclear ribonucleoprotein A1; Short=hnRNP core protein A1; AltName: Full=Helix-destabilizing protein; AltName: Full=Single-strand RNA-binding protein.
MSKSESPKEPEQLRKLFIGGLSFETTDESLRSHFEQWGTLTDCVVMRDPNTKRSRGFGFV
TYATVEEVDAAMNARPHKVDGRVVEPKRAVSREDSQRPGAHLTVKKIFVGGIKEDTEEHH
LRDYFEQYGKIEVIEIMTDRGSGKKRGFAFVTFDDHDSVDKIVIQKYHTVNGHNCEVRKA
LSKQEMASASSSQRGRSGSGNFGGGRGGGFGGNDNFGRGGNFSGRGGFGGSRGGGGYGGS
GDGYNGFGNDGGYGGGGPGYSGGSRGYGSGGQGYGNQGSGYGGSGSYDSYNNGGGRGFGG
GSGSNFGGGGSYNDFGNYNNQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGYGGS
SSSSSYGSGRRF


ではtest1.plの解説をしてきます。

01:use Bio::Perl;
02:$test_seq = get_sequence('genbank', "roa1_human");
03:write_sequence(">roa1_human.fasta",'fasta',$test_seq);

01:C言語で言う#inculde
BioPerlを使ったプログラムを書きますよ~というおまじないだと思ってください。
BioPerlを使うときはいつでも書くと覚えておいてください。

02:Perl では、$○○ と、$で始まる単語は変数といいます。
変数は値(データ)を入れる(記憶する)入れ物です。

すなわち、$test_seq というのは変数、すなはち入れ物を用意したわけです。

その入れ物に何かを入れろ!という命令 =以下に来ています。

get_sequence(□□□□) は、名前の通り、sequence をとってこい(getしてこい)という命令です。

□□□□の部分には、sequenceを取ってくるデータベース名と、 そのデータベースのID(アクセッションナンバー)を記します。
今回の場合、 Genbankというデータベースの、 roa1_human というタンパク質のデータを取ってこいと命令しています。

つまりまとめると02:では、Genbankからroa1_human というタンパク質のデータを取ってきて、$test_seq という変数(入れ物)の中に入れろ、という命令をしています。

03:write_sequece(□□□□) という命令は、 データをファイルに出力しろという命令です。

□□□□には
どこに?どうなふうに?なにを?出力するかを書いていきます。
今回は
1. ">roa1_human.fasta" の部分で、出力するファイル名を指定しています。

2. 'fasta' で、fasta 形式で出力することを決めています。

3. $test_seq で、出力したいデータを決めています。

つまり03:をまとめるとGenbankからとってきたroa1_humanのデータをroa1_humanという名前でfasta形式でファイルに出力しろという命令をしたことになります。

ついでに指定できるデータベースの一例と出力形式の一例を示しておきます。
参考になったら私自身うれしいです^^
使えるデータベースの一例

"swissprot", "genbank", "embl"
$seq_object = get_sequence('swissprot',"ROA1_HUMAN");
$seq_object = get_sequence('embl',"AI129902");
$seq_object = get_sequence('genbank',"AI129902");

使える出力形式の一例

fasta, genbank, swissprot
write_sequence(">roa1_human.fasta",'fasta',$test_seq);
write_sequence(">roa1_human.gb",'genbank',$test_seq);
write_sequence(">roa1_human.sp",'EMBL',$test_seq);
*データベースの指定にシングルクオート(’’)をつかっていてIDにはダブルクオート(””)を使っています。その違いは、変数を展開するか、展開しないかが違います。ダブルクオートの場合が展開されるほうです。 
test1.plの例だと、変数を使っていないので、シングルクオートでもダブルクオートでもOKです。 
わかりにくかった場合は、引数に文字列そのものを渡す場合はシングルクオートを、変数を渡す時にはダブルクオート又はクオートなしにすればいいと思ってください。

Comments:0

コメント欄

Trackback:0

この記事へのTrackBack URL
http://bioinformatics.blog7.fc2.com/tb.php/469-9025e6e1
データベースから配列をとってこよう from バイオ やばいぉ・・・

Home > BioPerl > データベースから配列をとってこよう

あわせて読みたいブログパーツ

Page Top

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。