如何在NCBI實現大批量數據的一一對應

有時我們手頭會有一批數據，或者是只有大量的某些id。比方說：accession number、gi、geneid、symbol、go、unigene、pubmed、taxid等等。事實大部分數據庫都會有提供一些專門的文件或工具來實現這些數據間大批量的一一對應。

先來講講NCBI的。

用FTP登陸ftp.ncbi.nih.gov （windows下可以直接打開或是用迅雷/Flastget等下載工具）。cd gene/DATA（windows下依次找到gene/DATA這個文件夾）。ls一下，里面的文件大概有:
ncftp /gene/DATA > ls
ASN_BINARY/         gene2sts         gene_refseq_uniprotkb_collab.gz
ASN_OLD/            gene2unigene     go_process.xml
gene2accession.gz   gene_group.gz    mim2gene
gene2go.gz          gene_history.gz misc/
gene2pubmed.gz      GENE_INFO/       README
gene2refseq.gz      gene_info.gz下面主要解釋一下一些常用的文件。

1，gene2accession.gz，這里面的數據比較多，包含有NCBI所有的accession。但主要有以下的：

tax_id GeneID nucleotide_accession nucleotide_gi protein_accession protein_gi2，gene2go.gz，主要是Gene與GO之間的一一對應。里面的數據主要有：

tax_id GeneID GO_ID GO_term
3702 814629 GO:0003676 ucleic acid binding3，gene2pubmed.gz，主要是Gene與Pubmed ID的一一對應。

tax_id GeneID PubMed_ID
9 1246500 98730794，gene2unigene，Gene與Unigene數據庫的一一對應

GeneID UniGene_cluster
1268433 Aga.2015，gene2refseq.gz，這個就不多講。跟gene2accession.gz類似。不過其中的accession都是RefSeq數據庫的。

6，gene_info.gz，是NCBI的Gene數據庫。包含有Gene的gene_name(Symbol)，第幾號染色體等。主要有：

tax_id GeneID Symbol chromosome description

大概就這些。如果你會用Linux，這些大批量的一一對應是非常簡單的。在GO/EMBL/Uniprot等也有類似的批量對應。以后有需要有講到。

北京天優福康生物科技有限公司

官網：http://m.jyzjsd.com/

服務熱線：400-860-6160

聯系電話/微信：13718308763

QQ:2136615612 3317607072

E-mail：Tianyoubzwz@163.com

上一篇：細菌感受態的制備和質粒的轉化

下一篇：分子生物學試驗方法探討三－如何選擇凝膠

質量保證

Quality Assurance

服務保證

Service Guarantee

誠信經營

Integrity Management

物流保證

Logistics Assurance

價格合理

Reasonable Price

聯系我們

業務咨詢：137 1830 8763

投訴電話：137 1898 7307

電子郵箱：Tianyoubzwz@163.com

公司地址：北京市平谷區平谷鎮府前西街40號205室

備案號：京ICP備2022004288號-1

本司產品僅用于科研，不用于臨床診斷和治療

色欲人妻aaaaaa无码-亚洲伊人久久成人综合网-精品国产无套在线观看-国产 精品 自在 线免费-大帝av

如何在NCBI實現大批量數據的一一對應

色欲人妻aaaaaa无码-亚洲伊人久久成人综合网-精品国产无套在线观看-国产精品自在线免费-大帝av