如何在NCBI實現大批量數據的一一對應
有時我們手頭會有一批數據,或者是只有大量的某些id。比方說:accession number、gi、geneid、symbol、go、unigene、pubmed、taxid等等。事實大部分數據庫都會有提供一些專門的文件或工具來實現這些數據間大批量的一一對應。
先來講講NCBI的。
用FTP登陸ftp.ncbi.nih.gov (windows下可以直接打開或是用迅雷/Flastget等下載工具)。cd gene/DATA(windows下依次找到gene/DATA這個文件夾)。ls一下,里面的文件大概有:
ncftp /gene/DATA > ls
ASN_BINARY/ gene2sts gene_refseq_uniprotkb_collab.gz
ASN_OLD/ gene2unigene go_process.xml
gene2accession.gz gene_group.gz mim2gene
gene2go.gz gene_history.gz misc/
gene2pubmed.gz GENE_INFO/ README
gene2refseq.gz gene_info.gz下面主要解釋一下一些常用的文件。
1,gene2accession.gz,這里面的數據比較多,包含有NCBI所有的accession。但主要有以下的:
tax_id GeneID nucleotide_accession nucleotide_gi protein_accession protein_gi2,gene2go.gz,主要是Gene與GO之間的一一對應。里面的數據主要有:
tax_id GeneID GO_ID GO_term
3702 814629 GO:0003676 ucleic acid binding3,gene2pubmed.gz,主要是Gene與Pubmed ID的一一對應。
tax_id GeneID PubMed_ID
9 1246500 98730794,gene2unigene,Gene與Unigene數據庫的一一對應
GeneID UniGene_cluster
1268433 Aga.2015,gene2refseq.gz,這個就不多講。跟gene2accession.gz類似。不過其中的accession都是RefSeq數據庫的。
6,gene_info.gz,是NCBI的Gene數據庫。包含有Gene的gene_name(Symbol),第幾號染色體等。主要有:
tax_id GeneID Symbol chromosome description
大概就這些。如果你會用Linux,這些大批量的一一對應是非常簡單的。在GO/EMBL/Uniprot等也有類似的批量對應。以后有需要有講到。
北京天優福康生物科技有限公司
官網:http://m.jyzjsd.com/
服務熱線:400-860-6160
聯系電話/微信:13718308763
QQ:2136615612 3317607072
E-mail:Tianyoubzwz@163.com