微生物数据库设计

最后发布时间:2023-08-09 15:29:02 浏览量:

数据库

https://gtdb.ecogenomic.org/tree?r=p__Deinococcota

生信小木屋

https://mp.weixin.qq.com/s/F-88GYOxp81tKL4goKqlMQ
https://mp.weixin.qq.com/s/wH_pDc0ayWVFC2DOsgVVCQ

微生物关系数据库检索汇总

数据库网址简介
MetOriginhttp://metorigin.met-bioinformatics.cn/代谢物溯源数据库
GMrepohttps://gmrepo.humangut.info/home人类肠道微生物菌群数据库
gutMEGAhttp://gutmega.omicsbio.info/肠道微生物宏基因组数据库
gutMGenehttp://bio-annotation.cn/gutmgene/home.dhtm肠道菌群和其代谢物相关靶基因数据库
gutMDisorderhttp://bio-annotation.cn/gutMDisorder/疾病/干预措施对于肠道菌群失调数据库
MASIhttp://www.aiddlab.com/MASI/about.html菌群-活性物质互作数据库
gcTypehttps://gctype.wdcm.org/模式菌株基因组数据库
Disbiomehttps://disbiome.ugent.be将微生物群与疾病联系起来的数据库
VMHhttps://www.vmh.life人类虚拟代谢数据库
Perytonhttps://dianalab.e-ce.uth.gr/peryton/有实验支持的肠道微生物与疾病相关性信息数据库

常用物种注释数据库

扩增子常用数据库

生信小木屋

NR & NT

NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。

NR和NT库都可以通过NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)进行在线BLAST,也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中将数据直接下载下来,需要注意的是,NR和NT库是被切分为以数字命名的子数据库上传的,将所有的子数据库放到同一个目录下,解压缩后构建索引文件即可。

Taxonomy 数据库

Taxonomy分类数据库是NCBI公共序列数据库中所有生物的策划分类和命名法,目前包含地球上大概10%的物种,是对公共数据库中的所有生物进行分类和命名的数据库。

生信小木屋

RefSeq数据库

RefSeq参考序列数据库,包含RefSeq_genomic、RefSeq_protein和RefSeq transpans具有生物意义上的非冗余基因、转录本和蛋白质序列,是经过NCBI和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号

其他物种注释数据库

生信小木屋

常用功能注释数据库

KEGG数据库

KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个整合了基因组、化学分子和系统功能信息的数据库。是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能,用于物种的基因组或转录组功能注释的综合性数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。

KEGG数据库包括四大类(Systems, Genomic,Chemical, Health),18个数据库:

生信小木屋

主要数据库:KEGG GENES、KEGG ORTHOLOG、KEGG ENZYME、KEGG PATHWAY。

着重介绍一下KEGG PATHWAY 数据库:KEGG PATHWAY 数据库是一个手工画的代谢通路的集合,包含以下 七个方面的分子间相互作用和反应网络。

生信小木屋

基本概念:只有第一种参考通路(reference pathway)图是手动画出来的,其他的通路图都是通过计算产生的。pathway中的每一个框(或线)都对应一个或多个K编号、EC编号及R编号。

  • map-Reference pathway
    对于代谢相关的通路,在reference pathway中,一个点同时表示一个基因、这个基因编码的酶及这个酶参加的反应。
  • ko-Reference pathway (KO)
    ko通路中的点只表示基因。
  • ec-Reference pathway (EC)
    ec通路中的点只表示相关的酶。
  • rn-Reference pathway (Reaction)
    Reaction通路中的点只表示该点参与的某个反应、反应物对及反应类型。
  • org-Organism-specific pathway map
    对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的pathway 。

生信小木屋

生信小木屋

数据库中每条Gene有其所归属的KEGG ORTHOLOGY数据库中的信息 (即KO层级)。通过KEGG PATHWAY数据库可获得每个KO参与的pathway信息。每个pathway可分为level1、level2、level3这几个层级。

生信小木屋

eggNOG

eggNOG(基因的进化谱系:非监督直系群数据库)数据库是NCBI的COG数据库的扩展,它收集了更全面的物种和更大量的蛋白序列数据。同样进行了同源基因聚类分析和对每个同源基因类的描述和功能分类。eggNOG更强大的功能在于:

  1. 对更全面的物种和更大量蛋白序列进行分类。相比于COG数据库纯人工且较为准确的分类,eggNOG数据库扩大物种和序列数据量,采用了非监督聚类方法进行计算。

  2. 对每个同源基因类进行了系统发育树构建、HMM模型构建、GO注释、KEGG Pathway注释、SMART/FPAM结构域注释、CAZyme注释等。

  3. 提供了本地化软件和网页工具进行eggNOG注释

eggNOG数据库是利用 Smith-Waterman 比对算法构建的基因直系同源簇 (Orthologous Groups:即OG)。每个eggNOG编号是一类蛋白,将query序列和比对上的eggNOG编号的proteins进行多序列比对,能确定保守位点,分析其进化关系。

生信小木屋

CAZy数据库

CAZy(碳水化合物活性酶数据库)是关于能够合成或者分解复杂碳水化合物和糖复合物的酶类的一个数据库资源,其基于蛋白质结构域中的氨基酸序列相似性,将碳水化合物活性酶类归入不同蛋白质家族。CAZy数据库中包含了碳水化合物酶类的物种来源、酶功能EC分类、基因序列、蛋白质序列及其结构等信息。分为6大类:

生信小木屋

生信小木屋

CARD数据库

CARD 数据库是加拿大生信人员在2013年发布的抗性基因数据库。ARDB是最先整合了各种微生物中抗药基因的数据库,但它从2009年开始就不再更新。而CARD数据库包含了ARDB数据库中所有抗性信息,并搭建了一个基于志愿者贡献的数据共享平台,做到了实时更新保证了数据的有效性。目前,CARD数据库收集了超过1600个已知的抗生素抗性基因。CARD以Antibiotic Resistance Ontology(ARO)为分类单位的形式所构建,其中ARO是数据库所构建term,用于关联抗生素模块及其目标、抗性机制、基因变异等信息。

其他个性化功能数据库

生信小木屋

生信小木屋

微生物数据数据库检索汇总

微生物基因组资源

ImageMicrobesOnline (一个浏览和比较微生物基因组的网站,共有3707 个基因组数据,包括 1752 个细菌、94 个古细菌和 119 个真核生物基因组数据)

http://www.microbesonline.org/
ImageSEED (用于精心策划的基因组数据和微生物基因组的自动注释的网站)
http://www.theseed.org/
ImageGOLD (关于基因组和元基因组测序项目的综合信息资源)
https://gold.jgi-psf.org/
ImageCARD (综合抗生素耐药性数据库;抗性基因、其产物和相关表型的生物信息学数据库)
https://card.mcmaster.ca/
ImageHIV Database (HIV序列数据库)
https://www.hiv.lanl.gov/content/index
ImageFungGene (针对微生物功能基因序列的数据库)
http://fungene.cme.msu.edu/
ImageIMG IMG由美国能源部联合基因组研究中心(Joint GenomeInstitute,JGI)于2005年创立,是综合的微生物基因组数据库及比较分析系统。IMG收录了细菌、古菌、质粒、病毒以及少量真核生物基因组数据,其数据主要来源于NCBI的RefSeq数据库,但是增添了更加详细的注释信息,例如CRISPR序列、信号肽、非编码RNA、功能基因等。IMG基于COG、Pfam、TIGRfam、InterPro、GO和KEGG等数据库产生基因家族的注释信息}
https://img.jgi.doe.gov/

扩增子数据库

ImageNCBI taxdmp (NCBI物种分类数据库)
https://www.ncbi.nlm.nih.gov/taxonomy
ImageSILVA (rRNA基因序列的综合数据库)
https://www.arb-silva.de/
ImageGreenGenes (16S rRNA基因数据库)
http://greengenes.secondgenome.com/

蛋白相关数据库及研究工具

ImageEffectiveDB (细菌分泌蛋白的比对分析数据库)
http://www.effectors.org/
ImageCDD (CDD 是一种蛋白质注释资源,由一组注释良好的古代域和全长蛋白质的多序列比对模型组成)
http://www.ncbi.nlm.nih.gov/cdd/
ImagePfam (Pfam是蛋白质家族的数据库,根据多序列比对结果和隐马尔可夫模型,将蛋白质分为不同的家族)
http://pfam.xfam.org/
ImageProteinMW (蛋白质分子量计算小工具)
http://www.sciencegateway.org/tools/proteinmw.htm
Imagecompute_PI (蛋白质PI及大小预测工具)
https://web.expasy.org/compute_pi
ImageUNIPORT (著名的蛋白质数据库,为世界两大蛋白序列数据库之一)
https://www.uniprot.org/
ImagePIR (PIR蛋白信息数据库,由是美国最主要的蛋白序列数据库,为世界两大蛋白序列数据库之一)
https://proteininformationresource.org/pirwww/
ImagePDB (Brookhaven蛋白序列三维立体结构数据库)
https://www.rcsb.org
ImagePROSITE (蛋白特征序列字典)
https://www.expasy.org/resources/prosite
ImageENZYME (蛋白酶数据库)
https://enzyme.expasy.org
ImageREBASE (限制酶数据库)
http://rebase.neb.com/rebase/rebase.html
ImageInterPro (蛋白家族数据库Protein Family Database数据库)
http://www.ebi.ac.uk/interpro/
ImagePDBe (专门将同源蛋白家族作为分类依据,对蛋白质进行分类)
https://www.ebi.ac.uk/msd-srv/ssm/#opennewwindow
ImageDIP (蛋白质互作数据库)
https://dip.doe-mbi.ucla.edu/dip/Main.cgi#opennewwindow
ImageSTRING (蛋白质互作数据库)
http://string-db.org/
ImageSTITCH (蛋白质互作数据库)
http://stitch.embl.de/
ImageVectorDB (载体数据库)
http://genome-www.stanford.edu/vectordb//
ImageMINT (蛋白质互作数据库 )
http://mentha.uniroma2.it/index.php

微生物多样性 

ImageGreengenes (16S  rRNA基因数据库)
http://greengenes.secondgenome.com/
ImageCMEinfo (16S rRNA基因数据库)
http://rdp.cme.msu.edu/
ImageSILVA (rRNA 基因数据库)
http://www.arb-silva.de/
ImagePR2 (真核微生物18S rRNA基因数据库)
https://figshare.com/articles/PR2_rRNA_gene_database/3803709
ImagePhytoREF {专门针对质体(plastid)中16S rRNA基因的数据库}
http://phytoref.sb-roscoff.fr/
ImagePFR² (专门针对浮游有孔虫界18S rRNA基因的数据库)
http://pfr2.sb-roscoff.fr/
ImageGreengenes (16S rRNA基因数据库)
http://greengenes.lbl.gov/
ImageBIGSdb (细菌分离基因组序列数据库)
http://pubmlst.org/software/database/bigsdb/
ImageMetagenomics (提交和分析宏基因组数据的门户)
https://www.ebi.ac.uk/metagenomics/
ImageUNITE (专门针对真菌ITS序列的数据库)
https://unite.ut.ee/
ImageITS2 (专门针对真核微生物ITS2序列的数据库)
http://its2.bioapps.biozentrum.uni-wuerzburg.de/
ImageFGSC (真菌遗传学信息中心)
http://www.fgsc.net/
ImageMicrobiomeAnalyst (微生物组学数据库,同时也集成了数据分析功能)
https://www.microbiomeanalyst.ca
ImageMicrobializer (微生物组学数据库)
https://microbializer.tau.ac.i
ImageManta (一款用于研究微生物群与宿主表型数据关系的分析软件,可以本地安装也可在线使用。可以是16SrRNA测序数据,也可以是宏基因组数据)
https://mizuguchilab.org/manta/
ImageGMrepo (实用人类肠道微生物菌群数据库)
https://gmrepo.humangut.info/home
ImageBugBase (Bugbase数据可用于预测人体或环境样本中原核微生物的表型)
https://bugbase.cs.umn.edu/
ImageCoMA (CoMA能够处理来自NGS平台的数据,包括Illumina MiSeq,Illumina HiSeq或Illumina NovaSeq,还可以处理以前的454焦磷酸测序技术。CoMA着重于短读而非长读的数据处理)
https://www.uibk.ac.at/microbiology/services/coma.html

模式生物

ImageEcoCyc (大肠杆菌基因组与代谢知识库)
http://EcoCyc.org
ImageRegulon (大肠杆菌转录调控资源数据库)
http://regulondb.ccg.unam.mx/
ImageSGD  {酵母菌(Saccharomyces)基因组数据库 }
https://www.yeastgenome.org
ImageSUBTILIST {纤小杆菌(Bacillus subtilis )168基因组数据库}
http://genolist.pasteur.fr/SubtiList/
ImagePGD (假单胞菌基因组数据库)
http://pseudomonas.com

病菌

ImagePATRIC (原生病原体数据库)
https://www.patricbrc.org/
ImageVEuPathDB (真核病原体数据库)
http://eupathdb.org/
ImageTB database (结核病研究综合平台)
http://www.tbdb.org/
ImageVFDB (病原菌毒力因子数据库)
http://www.mgc.ac.cn/VFs/main.htm
ImageVirHostnet (针对病毒宿主互作的数据库,该数据初期以人的相关病原体为主)
http://virhostnet.prabi.fr/
ImageEHFPI (病原体感染的必要宿主因子(EHF)数据库,该数据库主要收集通过 RNA 干扰实验(RNAi)验证的宿主细胞基因)
http://biotech.bmi.ac.cn/ehfpi
ImagePHI-base (病原与宿主互作数据库该数据库收录的主要是被实验证实具有毒力和效应基因的细菌、卵菌、真菌,宿主则包括了动物、植物和真菌。同时数据库还囊括了与 FRAC 合作得到的一些抗真菌化合物数据)
http://www.phi-base.org/
ImageVirusMentha (这是一个针对病毒-病毒,病毒-宿主相互作用的数据库,数据来源于发表的文献,由人工整合收集而成,并且整合收录了 MINT、IntAct、DIP、MatrixDB、BioGrid 等几个库中的病毒相关数据)
http://virusmentha.uniroma2.it/
ImageHPIDB {病菌与宿主互作数据,HPIDB 3.0 是一种有助于注释、预测和显示宿主-病原体相互作用 (HPI) 的资源。支持传染病的 HPI 对于开发新的干预策略至关重要。数据库包含 69,787 组蛋白互作关系}
http://www.agbase.msstate.edu/hpi/main.html

运输与新陈代谢

ImageTCDB (转运体分类数据库)
http://www.tcdb.org/
ImageTransportDB (转运蛋白分析数据库)
http://www.membranetransport.org/
ImageMetaCyc (代谢通路数据库)
http://metacyc.org/
ImageKEGG (以新陈代谢为重点的基因组数据库)
http://www.genome.jp/kegg/

信号转导与基因调控

ImageSwissRegulon (模型生物体中调节位点的全基因组注释)
http://swissregulon.unibas.ch/
ImageRegPrecise (蛋白菌基因组中的回流基因数据库)
http://regprecise.lbl.gov/RegPrecise/
ImageHGT-DB (预测水平转移基因的数据库)
http://usuaris.tinet.cat/debb/HGT/welcomeOLD.html
ImageIS Finder (查询细菌插入序列的专用数据库)
https://www-is.biotoul.fr/

国内微生物数据库

ImageNMDC (国家微生物科学数据中心)
https://nmdc.cn/
ImageGCTYPE (全球模式植株测序计划)
http://gctype.wdcm.org/
ImageGCMETA (微生物宏基因组数据库)
https://gcmeta.wdcm.org/
ImageGCM (全球微生物菌种目录数据库)
http://gcm.wdcm.org/
ImageCASBRC (中科院战略生物资源库)
http://www.casbrc.org/home
ImageHGMB (人肠道微生物基因组数据库)
https://hgmb.nmdc.cn/
ImagenCov (新冠病毒国家科技资源服务系统)
https://nmdc.cn/nCoV
ImageCLD (全球冠状病毒组学数据共享与分析系统)
https://nmdc.cn/coronavirus/
Imagebiosino (合成生物学原件与数据库)
https://www.biosino.org/npbiosys/
ImageNIMR (国家微生物资源平台)
http://www.nimr.org.cn/list.action?articleClassId=15
ImageCGMCC (中国普通微生物菌种保藏管理中心)
https://www.cgmcc.net
ImageACCC (中国农业微生物菌种保藏管理中心)
http://www.accc.org.cn/
ImageCVCC (中国兽医微生物菌种保藏管理中心)
http://cvcc.ivdc.org.cn/
ImageCMCCB (中国医学细菌保藏管理中心)
http://www.cmccb.org.cn/cmccbnew/
ImageCICC (中国工业微生物菌种保藏管理中心)
http://www.china-cicc.org/
ImageGDMCC (广东省微生物菌种保藏中心)
http://www.gdmcc.net/main.do?method=load&css=1&englist=
ImageCSDB (中国科学院微生物与病毒主题数据库)
http://www.micro.csdb.cn/guide/index.html
ImageNIMR (国家微生物资源平台-菌种共享)
http://www.nimr.org.cn/list.action?articleClassId=15
ImageBio-one (生物多样性与生态安全大数据平台)
https://www.bio-one.org.cn/statis.aspx
ImagePAC {GeneDock与中国疾病预防控制中心(中国CDC)传染病预防控制所合作开发的微生物数据分析云平台}
https://analysis.mypathogen.org/