用于结直肠癌相关疾病的生物标志物的制作方法

栏目:旅游资讯  时间:2023-07-09
手机版

  用于结直肠癌相关疾病的生物标志物的制造方法与工艺

  相关申请的交叉引用

  无。

  本发明涉及用于预测与微生物群有关疾病(特别是结直肠癌(crc)相关疾病)的风险的生物标志物及方法。

  背景技术:

  在西方国家,结直肠癌(crc)是第三大常见癌症,也是第二大致死的癌症(schetteraj,harriscrc(2011)alterationsofmicrornascontributetocoloncarcinogenesis.seminoncol38:734–742,通过引用并入此处)。在全世界范围内,每年都有很多人被诊断出患有crc,也有很多患者死于此病。尽管现有的治疗手段(包括手术、放射疗法、化学疗法)对crc具有显著的临床治疗价值,然而,手术后癌症的复发和转移使得这些治疗手段不能成功治愈结直肠癌。因此,对crc早期的诊断不仅可以降低死亡率,还可以减少手术治疗的费用。

  现在诊断crc的手段,如可屈性乙状结肠镜检查和结肠镜检查是侵入式检查,被检查的患者在受检过程中可能会感觉不舒服甚至厌恶。

  crc的发展是受遗传、生理和环境因素影响的多因素过程。对于环境因素,生活方式特别是饮食摄入可能会影响到crc发生的风险。西方饮食含有丰富的动物脂肪但是缺乏纤维,其通常与crc的风险增加有关。因此,据推测饮食和crc之间的关联可能是饮食对结肠微生物群和细菌代谢的影响,从而使得这两者均是疾病病因学中的相关因素(mcgarrse,ridlonjm,hylemonpb(2005).diet,anaerobicbacterialmetabolism,andcoloncancer.jclingastroenterol.39:98–109;hatakkak,holmar,el-nezamih,suomalainent,kuismam,saxelinm,poussat,h,korpelar(2008).theinfluenceoflactobacillusrhamnosuslc705togetherwithpropionibacteriumfreudenreichiissp.shermaniijsonpotentiallycarcinogenicbacterialactivityinhumancolon.intjfoodmicrobiol.128:406–410,通过引用并入此处)。

  概述

  本公开内容的实施方案旨在至少在一定程度上解决现有技术中存在的至少一个问题。

  本发明基于发明人的以下发现:

  粪便dna的肠道微生物群分析具有作为非侵入式检测方法的潜力,用来寻找特异性生物标志物,而这些标志物可以作为crc患者早期诊断的筛选工具,从而延长寿命,提高生活质量。为了分析crc患者的肠道微生物群,本发明人基于对128个中国人(群体i)的肠道微生物dna的深度鸟枪法测序,执行了宏基因组关联研究(mgwas)(qin,j.etal.ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes.nature490,55–60(2012),通过引用并入此处)的方案。发明人鉴定并验证了140,455个与crc关联的基因标志物。为了开发利用肠道微生物群进行crc分类的潜在能力,发明人基于通过最小冗余-最大关联(mrmr)特征选择方法定义为最优基因集的20个基因标志物,开发了一种疾病分类系统。为了基于这些20个肠道微生物群基因标志物直观地评估crc疾病的风险,发明人计算了健康指数(crc指数)。发明人的数据为表征与crc风险有关的肠道宏基因组提供了具有洞察力的见解,也为以后研究肠道宏基因组在其他相关疾病的病理生理学中的作用提供了一个范例,同时还揭示了基于肠道微生物群的方法在评估处于这样的疾病风险的个体中的潜在用途。

  据信肠道微生物群的基因标志物对于增加癌症的早期检测具有重要的价值,原因如下:首先,本发明的标志物相对于传统癌症标志物更特异、更灵敏。其次,采用粪便进行分析的结果准确、安全、便宜并且患者较易服从。粪便样品是方便运输的。与需要肠道准备的结肠镜检查相比,基于聚合酶链式反应(pcr)的分析方法是舒适的和无创的,所以人们将更容易参与指定的筛选程序。第三,本发明的标志物还可作为癌症患者中监测治疗的工具,以检测对治疗的反应。

  附图说明

  下面结合附图说明,本发明公开的各个方面及其优势将变得显而易见,从而更容易被理解。

  图1示出了本研究中所有微生物基因关联分析的p值分布。crcp值分布的关联分析鉴定了在较低p值下强关联标志物不成比例地过度代表,其中在零假设下,大部分基因符合预期的p值分布。这表明,显著的标志物可能代表真实而不是虚假的关联。

  图2示出了在结直肠癌中与肠道微生态失调有关的物种。使用三种不同方法(mlg、motu和img数据库)一致地鉴定两种crc关联的微生物物种和一个对照关联的微生物物种的差别相对丰度。

  图3示出了莫氏细小杆菌(solobacteriummoorei)和胃消化链球菌(peptostreptococcusstomatis)在crc患者微生物群组中的富集情况。

  图4示出了利用随机森林方法和三种不同物种注释方法进行crc特异性物种标志物筛选接受者工作特征曲线(roc)。a,利用img400版本对清洁读长进行注释得到的img物种。b,利用已发表的方法(e.m.e.m.m.c.c.gomes-marcondes,leucinemodulatestheeffectofwalkerfactor,aproteolysis-inducingfactor-likeproteinfromwalkertumours,ongeneexpressionandcellularactivityinc2c12myotubes.cytokine64,343(10//,2013),通过引用并入本文)得到的motu物种;c,利用mlg方法(m.r.rubinstein等人,fusobacteriumnucleatumpromotescolorectalcarcinogenesisbymodulatinge-cadherin/beta-cateninsignalingviaitsfadaadhesin.cellhostmicrobe14,195(aug14,2013)聚类的所有显著基因和利用img400版本注释得到的物种。

  图5示出了利用三种物种注释方法(mlg、img和motu)得到的在疾病第二阶段及以后的阶段富集的三种物种的阶段特异性丰度。

  图6示出了在结直肠癌中与肠道微生态失调有关的物种。在crc的不同阶段中,三种在crc关联的微生物群组中富集的细菌物种的相对丰度(利用三种不同的物种注释方法)。

  图7示出了最小冗余-最大关联(mrmr)方法来识别区分结直肠癌病例与对照的20个基因标志物。使用生成连续数量子集的mrmr方法进行增量搜索。对于每个子集,错误率通过线性判别分类器的留一交叉验证方法(loocv)来估计。具有最低错误率的最佳子集包含20个基因标志物。

  图8示出了基于20个基因标志物的特征谱区分crc病例和对照个体的主成分分析(pca)。第一和第二主要成分与crc状态关联(pc1和pc2分别解释了31.9%和13.3%的变异)。将其与基于210万个基因的分析(其中不能观察到所述分别)进行比较。

  图9示出了发现与crc关联的肠道微生物基因标志物。来自本研究的crc患者(黑色)和对照个体(灰色)计算的crc指数,与来自早期对2型糖尿病和炎症性肠病研究中的患者和对照个体(灰色)一起显示。该框描绘了第一和第三的四分位数之间的四分位数范围,内部的线表示中位数。crc患者微生物群组的crc指数与其余患者有显著差异。

  图10示出了从中国人群体i中20个基因标志物中得到的crc指数的roc分析,其显示出优异的分类潜力,其曲线下面积为0.99。

  图11示出了128个样品中使用20个基因标志物得到的crc指数。

  图12示出了crc指数,其以0.97的接受者工作特性(roc)曲线下面积进行分类。

  图13示出了宏基因组方法定量与四种基因标志物的定量聚合酶链反应(qpcr)之间的相关性。

  图14-1示出,roc分析显示使用crc指数进行分类的中等潜力,曲线下面积为0.71。

  图14-2示出了crc指数,其分类以0.85的接受者工作特征(roc)曲线下面积进行分类。

  图15示出了与crc关联的强壮基因标志物的验证。在第二群体(由47个病例和109个健康对照组成)中测量两个基因标志物(m1704941:来自具核梭杆菌的丁酰辅酶a脱氢酶;m1696299:来自微小小单胞菌的rna聚合酶β亚基,rpob)的定量pcr丰度(log10比例,丰度为0的以-8进行作图)。(a)基于这两个基因的crc指数可以清楚地分别crc微生物群组和对照。(b)crc指数以0.84的接受者工作特征(roc)曲线下面积进行分类;(c,d)相对于对照和第一阶段微生物群组,这两个标志物基因从crc第二阶段和第三阶段开始显示相对较高的出现率和丰度。

  图16示出了crc指数(仅使用1696299),其以0.80的接受者工作特性(roc)曲线下面积进行分类。

  图17示出了crc指数(仅使用1704941),其以0.69的接受者工作特性(roc)曲线下面积进行分类。

  发明详述

  本文所用的术语具有本发明相关领域的普通技术人员所通常理解的含义。术语如“一个”、“一种”和“所述”不旨在仅指单数的实体,而是包括可用于说明特定实施方案的一般类别。本文的术语用于描述本发明的具体实施方案,但它们的使用并不限定本发明,除非在权利要求中指出。

  一方面,本发明涉及用于预测受试者中结直肠癌(crc)风险的基因标志物集,其包含seqidno:1至20所示的一种或多种基因。

  在另一方面,本发明涉及本发明的基因标志物集用于预测受试者中结直肠癌(crc)风险的用途,其包括步骤:

  1)从受试者收集样品j并从样品中提取dna;

  2)确定基因标志物集中每个基因标志物的丰度信息;和

  3)通过以下公式计算样品j的指数:

  aij是样品j中标志物i的相对丰度,其中i指所述基因标志物集中的每个基因标志物;

  n是基因标志物集中所有crc富集标志物的子集;

  m是基因标志物集中所有对照富集标志物的子集;

  和|n|和|m|分别是这两个子集中生物标志物的大小(数量)

  其中大于临界值的指数表明受试者患有结直肠癌(crc)或处于发生结直肠癌(crc)的风险中。

  在另一方面,本发明涉及本发明的基因标志物集用于制备用于预测受试者中结直肠癌(crc)风险的试剂盒的用途,所述预测通过以下步骤:

  1)从受试者收集样品j并从样品中提取dna;

  2)确定基因标志物集中每个基因标志物的丰度信息;和

  3)通过以下公式计算样品j的指数:

  aij是样品j中标志物i的相对丰度,其中i指所述基因标志物集中的每个基因标志物;

  n是基因标志物集中所有crc富集标志物的子集;

  m是基因标志物集中所有对照富集标志物的子集;

  和|n|和|m|分别是这两个子集中生物标志物的大小(数量)

  其中大于临界值的指数表明受试者患有结直肠癌(crc)或处于发生结直肠癌(crc)的风险中。

  另一方面,本发明涉及用于诊断受试者是否患有结直肠癌或处于发生结直肠癌风险中的方法,其包括:

  1)从受试者收集样品j并从样品中提取dna;

  2)确定基因标志物集中每个基因标志物的丰度信息,所述基因标志物集包含seqidno:1至20所示的一个或多个基因;和

  3)通过以下公式计算样品j的指数:

  aij是样品j中标志物i的相对丰度,其中i指所述基因标志物集中的每个基因标志物;

  n是基因标志物集中所有crc富集标志物的子集;

  m是基因标志物集中所有对照富集标志物的子集;

  和|n|和|m|分别是这两个子集中生物标志物的大小(数量)

  其中大于临界值的指数表明受试者患有结直肠癌(crc)或处于发生结直肠癌(crc)的风险中。

  在一个具体实施方案中,丰度信息是通过测序方法测定的基因标志物集中的每个基因标志物的基因相对丰度。

  在另一个具体实施方案中,丰度信息是通过qpcr方法测定的基因标志物集中每个基因标志物的基因相对丰度。

  在另一个具体实施方案中,通过接受者操作特征(roc)方法获得临界值,其中临界值对应于auc(曲线下面积)达到其最大值。

  在优选的实施方案中,本发明的基因标志物集由seqidno:1至20组成,更优选本发明的基因标志物集由seqidno:1、9、13和16组成,最优选本发明的基因标志物集由seqidno:13和16组成。在另一优选实施方案中,基因标志物集由seqidno:13组成。

  另一方面,本发明涉及如seqidno:13所示的标志物或编码rna聚合酶亚单位β的rpob基因作为预测受试者中结直肠癌(crc)风险的基因标志物的用途,其中相对于对照样品,所述受试者样品中所述基因标志物的富集指示受试者中结直肠癌的风险。

  下面将结合非限制性实施方案对本发明进行进一步说明。除非另有说明,份数和百分比以重量计,温度以摄氏度表示。本领域技术人员将理解,下列实施方案虽然指出了本发明的优选实施方案,但仅以举例说明的方式给出,所用试剂均可以通过商业途径得到。

  实施例1.鉴定20个生物标志物并使用肠健康指数来评估其结直肠癌风险

  1.1样品采集

  1.1.1中国样品采集

  群体i(表1,实施例1中使用,由74个结直肠癌患者和54个对照受试者组成)和群体ii(表13,实施例3中使用,由47个结直肠癌患者和109个对照受试者组成):在香港威尔斯亲王医院采集2002年至2012年间的粪便样品。所有样品的纳入标准是:1)不服用抗生素或其他药物,没有特定饮食(糖尿病患者,素食者等),至少3个月生活方式正常(无额外压力);2)医疗干预后至少3个月;3)没有结肠直肠手术史、任何种类的癌症或肠道的炎性或传染性疾病。要求受试者在家中收集粪便样品至标准容器中,并立即存放在家用冰箱中。然后在绝缘聚苯乙烯泡沫容器中将冷冻的样品送到医院,立即储存在-80℃直到进一步分析。

  1.1.2丹麦样品采集

  群体iii(表15,实施例3中使用,由16个结直肠癌患者和24个对照受试者组成):从由于与结直肠癌相关的症状而被推荐结肠镜检查或从被诊断患有结直肠癌的患者而被推荐针对其原发性癌症的大肠切除术的个体采集粪便样品。所有个体均是在其访问门诊诊疗所时(在结肠镜检查前或在手术前,且总是在肠排空前)被纳入的。个体收到一个粪便采集套件,其中包括没有稳定缓冲液的试管,并被指示在大肠排空开始前一或两天在家里采集粪便样品。每个被纳入的个体将样品冷藏在-18℃,并与采集样品的研究护士联系。在实验室,粪便样品立即在液氮中快速冷冻,随后在-80℃下以24/7电子监控方式储存,直到分析。

  所有被纳入的个体因此经过完全结肠镜检查,或作为初始的检查或在后来的手术之后。排除标准是先前的腺瘤、先前的结直肠癌和先前或目前的其他恶性疾病。

  根据helsinkiii宣言采集粪便样品和记录所包括的个体的资料。该协议经丹麦首都区伦理委员会(h-3-2009-110)和丹麦数据保护局(2008-41-2252)批准。

  表1:群体i中结直肠癌(crc)病例和对照的基线特征。fbg:空腹血糖;alt/gpt:丙氨酸转氨酶/谷氨酸丙酮酸转氨酶;bmi:体重指数;dm:2型糖尿病;hdl:高密度脂蛋白;tg:甘油三酸酯;egfr:表皮生长因子受体;tcho:总胆固醇;cr:肌酐;ldl:低密度脂蛋白;tnm:肿瘤淋巴结转移分期系统。

  1.2dna提取

  中国样品:将粪便样品在冰上解冻,并根据制造商的说明书使用qiagenqiaampdnastoolminikit(qiagen)进行dna提取。提取物用无dna酶的rna酶处理以消除rna污染。使用nanodrop分光光度计,qubit荧光计(使用quant-ittmdsdnabr测定试剂盒)和凝胶电泳测定dna量。

  丹麦样品:将每个粪便样品的冷冻等分试样(200mg)悬浮于250μl的4m硫氰酸胍-0.1mtris(ph7.5)和40μl的10%n-月桂酰肌氨酸中。然后,如前所述使用珠研磨法进行dna提取(j.j.godon,e.zumstein,p.dabert,f.habouzit,r.moletta,molecularmicrobialdiversityofananaerobicdigestorasdeterminedbysmall-subunitrdnasequenceanalysis.appliedandenvironmentalmicrobiology63,2802(jul,1997),其通过引用并入本文)。通过nanodrop(thermoscientific)和琼脂糖凝胶电泳估计dna浓度及其分子大小。

  1.3dna文库构建和测序

  按照制造商的说明(illuminahiseq2000平台)进行dna文库构建。本发明人使用与前述相同的工作流程来进行簇生成,模板杂交,等温扩增,线性化,阻断和变性,以及测序引物的杂交(qin,j.等人ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes.nature490,55–60(2012),通过引用并入本文)。

  本发明人为每个样品构建了具有350bp的插入片段的一个配对末端(pe)文库,然后进行高通量测序以获得长度为2x100bp的约3000万个pe读长。通过从来自illumina原始读长过滤具有模糊“n”碱基的低质量读长、接头污染和人类dna污染以及通过同时修剪读长的低质量末端碱基来获得高质量的读长。产生了7.51亿个宏基因组读长(高质量读长)(平均每个体586万个读长)

  1.4img基因组的物种注释

  对于每个img基因组,通过使用由img提供的ncbi分类标识符,发明人使用ncbi分类转储文件在种和属水平上鉴定了相应的ncbi分类学分类。没有相应的ncbi物种名称的基因组使用其原始的img名称,其中大部分是未分类的。

  1.5数据谱构建

  1.5.1基因、keggortholog(ko)和属特征谱

  发明人将基因集的高质量读长映射到由欧洲和中国成年人(同一性>=90%)建立的公开的参考肠道基因集((qin等人,2012,同上),基于此,发明人使用与已发表的t2d论文(qin等,2012,同上)相同的方法得出基因、ko和属特征谱。

  1.5.2motu特征谱

  清洁读长与默认参数的motu参考序列(总共79268序列)(s.sunagawa等人,metagenomicspeciesprofilingusinguniversalphylogeneticmarkergenes.naturemethods10,1196(dec,2013),通过引用并入本文)比对。鉴定了549个物种水平的motu,包括307个注释物种和242个无代表性基因组的motu连锁群,这些群体被推定为厚壁菌或类杆菌属。

  1.5.3img物种和img属特征谱。

  从由http://ftp.jgi-psf.org下载的imgv400参考数据库(v.m.markowitz等人,img:theintegratedmicrobialgenomesdatabaseandcomparativeanalysissystem.nucleicacidsresearch40,d115(jan,2012),通过引用并入本文)提取细菌、古细菌和真菌序列。总共获得了522,093个序列,并且基于原始特征谱的7个相等大小的块构建了soap参考索引。使用soap对齐器2.22版本(r.li等人,soap2:animprovedultrafasttoolforshortreadalignment.bioinformatics25,1966(aug1,2009),通过引用并入本文)将清洁读长比对至参考序列,参数“-m4-s32-r2-n100-x600-v8-c0.9-p3”。然后,使用soap覆盖软件计算每个基因组的读长覆盖率,用基因组长度标准化,并进一步标准化至每个个体样品的相对丰度。该特征谱仅基于唯一映射的读长生成。

  1.6影响肠道微生物群基因谱的因素分析

  根据参考基因集(qin等人,2012,同上),本发明人得出了在128个香港样品中至少6个样品中出现的2.1m(2,110,489)基因子集,并使用这210万个基因生成了128个基因丰度谱。本发明人使用置换多元方差分析(permanova)检验来评估不同特征,包括年龄,bmi,egfr,tcho,ldl,hdl,tg,性别,dm,crc状态和位置,对2.1m基因的基因谱的影响。发明人利用r中的“vegan”工具包进行分析,经过10000次置换,得到置换p值。发明人还利用r中的“p.adjust”工具包对多重检验进行校正,利用benjamini-hochberg方法得到每个基因的q值。

  当发明人在19个不同协变量上进行置换多元方差分析(permanova)时,只有crc状态和crc阶段与这些基因谱显著相关(q<0.05,表2)。因此,数据表明crc患者微生物群中改变的基因组成不能被其他记录的因素所解释。

  表2群体i中微生物基因谱的permanova分析。进行分析,以检验临床参数和crc状态对肠道微生物群是否有显著影响,q<0.05。bmi:体重指数;dm:2型糖尿病;fbg:空腹血糖;hdl:高密度脂蛋白;tg:甘油三酸酯;egfr:表皮生长因子受体;tnm:肿瘤淋巴结转移分期系统;tcho:总胆固醇;cr:肌酐;ldl;低密度脂蛋白;alt/gpt:丙氨酸转氨酶/谷氨酸丙酮酸转氨酶。

  1.7mgwas鉴定的crc关联基因

  1.7.1结直肠癌相关基因的鉴定

  发明人利用宏基因组广泛关联研究(mgwas)来鉴定促成crc中基因组成发生改变的基因。为了鉴定宏基因组特征谱与crc的关联性,发明人利用双侧wilcoxon秩和检验方法对2.1m个基因谱进行分析。利用这种方法,发明人共得到140455个基因标志物,其在病例或在对照中富集(p<0.01)(图1)。

  1.7.2估计错误发现率(fdr)

  为了评估错误发现率(fdr),发明人没有使用连续p值拒绝方法,而是使用了“q值”方法,该方法在以前的一个研究中提出(j.d.storey,r.tibshirani,statisticalsignificanceforgenomewidestudies.proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica100,9440(aug5,2003),通过引用并入此处)。在此分析中,统计假设检验是在140,455个基因的大量的特征数据上进行的。错误发现率(fdr)为11.03%。

  1.8crc微生物群的分类学改变

  发明人检查了对照和crc关联微生物群之间的分类学差异,以鉴定促成生态失调的微生物分类群。为此,本发明人使用从三种不同方法得到的分类特征谱,因为来自多种方法的支持证据将加强关联性。首先,发明人将宏基因组读长映射到img数据库中的4650个微生物基因组(v.m.markowitz等人,img:theintegratedmicrobialgenomesdatabaseandcomparativeanalysissystem.nucleicacidsresearch40,d115(jan,2012),其通过引用并入本文)(版本400),并估计该数据库中的微生物物种(表示为img物种)的丰度。第二,本发明人使用通用系统发育标志物基因(s.sunagawa等人,metagenomicspeciesprofilingusinguniversalphylogeneticmarkergenes.naturemethods10,1196(dec,2013),其通过引用并入本文)估计了物种水平的分子操作分类单位(motu)的丰度。第三,本发明人将由mgwas鉴定的140,455个基因组织成代表源自相同基因组的基因簇的宏基因组连锁群(mlg)(qin等人,2012,同上),在可能的情况下,使用img数据库注释物种水平的mlg,基于这些物种注释分组mlg,然后估计这些物种(表示为mlg物种)的丰度。

  1.8.1鉴定结直肠癌相关mlg物种

  基于鉴定出的与结直肠癌关联的140455个标志物基因谱,发明人利用之前ii型糖尿病研究(qin等人,2012,同上)里描述的方法构建结直肠癌关联的mlg。将所有的基因对比到img数据库v400中的参考基因组以获取基因组水平的注释。如果大于50%的组成性基因被注释到一个基因组,则将mlg归属于该基因组,否则将其称为未分类。总共87个基因数目超过100个的mlg被选择为与结直肠癌相关联的mlg。基于这些基因组的物种注释将这些mlg分组,从而构建出mlg物种。

  为了评估mlg物种的相对丰度,发明人首先去除丰度最高的5%基因和丰度最低的5%基因,然后评估mlg物种的基因的平均丰度。通过计算属于该物种的img基因组的丰度之和,从而评估img物种的相对丰度。通过类似地计算物种丰度之和来估计属丰度。

  1.8.2crc关联物种

  以上分析鉴定了28个img物种、21个motu和85个mlg物种与通过结肠镜检查分层为混杂因素的crc状态显著相关(wilcoxon秩和检验,q<0.05;见表3)。凸腹真杆菌(eubacteriumventriosum)在所有三种方法中均在对照微生物群组中富集(wilcoxon秩和检验-img:q=0.002;motu:q=0.0049;mlg:q=3.33x10-4)。另一方面,微小小单胞菌(parvimonasmicra)(q<7.73x10-6),莫氏细小杆菌(solobacteriummoorei)(q<0.011)和具核梭杆菌(fusobacteriumnucleatum)(q<0.00279)在所有三种方法中均在crc患者微生物群组中富集(图2,图3),而根据三种方法中的两种,胃消化链球菌(peptostreptococcusstomatis)(q<7.73x10-6)富集。permanova分析显示,只有crc状态(所有三种方法p≤0.013)和结肠镜检查(两种方法的p=0.079)解释了三种crc富集物种的定量变异。所有其他非crc特异性因子无法解释具有统计学意义的变异(p>0.18;表4)。胃消化链球菌最近已显示与crc显著相关,而莫氏细小杆菌先前已显示与菌血症相关。结果证实了在具有不同遗传和文化起源的新群组中的关联性。然而,在crc关联微生物群中,高度显著富集的微小小单胞菌(类似具核梭杆菌的一种可以引起口腔感染的专一性厌氧细菌)是一个新的发现。微小小单胞菌参与了牙周病的病因,并且产生广泛的蛋白水解酶,并使用蛋白胨和氨基酸作为能源。已知其产生硫化氢,其促进结肠癌细胞的肿瘤生长和增殖。微小小单胞菌可能代表crc的非侵入性诊断生物标志物的机会。

  1.9物种水平分析

  为了评估这些分类学关联分析的预测功效,发明人利用随机森林系统学习法(d.knights,e.k.costello,r.knight,supervisedclassificationofhumanmicrobiota.femsmicrobiologyreviews35,343(mar,2011),通过引用并入此处)鉴定三种不同方法得到的物种谱中的关键物种标志物。该分析显示,17个img物种、7个物种水平motu和27个mlg物种高度预测crc状态(表5),roc分析中的预测能力分别为0.86、0.89和0.96(图4)。从所有三种方法中鉴定出微小小单胞菌为关键物种,从三种方法中的两种鉴定出具核酸杆菌、胃消化链球菌和莫氏细小杆菌,提供其与crc状态的关联性的进一步统计支持。

  1.9.1mlg物种标志物鉴定

  基于构建的基因数目超过100个的87个mlg,发明人采用benjamini-hochberg调整法对每一个mlg进行wilcoxon秩和检验,85个mlg被筛选出作为与crc相关的mlg(q<0.05)。基于这85个结直肠癌相关的mlg物种,发明人采用r(2.10版)中的“randomforest4.5-36”工具包来鉴定mlg物种标志物。首先,发明人根据“randomforest”方法得出的重要性对所有85个mlg物种进行排序。通过创建排名高的mlg物种的递增子集,从包含1个mlg物种开始至包含所有85个mlg物种结束,从而构建mlg标志物集。对于每个mlg标志物集,发明人计算出其在128个中国人群体(第一群体)中的错误预测率。最后,选取错误预测率最低的mlg物种集作为mlg物种标志物。此外,发明人利用基于筛选出来的mlg物种标志物得到的疾病发生概率绘制roc曲线。

  1.9.2img物种标志物和motu物种标志物鉴定

  基于img物种谱和motu物种谱,发明人同样采用benjamini-hochberg调整法进行wilcoxon秩和检验,从而筛选出与crc显著相关(q<0.05)的img物种和motu物种。接着,利用与筛选mlg物种标志物相同的方法,即采用随机森林法筛选img物种标志物和motu物种标志物。

  1.9.3mlg、img和motu物种的阶段富集分析

  由于三种方法预测的与crc状态关联的物种相一致,而且发明人记录了crc患者的疾病阶段(表1),因此,发明人对物种谱进行了探索,以寻求鉴定早期crc的特异性标记。发明人推测,这种努力可能揭示很难在全局分析中进行鉴定的阶段特异性关联。为了确定在crc的四个阶段或健康对照中有哪些物种富集,发明人对基因数目超过100的mlg物种和q<0.05(采用benjamini-hochberg调整法的wilcoxon秩和检验)的所有img物种和motu物种进行kruskal检验,利用在crc四个阶段和健康对照中最高的秩平均获得物种富集信息。发明人还利用成对wilcoxon轶和检验对各组两两之间的显著性进行比较。

  在中国人群体i中,有几个物种在不同的阶段显示显著不同的丰度。其中,相较于所有其它阶段和对照样品,发明人没有鉴定出在第一阶段富集的任何物种。相较于对照样品,胃消化链球菌(peptostreptococcusstomatis),变黑普雷沃氏菌(prevotellanigrescens)和共生梭菌(clostridiumsymbiosum)在第二阶段或更晚以后富集,表明它们在crc形成之后开始在结肠/直肠定殖(图5)。然而,相较于对照,具核梭杆菌动物亚种(fusobacteriumnucleatum),微小小单胞菌(parvimonasmicra),和莫氏细小杆菌(solobacteriummoorei)在所有四个阶段均有富集,在第二阶段丰度最高(图6),表明它们可能在crc病因学和发病机制中发挥作用,也意味着它们可以作为早期crc的潜在生物标志物。

  1.10crc生物标志物发现

  发明人从使用最小冗余-最大关联(mrmr)特征选择方法(h.peng,f.long,c.ding,featureselectionbasedonmutualinformation:criteriaofmax-dependency,max-relevance,andmin-redundancy.ieeetransactionsonpatternanalysisandmachineintelligence27,1226(aug,2005),其通过引用并入本文)的mgwas方法鉴定的140,455个基因中鉴定出crc的潜在生物标志物。为了消除结肠镜检查的混杂效应,本发明人选择了即使在分层结肠镜检查之后也是显著的基因,其产生了102,514个基因。然而,由于mrmr方法的计算复杂度不允许我们使用所有102,514个基因,本发明人必须减少候选基因的数量。首先,本发明人选择了更严格的24,960个基因集,其具有较高的统计显著性(p<0.001;fdr≤5.23%)。然后本发明人确定了彼此高度相关的基因组(kendallτ>0.9),并选择每组中最长的基因,以产生11,128个显著基因的统计学上非冗余的组。最后,发明人使用mrmr方法,并确定了与crc状态强相关的20个基因的最佳集合(图7,表6和表7)。使用这20个基因的pca(主成分分析)显示crc患者与对照组的良好分离(图8)。permanova分析显示,只有crc状态、分期和空腹血糖解释了20个标志物基因丰度的统计显著的变化(p≤0.01;见表8)。虽然发明人不能排除其他混杂因素,但结果表明20个标记基因表征crc与对照微生物群之间的差异。本发明人基于这20种标志物相对丰度的未加权对数计算了简单的crc指数,其将crc患者微生物群与对照微生物群以及与来自之前对中国个体的2型糖尿病(qin等人2012,同上)和欧洲个体的炎症性肠病(j.qin等人,ahumangutmicrobialgenecatalogue,bymetagenomicsequencing.nature464,59(2010年3月4日),以引用方式并入本文)的两个研究的490个粪便微生物清楚地分离开(图9,本研究中患者和对照的中值crc指数分别为7.31和-5.56;wilcoxon秩和检验,所有五个比较q<6x10-11,参见表9)。使用crc指数对74例crc患者微生物相较于54种对照微生物群的分类显示接受者工作特征(roc)曲线下面积为0.99(图10),而相较于相应对照对2型糖尿病和ibd患者的分类的曲线下面积(auc)分别为0.658和0.738,表明该指数所捕获的模式主要为crc特异性的。在图10的0.7383临界值中,真阳性率(tpr)为0.99,假阳性率(fpr)为0.07,表明20个基因标志物可用于对crc个体进行准确分类。

  1.10.1最小冗余-最大关联(mrmr)特征选择框架

  为了仅通过肠道宏基因组学标志物建立结直肠癌分类,本发明人采用mrmr方法进行特征选择。本发明人使用来自r的“sidechannelattack”工具包进行增量搜索,并发现128个有序标志物集。对于每个有序集,发明人利用留一交叉验证方法(loocv)评估线性鉴别分类器的错误率。选取错误率最低的作为最优标志物集。在本研究中,发明人对一组102,514例结直肠癌相关基因标志物进行了特征选择。由于没有对所有基因进行mrmr分析的计算能力,发明人构建了统计上非冗余的基因集。首先,发明人预先分组了彼此高度相关(kendall相关系数>0.9)的102,514个结直肠癌相关基因。然后发明人选择了最长的基因作为该组的代表性基因,因为较长的基因具有较高的功能注释机率,并且在定位程序时将抓取更多的读长。这产生了11,128个显著基因的非冗余组。随后,本发明人将mrmr特征选择方法应用于11,128个显著基因,从而确定出与结直肠癌强关联的20个基因标志物的最优集,用于结直肠癌鉴别,如表6和表7所示。基因id来自出版的参考基因集(qin等人2012,同上)。

  1.10.2crc指数的定义

  为了利用肠道微生物群的潜在的疾病分类能力,本发明人开发了基于发明人确定的基因标志物的疾病分类系统。为了基于这些肠道微生物基因标志物对疾病风险进行直观评价,本发明人计算出肠健康指数(crc指数)。

  为了评价肠道宏基因组对结直肠癌的作用,本发明人通过mrmr方法基于所选择的20个肠宏基因组标志物定义并计算了每个个体的crc指数。对于每个单独的样品,由以下公式计算由ij表示的样品j的crc指数:

  aij是样品j中标志物i的相对丰度,其中i指所述基因标志物集中的每个基因标志物;

  n是这些所选肠道宏基因组标志物中所有crc富集标志物的子集(即所选生物标志物中与异常状态相关的所有患者富集标志物的子集);

  m是这些所选肠道宏基因组标志物中所有对照富集标志物的子集(即所选生物标志物中所与异常状态相关的有对照富集标志物的子集);

  其中crc富集标志物子集和对照富集标志物子集显示在表7中。

  和|n|和|m|分别是这两个子集的大小(数量),其中|n|是8和|m|是12。

  crc指数越大,患病风险越高。crc指数越小,个人越健康。基于一个大群体,发明人能够建立最优的crc指数临界值。如果测试样品的crc指数大于该临界值,则该受试者患病风险较高;而如果测试样品的crc指数小于该临界值,则该受试者较健康,患病风险较小。其中所述最优的crc指数临界值可由roc方法在曲线下面积(auc)达到最大值时来确定。

  1.10.3接收者操作特征(roc)分析

  本发明人应用roc分析来评估基于宏基因组标志物的结直肠癌分类的性能。基于上述选择的20个肠道宏基因标志物,本发明人计算出每个样品的crc指数。发明人然后使用r中的“daim”工具包来绘制roc曲线。

  1.10.4crc指数验证

  在建立crc指数后,本发明人计算了128名个体以及来自先前对ii型糖尿病中国人(qin等人(2012),同上)和炎症性肠病欧洲人(j.qinetal.,ahumangutmicrobialgenecatalogueestablishedbymetagenomicsequencing.nature464,59(mar4,2010),通过引用并入此处)的两个研究中的490名个体的中国群体i的crc指数(图11,表10)。使用benjamini-hochberg调整法的wilcoxon秩和检验来比较crc指数在中国crc群体、t2d群体和ibd群体中区分crc患者和其余患者的能力。

  表9:crc、t2d和ibd患者和健康群体中估计的crc指数。

  表10:128个样品的计算的crc指数(crc患者和非crc对照)

  实施例2.验证20个生物标志物

  发明人使用另一个新的独立研究小组验证了crc分类器的区分力,该组中包括在威尔斯亲王医院采集的15例crc患者和15例非crc对照。

  对于每个样品,提取dna,如实施例1所述构建dna文库,然后进行高通量测序。本发明人使用与qin等人(2012,同上)所述相同的方法计算了这些样品的基因丰度分布。然后确定如seqidno:1-20所示的每个标志物的基因相对丰度。然后通过以下公式计算每个样品的指数:

  aij是样品j中标志物i的相对丰度,其中i指seqidno:1至20所示基因标志物集中的每个基因标志物;

  n是这些20个所选肠道宏基因组标志物中所有crc富集标志物的子集(即所选生物标志物中与异常状态相关的所有患者富集标志物的子集);

  m是这些20个所选肠道宏基因组标志物中所有对照富集标志物的子集(即所选生物标志物中所与异常状态相关的有对照富集标志物的子集);

  其中crc富集标志物子集和对照富集标志物子集显示在表7中。

  和|n|和|m|分别是这两个子集的大小(数量),其中|n|是8和|m|是12。

  表11示出了每个样品的计算的指数,表12示出了代表性样品v1和v30的相关基因相对丰度。在该评估分析中,分类的曲线下面积(auc)为0.9733(图12)。在临界值0.9945,真阳性率(tpr)为1,假阳性率(fpr)为0.2,从而验证了20个基因标志物可用于准确分类crc个体。

  表11.30个样品的计算crc指数

  表12:样品v1和v30的基因相对丰度

  因此,发明人已经基于140,455个crc关联标志物,通过最小冗余-最大关联(mrmr)特征选择方法来鉴定和验证了20个标志物。本发明人建立了肠道健康指标,以基于这20种肠道微生物基因标志物评估crc疾病风险。

  实施例3通过qpcr验证基因标志物

  使用基于taqman探针的qpcr,在测序了的群体(51个病例和45个对照,群体i的一个子集)的96个粪便样品和156个样品的群体ii(47个病例和109个对照)中进一步评估四个随机选择的基因标志物的丰度,包括两个对照富集的(m181682(seqidno:4)和m370640(seqidno:6))和两个患者富集的(m482585(seqidno:11)和m1704941(seqidno:16))。引物和探针使用primerexpressv3.0(appliedbiosystems,fostercity,ca,usa)进行设计。使用universalpcrmastermixreagent(appliedbiosystems)在abi7500实时pcr系统上进行qpcr。通用16srdna作为内部对照,基因标志物的丰度表达为针对16srdna的相对水平。

  3.1使用靶向定量pcr评估crc生物标志物

  生物标志物是使用公认昂贵的深度宏基因组测序方法得出的。将其转化为诊断性生物标志物将需要通过简单、经济和靶向的方法如定量pcr(qpcr)进行可靠的测量。为了验证这一点,本发明人随机选择两个病例富集和两个对照富集的基因标志物,并通过qpcr在选自群体i(51个病例和45个对照)的96个样品的子集中测量其丰度。通过两个平台(宏基因组测序和qpcr)对四个基因中的每一个的定量显示出强相关性(spearmanr=0.81-0.95,图13),这表明也可以使用qpcr可靠地测量基因标志物。接下来,为了验证先前未见的样品中的标志物,本发明人使用qpcr在来自独立的中国人群体(群体ii;参见表13)的156个粪便样品(47个病例和109个对照)中测量了这四种基因标志物的丰度。两个对照富集基因没有显示显著的关联(p>0.31;表14)。另一方面,crc富集的基因标志物(m1704941,来自具核梭杆菌的丁酰-coa脱氢酶;m482585,来自未知微生物的rna定向dna聚合酶)与结肠镜检查分层后的crc状态显著关联(分别地,p=0.0015和p=0.045,见表14)。然而,在针对结肠镜检查调整的mantel-haenszel检验后,只有来自具核梭杆菌的基因保持显著(优势比=18.5,p=0.0051)。基于四个基因的丰度的crc指数仅将crc微生物群与对照微生物群进行适度分类(auc=0.73),也许表明从20个生物标志物列表中随机选择不是有效的策略。然而,来自具核梭杆菌的基因仅存在于109个对照微生物群中的4个中,表明有可能使用粪便样品进行crc的特异性诊断测试。

  3.2通过在独立的宏基因组群体中验证确定的准确的qpcr生物标志物

  为了鉴定可以具有更普遍适用性的强壮生物标志物,本发明人使用来自具有不同遗传背景和生活方式的群体(来自丹麦的16名crc患者和24名对照个体(群体iii))的粪便宏基因组评估所有20个基因标志物。这些是被推荐参与结肠镜检查的有症状的个体,所有样品在dna提取和分析前都是不知情的(见表15)。当映射至430万个肠道微生物基因时,40个丹麦微生物群在病例(wilcoxon秩和检验,基因计数:p=1.94x10-5;shannon指数:p=5.85x10-5)和对照(基因计数:p=0.0017;shannon指数:p=9.34x10-4;表16)中表现出显著较高的基因丰度和基因α多样性,与最近的研究一致,并表明中国和丹麦人群肠道微生物群落结构的差异(j.li等人,anintegratedcatalogofreferencegenesinthehumangutmicrobiome.naturebiotechnology32,834(aug,2014),通过引用并入本文)。在中国群体i中与crc状态相关的102,514个基因中,只有1,498个基因可以在丹麦微生物群中得到验证。然而,crc富集的基因在两个群体之间比对照富集基因显著更多地共有(在35,735个crc富集中为1,452个,而在对照富集中为66,779个中的46个;双尾卡方检验,卡方=2576.57,p<0.0001)。1,452个crc富集基因中超过一半(53.6%)仅来自三个物种:微小小单胞菌(389个基因),莫氏细小杆菌(204个基因)和共生梭菌(177个基因)(见表17)。在物种水平上,微小小单胞菌在所有三种方法中均在crc微生物中富集,而胃消化链球菌,麻疹孪生球菌,和莫氏细小杆菌在两种方法中在crc微生物中富集(wilcoxon秩和检验,q<0.05;表18)。值得注意的是,所有物种在至少一种方法验证中在crc中富集。这些结果表明,crc发展和进展期间结直肠环境的变化可能有助于两种人群中类似物种的生长,这可能导致crc患者中观察到的微生物多样性减少,这与其他人早期的观察一致(j.ahn等人,humangutmicrobiomeandriskforcolorectalcancer.journalofthenationalcancerinstitute105,1907(dec18,2013),通过引用并入本文)。使用中国群体i中发现的20个基因标志物的crc指数将丹麦患者微生物群与对照组或多或少地区分(wilcoxon秩和检验,p=0.029),并显示适度的分类潜能(roc曲线下面积为0.71,图14-1)。在丹麦群体iii中,20个基因中只有4个(2个来自厌氧消化链球菌和2个来自微小小单胞菌和具核梭杆菌)与crc状态相关(wilcoxon秩和检验,q≤0.06;所有是crc富集,见表19)。在发明人记录的因素中,只有crc状态可以解释这4个基因的变异(permanovap≤0.0001;见表20),表明这些特征是crc特异性的。使用这四种基因的crc指数可以按照roc曲线下面积(0.85)进行crc患者准确分类(图14-2,表21)。在临界值-16.68,真阳性率(tpr)为0.75,假阳性率(fpr)为0.08333。这个较高的auc验证了4种基因标志物可用于对crc个体进行分类。四个基因中的两个是来自厌氧消化链球菌的转座酶。第三个基因(m1704941,来自具核梭杆菌的丁酰基-coa脱氢酶)是在中国群体ii中使用qpcr成功验证的两个基因中的一个。来自微小小单胞菌的第四个基因是编码rna聚合酶亚基β的高度保守的rpob基因(即m1696299(seqidno:13,同一性为99.78%)),通常用作系统发育标志物(f.d.ciccarelli等人,towardautomaticreconstructionofahighlyresolvedtreeoflife.science311,1283(mar3,2006),其通过引用并入本文)。

  对于每个样品,提取dna,如实施例1所述构建dna文库,然后进行高通量测序。本发明人使用与qin等人(2012,同上)所述相同的方法计算了这些样品的基因丰度分布。然后测定如seqidno:1,seqidno:9,seqidno:13和seqidno:16所示的每种标志物的基因相对丰度。然后通过以下公式计算每个样品的指数:

  aij是样品j中标志物i的相对丰度,其中i指所述基因标志物集中的每个基因标志物;

  n是这些4个所选肠道宏基因组标志物中所有crc富集(病例)标志物的子集(即所选生物标志物中与异常状态相关的所有患者富集标志物的子集);

  其中crc富集标志物子集是如seqidno:1,seqidno:9,seqidno:13和seqidno:16所示的标志物;

  |n|是子集中生物标志物的大小(数量),其中|n|是4。

  其中大于临界值的指数表明受试者患有结直肠癌或处于发生结直肠癌的风险中。

  表21.40个样品的基因相对丰度和计算的crc指数

  本发明人决定使用qpcr评估独立的中国群体ii中两种非转座酶基因的诊断潜力。由于这些最初是在中国群体i中发现的,并在丹麦群体iii中验证,群体ii作为这些基因的合适独立验证群体,特别是在不同的平台中。本发明人对来自微小小单胞菌的rpob进行了额外的qpcr测量,其示出了在群体ii中的crc患者微生物群中的显著富集(wilcoxon秩和检验,通过结肠镜检查分层,p=8.97x10-8)。针对结肠镜检查调整的mantel-haenszel优势比为20.17(95%置信区间为4.59-88.6,p=3.36x10-7)。两个基因(1696299(seqidno:13)和1704941(seqidno:16))的组合qpcr测量(表22中的引物)在中国群体ii中清楚分开病例与对照样品(结肠镜检查分层的wilcoxon秩和检验,p=1.404x10-8,图15a)。他们的组合丰度准确分类了中国群体ii中的crc样品,改善的roc曲线下面积为0.84(临界值-13.38,真阳性率=0.723,假阳性率=0.073;图15b,表23),验证了2个基因标志物可用于对crc个体进行分类。精确度略高于最近的研究(auc=0.836,真阳性率=0.58,假阳性率=0.08),尽管它们使用了使用宏基因组测序的22种物种的丰度组合(g.zeller等人,potentialoffecalmicrobiotaforearly-stagedetectionofcolorectalcancer.molecularsystemsbiology10,766(2014),通过引用并入本文)。在crc患者中通过qpcr检测两种标志物中的至少一种的mantel-haenszel优势比(针对结肠镜检查调整的)为22.99(p=5.79x10-8,95%置信区间5.83-90.8)。当将群体分为早期(i-ii期)和晚期(iii-iv期)癌症患者时,分类潜力和优势比仍然很大(见表24)。从crc的ii期开始,这两个基因的丰度显著高于对照样品(图15c-d),与物种丰度的结果一致,并提供粪便宏基因组可能携带用于鉴定早期crc的非侵入性生物标志物的原则证明。

  对于每个样品,如实施例1所述提取dna。本发明人如上所述进行qpcr。然后测定如seqidno:13和seqidno:16所示的每个标记的基因相对丰度。然后通过以下公式计算每个样品的指数:

  aij是样品j中标志物i的相对丰度,其中i指所述基因标志物集中的每个基因标志物;

  n是这些2个所选肠道宏基因组标志物中所有crc富集(病例)标志物的子集(即所选生物标志物中与异常状态相关的所有患者富集标志物的子集);

  其中crc富集标志物子集是如seqidno:13和seqidno:16所示的标志物;

  |n|是子集中生物标志物的大小(数量),其中|n|是2。

  其中大于临界值的指数表明受试者患有结直肠癌或处于发生结直肠癌的风险中。

  本发明人还使用两种基因标志物之一分别计算crc指数(表23)。仅使用1696299的roc曲线下面积为0.80(临界-6.762,真阳性率=0.6383,假阳性率=0.05505,图16),仅使用1704941的roc曲线下面积为0.69(图17)。结果表明,基因标志物1696299(seqidno:13)是强壮的生物标志物,也可用于对crc个体进行唯一的分类。

  本发明人首次通过用于粪便样品中的微生物生物标志物的负担得起的靶向检测方法证明了crc诊断的潜力。最近的两项研究报告了使用粪便微生物群的宏基因组测序的潜在crc诊断,其准确度与我们相同(在接受者操作曲线下面积方面)。虽然基于16s核糖体rna基因的研究使用5个操作分类单位来分类群体中的crc与健康样品,特别是没有任何交叉验证(j.p.zackular,m.a.rogers,m.t.t.ruffin,p.d.schloss,thehumangutmicrobiomeasascreeningtoolforcolorectalcancer.cancerpreventionresearch7,1112(nov,2014),通过引用并入本文),但宏基因组鸟枪研究使用22个物种水平分类单位,以在独立的群体中精确地分类crc患者(g.zeller等人,potentialoffecalmicrobiotaforearly-stagedetectionofcolorectalcancer.molecularsystemsbiology10,766(2014),通过引用并入本文)。本发明人已经显示,仅使用128个中国人中发现并在40个丹麦人中进行验证的两个基因标志物,本发明人可以在156名中国人的独立qpcr验证群体中准确分类crc患者与对照个体。通过使用在丹麦群体中验证的基因(来自微小小单胞菌的rpob基因)的分类潜力(从auc=0.73至auc=0.84)的显著改善重申了验证新发现的具有不同遗传和环境背景的独立群体的生物标志物的重要性。

  表22.所选2个基因标志物的引物和探针的序列信息

  表23156个样品的qpcr基因相对丰度和计算的crc指数

  表3与crc关联的img、motu和mlg物种,q值<0.05。对具有多于100个基因的106个mlg进行分组后,如果可以进行物种注释,形成85个mlg物种。

  尽管已示出和描述了说明性实施方案,但本领域技术人员将理解,上述实施方案不应当被理解为对本公开内容进行限制,并且可在不背离本公开内容的精神、原则和范围的情况下进行变化、替换和修改。

  序列表

  <110>bgishenzhenco.,limited

  bgishenzhen

  <120>用于结直肠癌相关疾病的生物标志物

  <130>idc170059

  <160>20

  <170>patentinversion3.5

  <210>1

  <211>816

  <212>dna

  <213>厌氧消化链球菌653-l

  <220>

  <223>分离自肠道,厌氧消化链球菌653-l

  <400>1

  atggccaaaacacctatcgtagataaggggtgcttcatatcgaatgatgttaaaaggtca60

  atagttttaaacctatgtgagactaagtcaatggatctaattgcaagagaacactgtgta120

  tctcctagtagtgttgccagaatacttcgtttaactgaagataggagaagaaaaaattat180

  cttcctaggattctatcaatagacgaattcaagtcagtaaatacagttgatgcgtctatg240

  agtgtaaatttaactgatttagaaggcggtcatatttttgatatcctggtggataggagg300

  caaagatacctctttgagtactttaattcctatcccttgaaggtcagaaaaagggtagaa360

  tatgtgactacagacatgtataagccatatattgatcttgccaagaaggtctttccaaat420

  gccaatattgtggtagataaattccatatagtacagctcttgacaagagagctaaacaag480

  ttaaggataaatgagatgaagaagcttaataccaggtctagagagtataaaatactgaag540

  agatactggaaaataccccttaggaagaagagagacttaaacagtatatatttttacaag600

  aataggcactttaaaaatatgaccagttcaattgatatattagactatatgttaaaggaa660

  tttcccaacttaaaagaggcctatgatttttatcaaaacttcctattaagtatatctaat720

  aatgatgtcgctatgcttgaagacattctaaatactaggactgatgaaattcccatgtgt780

  tttaggaagagtataaaaagccttaaaaagcttaga816

  <210>2

  <211>594

  <212>dna

  <213>未知的

  <220>

  <223>分离自肠道,未鉴定的

  <400>2

  atggcaatgctcactgtagaaaatatcaatgtatattacggcgtgatccacgcccttaaa60

  gacatctcctttcaggtaaacgaaggcgagatcgtcgcactgatcggcgcaaacggtgcc120

  ggcaaaaccaccaccctgcagactgtcagcggcatgctgagcgcaaagtccggttcgatc180

  cgatttcaggatcaggagatttccagaatgccggagcacaaaatcgtgaagcagggaatt240

  tcccacgtccccgaaggacgccggatgttctccaatctgacggttttggaaaacctgaaa300

  atgggcgcttacaccagaaaagacaagcaggaaatcaacaattccctggaaatggtttat360

  gagcggtttccccgcttaaaggaacgtacccgccagctggcaggaactctttccggcggt420

  gaacagcagatgcttgcaatgggacgtgcactgatgtctcatccgaagatcatccttctg480

  gatgaaccgtctatgggactttcaccgatttttgtaaatgagattttcgaaattatcaag540

  aaagtcagtgcagccggcacgaccgtacttctggtagagcagaatgcaaagaaa594

  <210>3

  <211>873

  <212>dna

  <213>未知的

  <220>

  <223>分离自肠道,未鉴定的

  <400>3

  atgaaacgtattttattaactggagcaagtggatttataggtaaaaacattaaagagaca60

  ttaaacagtaaatatgacatatggagcccgtcaagccaggagctggatttaaaagatacc120

  gaatgcgttgaagcatatttgaagcagcattctttcgatgtaatattgcatgcagcaaat180

  tgtaatgatacaaggaattccatatcagcatacgatgtactcaatggaaatctcagaatg240

  ttttttaacctagagagatgttctcactattatggaaaaatgatttattttgggtctggg300

  gcagaatatgacagaagtaataacatccctaatatgtcagaggactattttgataccagt360

  gttccgaaagatgcttacggactttcaaaatatattatggcaaaagcctgtttaaatcag420

  aagaacatttatgaattgtgtttatttggagtatacggaaaatatgaggaatgggagaga480

  agatttatctctaatgcgatatgtcgtgcattaaagggtatggatattacgcttcataaa540

  aatgtatactttgattatttgtgggtagatgacctcataaaaattatttcttttttcatt600

  gagaaagataacttgaggtacaagaggtacaatgtgtgtagaggcgagaaggttgatcta660

  tattcgctggcagtacaggtaaagaagactttggatagcgaatgttcaatattagttggt720

  gagcctggatggaagagggagtatactgcggataacaatagaatgttgaacgaaatgaat780

  ggtttatcttttacaaaactggaagtgacgatagctgaattgtgtgaatattataaagag840

  catttatcagaaatagttactgaaaaattgtaa873

  <210>4

  <211>1062

  <212>dna

  <213>肠道罗斯拜瑞氏菌xb6b4

  <220>

  <223>分离自肠道,肠道罗斯拜瑞氏菌xb6b4

  <400>4

  atggaaaaagtaaaggcattttgtaaacggaaaaacattgagatatccgtcaagcgctac60

  ctgattgatgcacttggtgcgatggcacagggattatttgcatcgcttttgatcggaacg120

  atcatcagtacacttggaacgcagcttaatattccgattcttgtgacagtcgggacttac180

  gcgaaagcggcagtcggaccggcaatggcgatcgcaatcggatatgcactgcaggcagcg240

  cctttagtactgttttcacttgcggcagtcggtgcggcggcaaatgaacttggcggggca300

  ggcggaccgcttgcggtacttgtggttgcaatttttgcagcagaatttggaaaagcagtt360

  tccaaagagacaaaaatcgatattattgtcactccgtttgtgaccatttttgtcggggtc420

  gcgctttctatctggtgggctccggcgatcggtgcggcagcgagtgcagtcggtaatgcg480

  atcatgtgggcaaccgagctgcagccgtttttcatgggaatcattgtatctgtgatcgtc540

  gggattgcactgacactgccgatcagcagcgcagcaatctgtgcagcacttggactgacc600

  ggattagccggtggtgcagcacttgccggatgctgtgcgcagatggtcggatttgcagtg660

  gcaagtttccgtgaaaataaatggggcggattgtttgcacagggaatcggtacatccatg720

  cttcagatgggtaatatcgtgaaaaatccgcgcatctggctgccggcgacattggcgtct780

  gcaatcaccggaccgatcgcaatgtgtctgttccatttacagatgaatggtgcagcagtt840

  tcctccggtatgggaacctgtggactggtcggacagattggtgtctatacgggatggatc900

  gcagatattgaagcgggaagcaaagctgccattacaccgatggactggatcggactgatt960

  ttcgtaagctttcttctgccgggcgttttatcatggctttttagtgtgttattccgtaag1020

  atcggctggatcaaagaaggcgatatgaggctggacttataa1062

  <210>5

  <211>627

  <212>dna

  <213>哈氏梭菌dsm13479

  <220>

  <223>分离自肠道,哈氏梭菌dsm13479

  <400>5

  atgcctatacttcagcagcttctcacattagtagagcagcacttcggtaacaaatgcgaa60

  atcgtgcttcatgatctgacaaaggattacaaccataccattgtcgatatccgaaacgga120

  gacattacccatcgttccatcgggggctgcggaagcaacttagggctggaagtcctgcgc180

  ggaaccgtgctggatggggatcgttttaactatgttaccaccacacaggacggaaagatt240

  ctccgttcctcatcgatctatctaaaaaatgatcagggcgaggtcatcggatcgatctgc300

  gtgaacctggatatcacagagacacttcagtttgaagggtatttacgccagtttaaccag360

  tttgacagctttacttccaacgacgaggagattttcgctcccgacgtgaataatcttctc420

  agccatctgattcagatgggacaggaacagatcggaaagcctgcgctggagatgaacaag480

  aacgagaagattgagtttatccgtttccttgaccagaaaggagcattcctcatcacgaag540

  tccggggaacagatctgtgaacttctgggaatcagcaaatttaccttttataattacctt600

  gaaagcagccgcagccagtcggattcg627

  <210>6

  <211>1161

  <212>dna

  <213>未知的

  <220>

  <223>分离自肠道,未鉴定的

  <400>6

  atgaaaatcaaacaattagcgaaaagcgcatcattcttgctggtggcaggttttatcagt60

  tttactattccgtcgtgtagcagtgaagaagaaatcatcatccttcaggatgtaaaagta120

  aacagtgaaagcttcaatctggccgaagacggcagtacgaccatagaagtcaaggtagta180

  cccgaaaatactccaatagccaaagccgtactcagcacatcattatttaatgaaagcggt240

  gttttcgaagtaacccgactcactcccaaaggtaacggtgtatggcagatagcagcaaaa300

  gtaaaggacttctcacgcattcaaaacggtcaggacgtaatactttccgtctatcaggaa360

  gataatatgtatatccaaaccacattgaaaataaacgacccatatagcatcgagggtaaa420

  tatacaccggtccatccgcaagcctttactttctacagtgccgaagacggcaaactgatg480

  gagattccgttcatcatcacagccgacaacgcagccgaccttgccgccatcagctacgac540

  aatataaaggtagtcaatggcaccggaagctctacacccagcataagtatcacacatttc600

  gcaatagctccgatgacaggtaaaacaggcttctatctgcaagtggataacgcccaactc660

  gaaacggtaaaaaaagccatcacaaccatcgcttttttggactgccgggttatgataacc720

  ggccctaacggccgtgttgcctatactcctgtgcgcctcattgtttcttctccgaagtgc780

  atcatcaaggacgaccaactcagcctgctgcatacagaattgtccgccccggagtttaat840

  agacaaatcaccatagatatgacccacgatttttatcgtttgggcaaacagaatgataaa900

  acaacctttgaggcgtttgaaaaccgaggcttgtataactcacaaggagaaatggcagat960

  gcagaccctcagttcatttcgttgggttataccactcagggcaaaaatacaacatgtaac1020

  gtaactttaaaacatgatgccacaattcctgcaatcggcacttaccacatggtagaacgc1080

  ctaaaaggatattgggaatatgacggaaagaaatatccgaccgtttgtacagacctgcaa1140

  ttccaaatcacgattaaataa1161

  <210>7

  <211>336

  <212>dna

  <213>粪杆菌属29_1

  <220>

  <223>分离自肠道,粪杆菌属29_1

  <400>7

  atggcgattgatactgaattagcaaaaagattacgttcatatcgtaattttaaacattta60

  acacaaaaagatgttgctgcgcatttaaatgttcctcattctgcaatttccgatatagaa120

  aatggtaaaagagacattactgttagcgagttaaaagtgttttcaaatttatatggtaga180

  agtgtagaagaaattatgagcgggaaaaaatatgactattataatattgccaatatcgct240

  cgtttacttactgaacttcctgatgatgatttaaaagaaatcatgtttattattgaatat300

  aaaagaaaaagaaatgaagaacgtcatttgaaataa336

  <210>8

  <211>945

  <212>dna

  <213>普氏栖粪杆菌l2-6

  <220>

  <223>分离自肠道,普氏栖粪杆菌l2-6

  <400>8

  atgaacagagaaacggtgaacatggtgcgcagtccgatttctgtggaggggaacatccgg60

  cttgttccgtattatccggcctacgatacagcacttgcgtggtatcaggatgcacagctc120

  tgcaaacaggtagataacagggacttcgtttatgatttgccgctgctgaagcggatgtat180

  cattatctggacacacacggggaactgttttatattgagtatcggggtgtgctttgtggt240

  gacgtcagcctgcggacgaccggcgagctggccatcgtcatctgcaaggagtaccagaat300

  aaacacatcgggcggaaggtcatcgaaaaaatgctggagctggctcgggaaaggggcttg360

  gcggagtgcttcgcgcacatctattctttcaatacccagtcgcagaaaatgtttgaatcc420

  attggctttgtcccacaggacgaagaacgctatatctacaaattgcaaaaaggagaaccg480

  actatgacaaaactgactctggaagaaaagcaggagctcatccggatggcccttgcggcc540

  agggagagggcttacgtgccttacagcgactttatggtgggcgctgccctgcgcgccgag600

  gatggccgtgtctttaccggctgccatgtggagaatgccgcctttacccccaccagctgc660

  gccgagcgcaccgcgctgttcaaagccgtgagcgagggcgtgaccaaatttacggacatc720

  gccgtggtaggctcccgccggggcgagatcaatcagcagatcacctcgccctgcggcgtc780

  tgccgtcaggcactgtttgagtttggcggcccggagctgaacgtcatcatggccaaaacg840

  ccggatgatttcatggagcgcagcatggatgagctgctgccctttggcttcggtccctcc900

  aatgtggcgggcaacaaggccgtggaagaggaagaaaaaggctga945

  <210>9

  <211>432

  <212>dna

  <213>厌氧消化链球菌653-l

  <220>

  <223>分离自肠道,厌氧消化链球菌653-l

  <400>9

  tatttttacaagaataggcactttaaaaatatgaccagttcagttgatatattagattat60

  atgttaaaagaatttcccaacttaaaagatgcctatgatttttatcaaaacttcctatta120

  agtatatctaataatgatgtggctatgcttgaagatattctaaatactaggactgataaa180

  ataccaatgtgttttaggaagagtataaaaagccttaaaaagtttagaaagtatgtggta240

  aattcactgaaatatgactatacgaatgccatggtggagggtaaaaacaacaagataaag300

  gtaattaaaagagtatcctacggatataggagttttaggaattttaaggcaaggataatg360

  ctaatggaaaggtataaaatacaaaagggcaacatccatagttatcagtttgctatggat420

  gctgccgcataa432

  <210>10

  <211>777

  <212>dna

  <213>未知的

  <220>

  <223>分离自肠道,未鉴定的

  <400>10

  atgaagaatatgataaaaatatttgaaaatgacgaattcggaaaagtgagaacagtcatt60

  aaggacggcgaaccgtggcttgtaggaaaagatgttgcggaaattttagggtattccaac120

  acaagggacgctctttcacgtcatgtggataccgaggataaaaccaccgtcgtgatttcc180

  gacagtggttcaaattacaagagcaagaccactattatcaatgaaagcggcttttacagc240

  ttagttctctcaagcaaaatgccgagagccaaagagttcaggcgttgggtgaccgccgaa300

  gtcctccccaccatcagacgcaccggcggctacgtttccaacgaggatatgttcatcaaa360

  aactatctcccctttctcgacgagccataccgtgacctgttccgacttcaaatgaccatt420

  atcaacaagctgaatgaacgtatccgccacgatcagccgctggtggagtttgcgaatcag480

  gtgtcaaataccgataatcttatcgacatgaacgcaatggcaaagcttgcgagagcggaa540

  aatatccccgtcggcagaaacaagctttacggctggctgaaaggaaaaggtgtgcttatg600

  gcaaacaatctgccgtatcaggcttttatcgaccgcggatatttttccgtaaaggagtcg660

  gtgtttgaaactgcgactatgacaaagacttatcagcagacgtttgttacgggcaggggg720

  cagcagttcgtcataaatttgctgaagaaatattatgggaaggaggttttgcaataa777

  <210>11

  <211>1935

  <212>dna

  <213>未知的

  <220>

  <223>分离自肠道,未鉴定的

  <400>11

  aatatccgatatggcaacggagctctggtagtagtccgggcaagggaaaaccttgtacat60

  ggcgaagcagagcagattaccttcaatactaaaatattagaaaggtgcgtgaggcatttg120

  agaaatccgattgaagtattgaaaactctacaagagaaagcaggcaacgagaactatcaa180

  tttgaacgcctgtaccgaaatctgtacaacgaggagtttttcctattggcatacggaaat240

  ctctctgcaaaagagggaaatctgaccaagggaacagacggcgccacaatagacggaatg300

  ggaatggagcggattcgcaagctgattgaaagcctgcggaaccacagttaccagccgtcc360

  cctgcgagacgtgcctatatcccaaaatctaatggaaaacggcgtccgttaggcataccc420

  tctgttgacgataagctggtgcaggaagttgtgaggttaattctcgaaagtgtgtatgaa480

  agcaatttttctgaacattcgcatggttttagaccgaacaggagctgtcacacggcactg540

  acccagattcaaagaaacttcacaggggttaaatggttcattgagggggacatcaaaggt600

  tattttgacaccatcgaccaccatatccttgtggatattttaagaaggcgcataaaggac660

  gaatacctaatctcgctgatatggaaatttctgaaagccggatacttagaagactggaaa720

  ttcaatcctacctattccggcactccgcaaggctcggtcatcagtccaatacttgccaat780

  atctaccttaacgaattcgatacctatgttgaagaatacatagagaaattcaaccgtggt840

  aaaagacgtgaaagaaacagtgagtatcgcttttatagtgatggcgcatcgaaactgagg900

  gtaaagtaccgcgggttatgggaaataatgacagccgatgaaaaagaaaaagccaaatgt960

  gaagtaaatgagctcatgaaaaaagcaaaacagattccagctatgaatccgatggacagc1020

  aattaccgccgtctgctctattgcaggtatgcggatgattttatttgcggagtaatcgga1080

  agcaaggaagatgcagaaaccatcaaggctgattttagccggtacctgaaagaaaagctg1140

  ggactggatatgtcggaagaaaagacactgattacacactcaaacgaaaaagcggcgttc1200

  cttggctacgaaatcgctgtttccagaagcaatgaatacaaaaagataagcaacggacag1260

  aaggcaagaacctttaatgggcgtgttcatctatttatgccacataataaatgggttaag1320

  aagctgaccagttgcggagcaatggaaatcaaacagcaggacggcaaagaaatatggaaa1380

  ccgcaggcgaggaaagacctcatcaacaaagagccgattgaaatcctaagcatttacaat1440

  gccgaaattcgtgggctgtacaattattattgtttggcaagcaacgtatgcaagctgcag1500

  aaatattactacatcatggaatacagcatgtaccagacgtttgcagcgaagtaccgtgat1560

  aatttgcggaaaacgattaacaagcatacccgaaacggcgtgtttggtgtcagctacact1620

  acaaaaaccggcaacgagaaacgggcgacattcgtgaaaggaagcttccaaaaacggact1680

  gtcagcttagattacagtgatgaaatcccctcttatcctgccgcaaaatatagtcggaaa1740

  aacggcttaattgagcggttacagggtggaaaatgtgaactatgcggacagcagaccgac1800

  aatgtaaaagttcatcatgtcaggaagctgaaagaattagccggtatgaaagaatgggaa1860

  agaaaaatggttcagatgaacagaaaaactctggttgtttgtaatacatgttatggaaac1920

  ataacaggcaagtaa1935

  <210>12

  <211>750

  <212>dna

  <213>卵瘤胃球菌atcc29174

  <220>

  <223>分离自肠道,卵瘤胃球菌atcc29174

  <400>12

  atgaaaggaaaaagagttattgcaggcattctgcttgcaggaattttagcagttaccctg60

  gcagggtgtaaaaacacagataacactaaagaagaatcagaaaagccggttattaccctc120

  ggcagcgatagctatccaccatacaattatctgaatgaggatggtgtaccgacgggcata180

  gatgtggaactagctacagaagctttcaaaagaatgggatatcaggtgaatgtcgtccaa240

  atcaactgggaggagaaaaaagaactggtagagagtggaaagatcgattgtatcatgggt300

  tgtttttctatggaaggacgtcttgacgattaccgctgggcaggggcgtacatagcaagc360

  cgtcaggttgtagcggtaaatgaggacagtgatatttataaattgagtgaccttgaggga420

  aagaacctggctgtccagtccacaactaaaccggaagttatatttctgaaccggttggat480

  aagagaatccacaaactgggaaatctgatcagtcttggacaccgcgagctgatatataca540

  tttcttgggaaaggatatgtagatgcagttgccgcacatgaggaatcaatcatccagtat600

  atgaaggattatgacatagacttccgtatcctggaagaatcgctgatgattacggggata660

  ggtgttgctttcgcaaaagatgatgacagaggaattgtgagcagatggaccagacccttg720

  aagaaatgcgtaaggatggcacgtctttga750

  <210>13

  <211>930

  <212>dna

  <213>微小小单胞菌atcc33270

  <220>

  <223>分离自肠道,微小小单胞菌atcc33270

  <400>13

  aatcaatttagaattggtttatcaagaatggagagagttgttagagaaagaatgtcaact60

  caagatccagaccttgctacgcctcaaggacttattaatataagacctcttgttgcgtct120

  ttaaaagaattcttcggttcttcacaattatcacaattcatggatcaaaacaatccactt180

  gcagaacttactcataagagaagattatcagcattaggacctggtggtcttagtagagat240

  agagcaggatacgaagtaagagacgttcatgaaagtcactacggaagaatttgtccgata300

  gaaactccagaaggtccaaacatcggtcttattacttctcttacaacttatgcaagagtt360

  gatcaatatggatttattgaaacaccatatcgtgttgtaaataatggaattgctacaaag420

  gacattgtttatttaactgctgatgaagaagatgaagttattatcgctcaagccaatgaa480

  ccacttgatgaaaatggacgttttgtaaacgaaagagtaagtggtcgtggtattaatggc540

  gaaaatgatatttatccaagagatacaattcaacttatggacgtttctcctcaacaaatt600

  gtatcagttggtacagcaatgattcctttccttgaaaatgacgatgctactcgtgcgttg660

  atgggttcaaacatgcaaagacaagcagtgcctctacttgttactgaagctcctattgta720

  ggaaccggtatagaacataaagcggcaagagatagtggtgttgttatcattgctaaaaat780

  tcaggaattgttacaaaagttgatagtgatgaaattcatattaaaagagatttagataat840

  gtagttgataaatatagattacttaaatttaaacgttcaaatcaaggaacaacaattaat900

  caaagacctatagttaatgaaaatgacaga930

  <210>14

  <211>858

  <212>dna

  <213>普氏栖粪杆菌kle1255

  <220>

  <223>分离自肠道,普氏栖粪杆菌kle1255

  <400>14

  atctccaaactggaaaaaacgctgcgggcacggttcccgaaaacgcagcagggcgaactg60

  ctggccggggcggtgctggccttctgcctgccggtgggcacctttctgctcacaagcgcc120

  gtgtgccttctggcggcaaaaatcagcccctggctcggccttgccgtgcagatgttctgg180

  tgcgggcaggcgctggcggcaaagggacttgtgcaggagagccggaacgtttacaacaag240

  ctggtaaagcccgacctgcccgccgcccgcaaggccgtgagccgcatcgtggggcgggac300

  accgagaacctgaccgccgagggcgtgaccaaggctgccgtggagactgtggccgagaat360

  gccagcgacggcgtgattgcgccgctgctgtacatgctgctgggcggcgcgccgctggcg420

  ctgacctacaaggccgtcaacaccatggacagcatggtgggctacaaaaacgagacctat480

  ctctacttcggccgggcggcggcaaagctggacgatatggcaaactacattcccagccgc540

  cttgccgccctgctgtgggcggcggctgctgccctgaccggcaacgatgccaaaggcgcg600

  tggcgcatctggcggcgggaccggcgcaatcacgccagccccaacagcgcccagaccgaa660

  agcgcctgcgccggtgcgctgggcgtgcagctggccgggccggcctactactttggcgaa720

  tactacccgaaacccaccatcggcgatgccctgcgccccattgagccgcaggacatcctg780

  cgggccgaccgcatgatgtacgccgccagcattctggcgctggtgctcgggcttgtgata840

  cgggggttcgttgtatga858

  <210>15

  <211>1206

  <212>dna

  <213>未知的

  <220>

  <223>分离自肠道,未鉴定的

  <400>15

  atgaggttattttttgatatggtatgtaacggcagggcattgcaaaatgtacaaatgtat60

  aaattgaatatggttttagatgtacacccctatgctattacagcaccgtcaaaaactggt120

  ggccgttggcagacatatgtaaaggaaggtgataagcgtaagattataagggcttcttca180

  aaggaaaaactaatggacaaattatatactgcctattttgttcaaaatggtgtttctggt240

  atgaccatggacaagctttttctcgaatggttagcttataaggaatgtatcacaaatagt300

  atgaatacgattcgcagacatgaacaacactggaaaaagtattttcaggatatttcccca360

  aataaggtatcttcctatgatcgtctggaattgcagaaagaatgtaatcagttaataaaa420

  gttaataacctttcttccaaagaatggcagaatgtaaaaacaattcttttaggtatgttt480

  gactatgcctttgaaaaaggatatattaatacaaaccccatgcccagtattaaaatcact540

  gttaaattccgtcaggtcaataaaaagagtggtaggactgaaacatatcagacagacgaa600

  tacaaagcacttatgcaatatctagatgcagaatatacagctacagaagaccttgcttta660

  ttggctgttaaatttgatttttttattggatgccgtgttgctgagttggtagctctcaag720

  tggtgtgatgttgaaaatctacggcatttacatatttgtagggaagaggttaaagagtct780

  gtccgtgttggtgatacctggaaagatgtttataccgtttcagagcatactaagacatat840

  acagaccggtctataaatttagttcctaatgcgattgctattttaaatcatatccgtctt900

  aaaatggcttataatgtatctgacgatgattatatctttacccggaacggttcccggatc960

  acttcacgccagattaattatattcttgaaaaagcatgtacaaaactgggaattatgatt1020

  aagaggtcgcataaggtaagaaaaacggttgcaagtcgtctcaatgtcggtgaggttccg1080

  ttagattctattcgtgagctgttaggtcatgcaaatttaagcactacactaagttatatt1140

  tataatccgttatcggaaaaagaaacctataacctgatgtccagagccttggggaaagtt1200

  caatag1206

  <210>16

  <211>687

  <212>dna

  <213>具核梭杆菌文森亚种atcc49256

  <220>

  <223>分离自肠道,具核梭杆菌文森亚种atcc49256

  <400>16

  tctgcaaaagaaaaagttgctgcattagttgctgcattaaaagcagatggatatgatttt60

  actgttggtatccctcttgatacaccaataggaaaatctgaaagagttgtaagtgctggt120

  aaagggattggagataaaaagaatatgaagctaattgaaaacttagcaaaacaagctgga180

  gcttctattggttcttctcgtccagtggcagaaacattgcaatatgtacctcttgaccgt240

  tatgtaggaatgtcaggacaaaaatttgttggaaacctttatatagcttgtggaatttca300

  ggagctttacaacatttaaaaggaattaaagatgcaacaacaatagttgctataaataca360

  aactcaaatgctccaatatttaagaatgcagactatggaatagttggagatttagcagaa420

  attttacctttattaactaaggaattagataatggagaagctaaaaaagatgcaccacct480

  atgaagaaaatgaagagagttatacctagagtagtgtatagtcctcatgtatatgtatgt540

  agtggttgtggacatgaatacaatcctgatttaggagatgaagattctgacataaaacca600

  ggaactagatttaaagatttaccagaagattggacttgtcctgattgtggagatccaaaa660

  tctggatatatagatgcaaaaaaataa687

  <210>17

  <211>1401

  <212>dna

  <213>普氏栖粪杆菌m21/2

  <220>

  <223>分离自肠道,普氏栖粪杆菌m21/2

  <400>17

  atgccgaacgaacgacattactccaatgaactgaatctggaaagcgtgggcatcaatctg60

  ccctacaacatgcaggccgagcagagcgtgctgggtgcggtgctgctcaagccggaaaca120

  ctgaccgacctggttgagatcatccggccggaaatgttctacacccggcagaacgcccaa180

  atttattcggaaatgctccggctgttcaccagcgaccagaccattgatttcgtcaccctg240

  ctggacgcggtcatctcagacggcgtgtttcccagcgcggacgaggcgaaagtctacctg300

  accggtctggccgagacggtgcccagcatctccaacgtgaaagcctacgcccagatcgtg360

  caggaaaaatatctggtccgccagctcatgggtgtggcgaaagatatcttgcaggatgcg420

  ggcgacgagccggacgcggacctgctgctggaaaacgccgagcagcgcatttatgagatc480

  cgctccgggcgggattccagcgccctgacgcccctttcttccagcatggtggaaacgctg540

  accaatctgcagaagatcagcggcccggatgccgataagtacaagggcatccctacaggc600

  ttccgcctgctggacaccgtgctcaccggccttggccgcggcgaccttattattctggct660

  gcccgccccggtatgggcaagaccagttttgcgctgaacattgccacccgcgtggccatg720

  cagcagaaagtaccggtggccatcttcagcctcgaaatgaccaaggagcagctgaccaac780

  cggatcctctcggcggaggccggcatcgacagccaggcgttccgcaccggcgccctccgg840

  gcggaggactgggagtacctggcccttgccaccgagaagctccatgacgcgcccatttat900

  atggatgacacctcgggcatcaccatcaccgagatgaaagccaagatccgccgggtgaac960

  caggaccccagccgccccaatgtggggctcatcgtcatcgactatctgcagctgatgacc1020

  acgggccagcgcaccgagaaccgtgtacaggagatcagctccatcacccgaaacctcaag1080

  atcatggccaaagagatgaatgtgcccatcattgcgctgagccagctgtcccgtgcggtg1140

  gaaaagcagggcaacaactcctcccaccgcccccagctgtccgacctgcgtgattccggt1200

  tccatcgagcaggacgccgactgcgtgctgttcctctaccgtgattcttattacgccagc1260

  cagaacccggacggtgccgaggtggacgccgacacggccgagtgcatcgtggccaaaaac1320

  cgccacggtgagaccagtaccgtgccgctgggctgggatggtgcccacacccgctttatg1380

  gatgtggacttcaaacgctga1401

  <210>18

  <211>504

  <212>dna

  <213>共生梭菌wal-14163

  <220>

  <223>分离自肠道,共生梭菌wal-14163

  <400>18

  atggttgcacttgtatggctactgattgaaatgaaatataaaatcagtgtcccatctcca60

  ctgttgctcagcatggtttacaaacttttgcttccggctatgcctgcctatcttctggct120

  aaaatcccctctgggaaattaacggccagcttgagaagaatgccgatttctacccatatc180

  atgcttgtattgatcgtcatgctccgctttgcgccgactgtgctgcatgaatttggagaa240

  gtcagggaagccatgaaaattcgtggcttcttaaaatcggtcggtaatgttttgaggcat300

  ccaatggacacgttggaatacgccattgttccgatggtgttccgctccttaaagatcgcg360

  gacgagttagcagcttctgccatagtcaggggaattgaaagcccctacaagaaagaaagc420

  tactatgtcagccggatcgctgcgctggattactttttgattgttgtcagcgtgggagct480

  gccgtgtgctgctgtcttttatag504

  <210>19

  <211>1305

  <212>dna

  <213>未知的

  <220>

  <223>分离自肠道,未鉴定的

  <400>19

  atgttagcaatcgtaggtttattaactatcctggtcgtaatgtttctgattatgacaaaa60

  aaatgttcgactctggtcgcactgattgcagttcccatgattgcatgtgttattgtgggt120

  cagggcgccgatatgggagggtacataacggccggtatcaaaagtgtggccgccaccgga180

  gtcatgtttatttttgcagtggcctttttcggtgtcatgggtgatgtgggtgcatttgaa240

  atcgtagtgaataaaatactcaggattattgggaaagatcctttgaaaatctgtatcggc300

  acgctgattatcacattgatgacccacctggacggctccggcgcaacgacatttttgatc360

  acaataccggcgctgctgccgatatacgataaattgaagatggatcggcgtgtgctggca420

  actatagtggcggcaggagcaggaaccatgaatctcgtcccttggggagggccgacgatc480

  cgagcagcgacggcactggaggtctcactgaccgagctttacaatcctatgattgtccct540

  cagctttgcggagtcgccgcctgcgtgacagtggcggtgatgtttggcctgaaggaacgg600

  aaacgtttaaaagggactctggaatctgtttcggtagagcctccgaaatttgaggactta660

  ccggaggaggagagagtgaaacgccgtccccaccttgtctggtttaacattctgctcatt720

  atagttacaattgtgtcattggttatggagcttttgccgccggccggctgttttatggcg780

  gcgctgtgcatcgcaatgctggttaactaccgtgatttaaaggatcagggaaaacggatg840

  gacgagcatgcggtagcggccatgatgatggcatccaccctgtttggcgcaggctgcttt900

  accggtatcctgggaggctgcggcatgctggaagcgatggcccagggactctgtgatatt960

  ctcccggtagccattatgggtcacattgcgattttggtggcagttttctccatgcctctg1020

  tcgctgatgttcgatccggacagcttctactatgcagtacttccggtaattgcagtggcg1080

  gccgaggtggccggtgttccggcattggcagtgggccgcgcggcgatatgcggacagatt1140

  actgttggattccccatttcaccactgactccatccaccttccttctgacaggactaacg1200

  ggcgtggatctcggggaccatcagaagcacagtttcgtgtggctgtggctgatttccctg1260

  acgattgtgctggttgccgtggtgatgggcgtaattccggtatag1305

  <210>20

  <211>708

  <

上一篇:描写我的继母的作文
下一篇:我眼中的美作文400字