模拟样本解决了多样性估计和浮游动物元条形码数据定量解释中的偏差_综合资讯

　　元条形码是海洋浮游动物生态学中一个迅速发展的工具，尽管大多数浮游动物调查仍然依赖于视觉识别来监测目的。我们试图通过对313- bp的序列进行测序来解决与元条形码相关的一些偏差。对来自北海的34个“模拟”样本的COI基因片段进行了预分类，并获得了每个物种和分类群的生物量和丰度估算。样品在97%乙醇中保存或在65°C的干燥箱中脱水24小时(用于干重测量的常规保存样品方法)。目视鉴定共获得59种独特的全浮游生物和16种独特的浮游生物种/分类群。元条形码识别出了86种全浮游生物和124种浮游生物物种/分类群，其中包括除了3种之外的所有视觉识别物种，以及许多难以识别的甲壳类动物、水螅类水母和底栖动物的幼虫。在样本对样本的基础上，通常90-95%的目视登记物种被恢复，但假阳性的数量也很高。我们证明了大多数分类类群的相对序列丰度与相对生物量的强大相关性，并开发了不同分类群的转换因子来解释测序偏差。然后，我们将调整后的测序数据与整个样品的单个散装生物量测量相结合，以产生类似于物种生物量的定量参数。通过多元统计分析，该参数(我们称之为BWSR (biommass - weighted sequence reads))显示出与物种生物量非常相似的趋势和与物种丰度相似的模式，突出了元条形码不仅在生物多样性估计和物种存在/缺失映射方面的潜力，而且在浮游动物群落定量评估方面的潜力。

　　海洋浮游动物在海洋生态系统中发挥着至关重要的作用，将初级生产者与更高的营养水平联系起来，并促进营养物质的生物地球化学循环。它们也是海洋环境健康状况的指标，可以为了解气候变化、污染和其他人为活动对海洋的影响提供有价值的见解(Ferdous和Muktadir, 2009;Ndah et al. 2022;Yang and Zhang 2020)。然而，许多重要的生态指标，如敏感或入侵物种的存在或相对丰度，依赖于准确的物种水平数据，这仍然是许多浮游动物研究的瓶颈，因为人工分类和识别浮游动物样本需要时间和分类学专业知识。

　　分子技术的最新进展使研究海洋生物群落的规模和分类学分辨率达到了前所未有的水平，而且正迅速变得越来越便宜。更具体地说，元条形码，或同时对一个群落样本中所有生物感兴趣的DNA条形码区域进行测序，允许同时分析100秒到1000秒的样本(Gaither et al. 2022)。元条形码避免了显微分类和更现代的基于视觉的识别方法的许多局限性，因为它可以区分任何发育阶段的生物，隐藏物种或那些在防腐剂中失去其特征的物种。元条形码也可能比传统方法更具成本效益，特别是对于大规模监测研究，因为它需要较少的训练有素的人员，并且可以在很大程度上实现自动化。然而，仍然存在方法上的挑战和限制，必须妥善解决，包括条形码的选择，PCR偏差和不完整的参考库(Bucklin等人，2016;Santoferrara 2019)。最重要的是，尽管越来越多的证据表明，通过元条形码产生的序列号至少在一定程度上代表了环境中生物体的相对组成，但将元条形码数据用于定量的群落分析仍然是一个挑战(Bucklin et al. 2016)。浮游生物生态学中最常见的定量参数，生物体的丰度，由于生物体的大小和DNA含量的巨大范围，通常与序列号的相关性很差。这甚至可以包括属于同一物种的生物，例如，一只Calanus spp.的个体在卵和成虫阶段之间的温度变化在0.2到140μg C之间，或4个数量级(即M?ller et al. 2016)。在生物生物量方面观察到的相关性要好得多，特别是在某些类群中，如桡足类(Ershova et al. 2021;Hirai et al. 2017;Lamb et al. 2019;Matthews et al. 2021)，尽管对于大多数分类群来说，这些关系通常还远远不够完美，可能是由于PCR偏差以及相似权重的分类群之间的DNA密度不同。

　　在这项研究中，我们采用模拟样本的方法来量化和解决元条形码在恢复生物多样性和估计物种相对贡献方面的偏差。我们充分利用了生物生物量和序列号之间的关系(Ershova et al. 2021;Hirai et al. 2017;Krehenwinkel et al. 2017;Schenk et al. 2019)引入一个直接框架，将元条形码作为浮游动物监测研究中的定量方法。我们对COI条形码基因的313个碱基对片段(“Leray”片段)进行了测序，该片段已被证明在多种海洋无脊椎动物(包括浮游动物)的物种水平上成功恢复了生物多样性(Antich et al. 2019;Ershova et al. 2021;Wangensteen et al. 2018)。我们试图纠正一些PCR偏差和其他导致不同生物测序不均匀的因素，假设在测序数据中特定分类群的代表性不足或过高是一致和可预测的。我们通过开发适用于整个数据集的物种或分类群特定转换因子来实现这一点，并使生物体生物量和序列读数之间的关系更接近统一。然后，我们将这些数据与整个样本的单个散装生物量测量相结合，产生类似于物种生物量的定量分子变量，然后可用于绘制物种分布和密度，分析群落结构，并估计各种生态系统指标。此外，我们还测试了两种不同的浮游动物DNA保存方法，以评估保存方法对所得结果的影响。我们认为，这项工作所描述的协议可以成为未来研究海洋浮游动物群落和帮助更好地了解海洋生态系统功能的有价值的工具。

　　取样和模拟样品制备工作于2022年4月在“RV Johan hort”号上进行的IMR北海生态系统巡航期间完成(图1，补充材料1)。使用WP-II网(0.25 m2开口，180μm网眼尺寸)收集浮游动物，该网从海底5米处垂直拉起。在其中两个站点(418和423站点)，使用多网猛犸(Hydrobios)获得样本，该多网猛犸网有一个180微米的网，包含9个网，当船以1公里的速度移动时，从海底上方5米斜拉。此外，在几乎每个站点，使用GULF VII网获得补充样本，网目尺寸为280微米，也从100米深度斜拉。

　　图1

　　取样位置。黑点表示使用垂直拖曳的WPII网采样的站点，红点表示使用斜拖曳的多网猛犸网创建模拟样本的站点

　　从WP-II网(16个站点)或多网猛犸网(2个站点)的最深网中获得了一小部分子样本(通常为总样本的1/8)。用几滴碳酸海水固定动物，然后在体视显微镜下进行分类，选择200-500只动物来制作“模拟”样本。该样本还补充了相应站点的GULF VII网中较大和/或较稀有的动物。根据这种方法，样本内的多样性反映了该地点的真实环境多样性(即，只使用来自给定站点的动物来创建样本)，但它们的相对丰度在很大程度上是人为的。样本的创建是为了最大限度地提高不同样本中不同分类类群的多样性和不同贡献。尽管许多生物鉴定是在属或更高的水平上进行的，特别是在幼虫/幼虫阶段，但在可能的情况下，生物鉴定是在种水平上进行的。如拟桡足类和拟桡足类分别被鉴定为伪/拟桡足类，finmarchicus和C. helgolandicus被鉴定为Calanus spp，所有的calanoid copepod nauplii被鉴定为Calanoida。浮游生物一般按门或纲进行分类。使用ZoopBiom数字化系统(Roff and Hopcroft 1986)测量每只动物的体长，并使用该物种或类似物种发表的长度-权重回归关系估算其生物量(详见Ershova et al. 2015)。虽然这种估算生物量的间接方法存在相关偏差，特别是对于长度-重量关系数据有限的群体，但它允许估算物种重量，而无需对每个生物群体进行劳动密集型的称重。样品总生物量通过将所有个体干重值相加来估算。在样品制备过程中戴上丁腈手套，所有的盘子和分选工具在样品之间用10%漂白剂冲洗，以避免污染。在大多数位置，每个站点创建两个样品:一个在100%乙醇中保存，另一个用淡水冲洗并放置在预称重的铝托盘上，然后在65°C下干燥24小时。每个站点的这两个样品设计在数量和组成上非常相似，但不完全相同。总共从18个站点制备了33个样品(17个通过干燥保存，16个在乙醇中保存)。

　　在实验室中，用几滴MilliQ水重新构成干燥的样品，并将乙醇排干并用MilliQ水代替。使用2 × 150 Precellys机器将样品均质于含有陶瓷珠的2 ml管中。将所得匀浆取3个100μl的重复，并根据制造商的方案使用Qiagen Blood and Tissue Kit从每个重复中提取DNA。使用单独标记的lay - xt引物对COI进行PCR扩增:正向引物mlcointf - xt 5′-GGWACWRGWTGRACWITITAYCCYCC-3′(Wangensteen et al. 2018)和反向引物jgHCO2198′- taacytciggrtgiccraaraayca -3′(Geller et al. 2013)。Ershova et al. 2021详细描述了试剂和PCR方案。以样品为阴性对照，对两个提取空白和两个PCR空白进行测序。PCR产物在凝胶上可视化以确保没有污染，然后使用Minelute PCR纯化柱(www.qiagen.com)进行纯化，并汇集到单个文库中。使用NextFlex无pcr文库制备试剂盒(perkins - elmer)制备Illumina文库，然后使用?V3 2 × 250-bp试剂盒(Illumina)在Illumina MiSeq上测序。

　　生物信息学管道紧随Ershova等人，2021。配对末端reads与obittools v1.01.22 (Boyer et al. 2016)中的illuminapairedend进行比对，比对评分< 40的reads被丢弃。去除引物序列，使用ngsfilter将reads解复用并分配给单个样本。使用obigrep选择长度为299-320 b.p的Reads，并使用obiuniq进行去重复。然后使用vsearch v1.10.1 (Rognes et al. 2016)中实现的uchime_denovo算法(Edgar et al. 2011)去除嵌合序列。去除单子(丰度为1 read的序列)，并在SWARM 3.0.0中逐步聚类(mah

　　等人，2021)，使用距离值d=13 (Antich等人，2021)，将单个序列聚类为分子操作分类单元(MOTUs)。然后使用ecotag (Boyer et al. 2016)对自定义参考数据库DUFA-Leray v.2020-06-10(可从github.com/uit-metabarcoding/DUFA公开获取)对代表性序列进行分类分配，该数据库包括从BOLD和Genbank提取的Leray片段序列，并补充了内部生成的序列。这种方法使用基于系统发育树的方法，当一个序列不能产生完美匹配时，它识别至少与最近的序列相似的分类群，并将其分配给它最近的共同祖先，通常会导致更高的等级，如属、科或目。如果数据库中没有足够的相关序列来执行此分析，则应用人工阈值(属相似性为95%，科相似性为90%，目相似性为85%，类相似性为75%)。结果数据集使用LULU (Fr?slev et al. 2017)对假定的假基因序列进行了整理。接下来的改进步骤包括去除原核生物和非浮游生物(如哺乳动物)的motu，并使用BOLD(生命条形码数据库，www.boldsystems.org)使用物种级别的条形码记录对所有motu进行第二次人工分类检查。物种水平鉴定的相似性至少为97%。一些MOTU产生了不止一个物种水平的匹配，并在个案基础上进行处理，参考来源的可信度和已知物种分布在最终分配中起主要作用。在完成所有生物信息学步骤后，对每个样品合并三个提取重复。

　　所有的分析都是在R中进行的(R Development Core Team 2011)。在整个数据集和每个样本的最低共同分类分辨率下，计算了所有分类群的相对生物量、丰度和序列读数之间的Pearson相关系数(r)。利用简单线性回归建立了各物种/分类群的丰度/生物量比例与序列reads比例之间的回归关系。所有变量均进行平方根变换，以满足同方差假设。为了最大限度地提高生物量和序列读数之间的可比性，对于斜率小于0.6或大于1.4且具有统计学意义(p < 0.05)和相对较强(R2 > 0.3)关系的生物量和序列读数之间的可比性，我们使用直线斜率来引入整个数据集中每个物种/分类群的线性调整因子，使用方程，其中n为给定物种/分类群的序列读数数，s为回归方程的斜率。T为该样本内序列读取的总次数。该公式对给定分类群的序列读取数进行调整，以线性因子s改变其在T个reads样本中的比例。由于改变一个物种的读取数必然会改变样本中所有其他物种的相对贡献，因此按照最大相对序列读取丰度递减的顺序依次对每个物种或分类群应用调整因子(即:首先处理对相对reads数影响最大的分类群/种)，每次调整后重新计算T。只有在至少5个样品中通过元条形码和显微镜观察到的物种/分类群才被纳入分析。用于计算和应用这些转换因子的R代码可在补充材料2中获得。

　　然后将各物种/类群的序列reads比例乘以样品总生物量(mg DW)，计算各物种的生物量加权序列reads (BWSR)。模拟群落分析使用丰度、生物量和BWSR数据，使用“vegan”包装进行(Oksanen et al. 2016)。此外，为了直接比较BWSR和生物量估计，创建了一个“池”数据集，其中每个样本代表两次，一次是BWSR，一次是微观估计的生物量数据。对于每个数据集，对四根变换数据的布雷-柯蒂斯不相似度进行非度量多维标度(nMDS)。在p=0.05的显著性水平上，使用函数enfit识别显著驱动排序的物种，并以双标图显示。此外，我们对所得的不同矩阵进行了分层聚类分析(平均链接法)，并通过simprof工具(Clarke et al. 2008)识别聚类(“组合”)，alpha水平为0.05。最后，使用Mantel置换检验(Mantel and Valand 1970)检验了bry - curtis差异矩阵丰度、生物量和BWSR之间的相关性，该检验计算了两个矩阵中所有条目之间的Pearson相关系数，同时对矩阵的行和列进行9999次置换以确定统计显著性。仅在至少一个样本中贡献至少3%的转化生物量、丰度或BWSR值的分类群/物种被用于分析。由于样品中物种的相对组成是人为修改的，因此这些分析更多地是为了证明该方法的概念，而不是准确地描述该地区的群落。

　　摘要

　　介绍

　　材料与方法

　　结果

　　讨论

　　结论

　　参考文献

　　致谢

　　作者信息

　　道德声明

　　补充信息

　　相关的内容

　　搜索

　　导航

　　＃＃＃＃＃

　　测序运行共产生8,165,891个序列，每个重复的序列在15,000至182,000个读数之间(平均=82,500)，每个样本(跨越3个重复)的序列在70,700至457,101之间(平均250,000)。提取空白产生200-400个reads, PCR空白产生100-150个reads。乙醇样品和干燥样品在恢复的DNA浓度和测序深度上没有差异，因此在此之后，两种类型的样品都被用于所有分析(图2a和b)。绝大多数样品的稀疏曲线达到渐近线，这表明该测序深度足以恢复全部或大部分多样性(补充材料3)。

　　图2

　　范围为DNA浓度，b测序深度和c在乙醇保存和脱水样品中恢复的多样性

　　目视鉴定结果显示，在所有样品中，共有59种独特的全浮游生物和16种独特的浮游生物物种/分类群，每个样品的典型分类群数量在15 ~ 40之间。元条形码共鉴定出357个MOTU位点，其中种级228个，属或科级19个，目或纲43个，高阶10个，其余57个未鉴定。其中，282个MOTU属于全浮游生物或浮游生物(鱼类或底栖动物)，分别对应于全浮游生物和浮游生物的86种和124种独特的物种/分类群(补充资料4)。该列表包括了除4种外的所有目测物种(褐微藻、2种尾尾动物和1种怪物类桡足动物)。乙醇和干燥样品之间的物种丰富度没有差异(图2c)。通过测序确定的其他物种包括几种难以识别的甲壳类动物、水螅类水母和底栖动物的幼虫。例如，目视鉴定类群Pseudo/Paracalanus spp.由5种不同的物种组成，在不同的站点发现的比例不同，其中Paracalanus parvus在数量上占主导地位。

　　在样本对样本的基础上，通常90-100%的登记物种/分类群通过元条形码恢复(平均93%)，“假阴性”(未通过元条形码检测到的物种)的数量从未超过1-4种。然而，“假阳性”(通过元条形码识别但在最低的常见分类学分辨率下未被肉眼检测到的物种)的百分比很高，在许多样本中，总多样性是其两倍或三倍(图3a)。当只包括在样本中贡献至少0.01%总读数的物种时，所有站点的假阳性百分比减少到10%以下，但假阴性百分比上升，因为一些“真实”物种开始下降到阈值以下(平均85%的物种恢复)(图3c)。将检测阈值进一步降低到总读数的0.1%，假阳性减少到每个样本不超过1-5个物种，但平均只有60%的“真实”物种被恢复(图3d)。无论应用的阈值限制如何，假阳性通常只占总读取量的很小比例。然而，在6个站点，它们占总序列读取量的10%以上，在3个站点超过25%(图4)。这些高贡献通常是由1-2个物种引起的。

　　图3

　　仅通过元条形码(绿色)、仅通过显微镜(红色)和两种方法(蓝色)恢复的物种数量;一个完整的数据集;B 0.001%， c 0.01%，和;D对样品的0.1%的贡献。物种以最低的共同分类分辨率进行计数

　　图4

　　属于假阳性的读数与确认存在的物种的比例

　　在所有样品中，目视观察到的未通过元条形码检测到或经常低于0.01%检测限的物种包括非常小的桡足类，如Acartia spp.、Detrichocoryceaus sp.和Oncaeidae，以及一些浮游生物类群，如双壳类和腹足类幼虫。另一方面，经常被检测为“假阳性”的生物包括大型桡足动物、几种水母、鱼类、cirripeds、腹足动物和毛囊动物Parasagitta elegans。

　　在最低的共同分类水平上，每个物种/分类群的相对丰度和相对生物量都与整个数据集的相对序列读数相关，其中生物量的相关性(r=0.57)强于丰度(r=0.41)。在每个样本中，相对生物量与序列数的相关性在0.15到0.95之间变化(补充材料5)，相对丰度与序列数的相关性在0到0.92之间变化。当使用简单的线性回归检查所有样本中单个分类群的相对贡献时，几乎所有常见的分类群，无论是生物量和序列数(图5a和表1)，还是丰度和序列数(表1)，都存在统计学显著(p < 0.01)的相关性。与生物量的关系通常更强，但对于桡足类和翼足类的一些物种，丰度与相对序列读数的相关性较好(表1)。与生物量的相关性最强的是几种非桡足类甲壳类动物:大腹虫(R2=0.83)、卷皮类(R2=0.88)、介形虫(R2=0.89)、十足类(R2=0.64)以及棘皮类幼虫(R2=0.74)。大多数桡足类物种与生物量呈中等相关(R2在0.4 ~ 0.6之间)。双壳类幼虫与刺胞动物的相关性最弱(R2=0.31)。只有Calanus helgolandicus/finmarchicus的斜率与0有显著差异，但在40个物种/分类群中，有22个物种/分类群的斜率与1严重偏离(小于0.6或大于1.4)，表明相对于它们对样本的估计生物量贡献，它们在测序数据中的代表性始终过高或过低。这种偏差在丰度数据中更为强烈，40个物种/分类群中有29个与1有强烈偏差。引入物种或分类群特异性线性转换因子后，生物量的斜率均在0.6-1.2范围内(图5b和表1)。由于改变一个物种的reads数也会影响其他物种的相对丰度，这改变了几个分类群的关系强度(显著性保持不变)。有12种/类群的R2增加了0.05以上，有5种/类群的R2降低了0.05以上。其余的关系保持不变(表1)。在整个数据集中，相对生物量和序列数之间的总体Pearson相关性从0.57提高到0.77。与这种高相关性相一致的是，在所有被检测的分类群中，调整后生物量的空间分布(序列读取的比例乘以总样本生物量)与生物量的趋势非常相似，尽管不完全相同(图6)。

　　图5

　　选择类群的生物量的平方根转换比例(从显微镜估计)和平方根转换比例序列计数之间的回归;原始资料一份;B数据经物种/分类群特异性线性转换因子调整。统计汇总及所有种/分类群见表1

　　表1回归关系总结平方根变换比例干重(DW)/丰度与平方根变换比例序列之间的关系邻接的)数据

　　图6

　　所选分类群的生物量空间分布(由显微镜估计)和生物量生物量(由元条形码估计)

　　通过Mantel检验，丰度与生物量、丰度与BWSR、生物量与BWSR的布雷-柯蒂斯差异矩阵的r值分别为0.52、0.54和0.73(显著性p < 0.001)，表明它们之间存在中等至高度的线性相关性。因此，对三个参数(丰度、生物量和调整后的生物量)的多变量分析显示，每个数据集的模式略有不同，但互补性很强(图7)。所有三个nMDS排序上的样本分离都是由3组物种驱动的，尽管不是全部，但有些物种在数据类型之间共享。总体而言，由于更高的分类分辨率，元条形码数据集在每个组中包含了更长的物种列表。所有三个排序包含一个非常独特的组合，包含两个多网站(组1，图7上的浅蓝色)，其特征是在其他样品中不存在的各种深水和冷水物种。同样，所有三个数据集都包含与东南地区相关的组合(第2组，图7上的粉红色和深蓝色)，以Sagitta/Parasagitta spp.(所有三个数据集)，Calanus finmarchicus/helgolandicus(生物量和BWSR)， Aglantha digitale(丰度和生物量)和Candacia armata(丰度和BWSR)为特征。北部/西部组(第3组，图7上的深紫色和深绿色)由cirripeds(所有3个数据集，由BWSR数据中的4个不同物种代表)、Acartia spp(所有3个数据集，BWSR数据集中的Acartia tonsa)、Pseudo/Paracalanus spp(所有3个数据集，BWSR数据集中的pseudoalanus elongatus)、十足类幼虫(丰度和BSWR，由BWSR数据集中的5个物种代表)和多毛类幼虫(丰度和BSWR, BWSR数据集中的5个物种代表)驱动。以BWSR数据集中的4个物种为代表)。在最低共同分类学分辨率下，通过simprof程序对调整后的bwsr /生物量数据集进行聚类分析，鉴定出9个聚类(“组合”)。在33个样本中的30个样本中，显微镜下获得的数据点被放置在与其BWSR对应的相同组合中。同样，在同一站点收集的乙醇/干样品在除两个实例外的所有情况下都放置在相同的组合中，这是由于子样品的相似性所预期的。nMDS排序部分解决了复杂性(2D应力=0.21)，并在一定程度上支持了簇的分离，尽管有些簇比其他簇更明显。与之前的分析类似，最明显的组合包括用深度多网收集的两个站(图8中的灰色部分)。尽管位置略有不同，但BWSR/生物量数据点在nMDS排序上遵循非常相似的模式。

　　图7

　　四根变换的nMDS排序和聚类分析结果丰度(通过显微镜估计);b生物量(通过显微镜估计)和c生物密度(通过元条形码估计)数据，以及北海集群的空间分布。颜色表示相似度约为30-40%的聚类，由simprof识别。蓝色虚线连接在同一站点采集的样本。箭头表示物种的双标图与排序显著相关(p < 0.05)，双标图在空间上紧密相连，分为1-3组。为了更好的可读性，每组中代表双标图的物种列在标图下面

　　图8

　　四根转化生物量的nMDS排序和聚类分析结果与最低共同分类分辨率下的BWSR数据，以及北海地区聚类的空间分布。颜色表示相似度约为30-40%的聚类，由simprof识别。蓝色虚线连接同一站点采集的样本，黑色实线连接同一样本的BWSR/生物量数据。箭头表示物种双标图与排序显著相关(p < 0.05)

　　宏基因组方法越来越多地应用于海洋生态系统监测，以提供对微生物群落的更深入了解(Pawlowski et al. 2016;Santoferrara et al. 2020)，植物和浮游动物(Bucklin et al. 2019;Coguiec等人，2021;Ershova et al. 2019;Yoon et al. 2016)、鱼卵和幼虫(Lira et al. 2023)以及底栖动物(Klunder et al. 2022)。与其他方法相比，这些方法效率高，成本低，提供了更高水平的分类分辨率。然而，尽管年龄越来越大，人们仍然担心与基于pcr的宏基因组技术相关的潜在偏差和错误，这些偏差和错误阻碍了数据的解释，特别是在定量方面。Santoferrara(2019)确定了元条形码中五个潜在的错误来源，即假阴性、假阳性、错误识别、不同分类群的相对丰度倾斜和人工序列。以下章节将在我们的协议中讨论这些潜在问题，并提供解决这些问题的建议。

　　元条形码是一种非常敏感的工具，只要有足够的测序深度，就可以检测到微量的DNA，包括细胞外DNA、样本中残留的生物体片段和肠道内容物。这是该方法不可否认的优势，但这种敏感性也会大大夸大多样性估计，正如我们的结果所示，在最低的普通分类学分辨率下，在样本中检测到的“假阳性”数量通常等于或超过视觉观察到的物种数量。然而，值得注意的是，我们不能确认样本中确实没有每个“假阳性”。虽然我们的研究样本中有很大一部分是人工工程的，但它们仍然含有一些我们无法正确识别的个体，如早期桡足动物、nauplii、trochophore幼虫、卵和生物碎片的小碎片。例如，在许多样本中存在刺胞动物或毛齿动物的DNA，可能是由于这些脆弱的胶状生物在捕捞过程中破裂，留下了它们身体的碎片。人们还知道，当被渔网拖拽时，毛齿鱼会反刍它们的肠道内容物(Baier和Purcell, 1997)，这可能导致它们自己和猎物的DNA出现额外的半消化DNA。尽管如此，无论它们是否真的不存在或微量存在，“假阳性”的总贡献通常非常低，占总读取量的0.1%或更低。然而，有几个样本落在这个范围之外，其中属于假阳性的读数超过总读数的5-10%，或在3个样本中甚至超过25%。考虑到样本的初始量非常小(300-500人)，交叉样本污染似乎是这些病例的罪魁祸首。或者，如上文所述，“假阳性”物种在生命早期阶段、无法识别的碎片或样本中其他物种的肠道内的存在，可能会导致类似的结果。与大多数使用模拟样本方法的其他研究类似(Santoferrara 2019)，我们发现元条形码在给定的测序深度下恢复了几乎所有观察到的多样性，证实了我们选择的条形码和测序深度适合世界海洋的这一区域。尽管如此，在我们的数据中，一些较小和罕见的物种，如非常小的桡足类或双壳类的幼虫，并没有在所有的样本中恢复，或者只有很低的检测阈值，使它们处于上述“假阳性”的检测范围内。此外，在物种列表中明显缺失的是尾虫，它们的COI可能是一个不适合的条形码区域(Bucklin et al. 2021)，但它们仍然可以成为浮游生物群落的重要贡献者。包括一个额外的条形码，比如18S rRNA基因的V4或V9区域，可能会减轻这种情况。其他实施多个条形码区域的研究发现，这种方法增加了恢复的多样性，并最大限度地减少了假阴性(Zhang et al. 2018)。然而，对多位点元条形码数据进行数值处理以估计物种相对读丰度仍然是一个挑战。

　　在估计生物多样性时，根据研究的目标，可以采取不同的方法来最大限度地减少假阳性和假阴性的影响。如果目的是进行大规模的群落分析，特别是在早期可能使用形态学方法进行鉴定的情况下，应用保守方法并设置任意高的读取丰度阈值可能是合适的。虽然这将排除稀有物种，但它们不太可能具有高度的生态意义。如果同时进行的显微分析显示，使用给定的元条形码方案遗漏了一些丰富的/生态上重要的物种，则可以包括额外的遗传标记，如上文所述;或者，这些物种可以通过视觉筛选。另一方面，如果目标是早期发现入侵物种，那么非常高的灵敏度是必要的，它将允许在密集的组织样本中检测到单个幼虫。在这种情况下，确保适当灵敏度的一种方法可能是用在研究环境中不会自然出现的分类学上相似的物种的单个个体(例如，在海洋甲壳类动物的情况下，一种小型淡水甲壳类动物)“刺穿”样本。这种方法通常用于昆虫监测研究(即Batovska et al. 2021)。为了简单地恢复物种丰富度，可以使用许多方法。我们估计多样性的方法过于保守，只计算离散识别的物种或分类群，而不计算MOTU。在大多数情况下，并不是所有的MOTU都可以被识别到种水平，而往往可以被识别到属、科甚至更高的等级，我们将所有常见的MOTU都分解成一个单一的类别。这消除了与聚类算法相关的大部分偏差(即van der Loos和Nijland 2021)，但它可能低估了真正的多样性，因为这些汇总的MOTU实际上可以代表许多参考数据库中没有的离散物种。无论如何，任何种类的多样性指标都只在单一协议的上下文中相关，并且不能与其他方法甚至使用类似方法的其他测序运行进行比较，除非适当地进行多样化。然而，它们对于研究内部比较非常有价值，例如，绘制物种多样性的空间、时间或季节模式。

　　元条形码数据的定量解释仍然是一个持续争论的主题，最常见的问题是开发真正通用的引物的困难，物种之间基因拷贝数的差异，以及PCR的指数性质(Bucklin等人，2016;Santoferrara 2019;van der Loos and Nijland 2021)。新的、基于非pcr的分子群落分析方法，如使用霰弹枪测序检测特定标记基因，随着这些技术的不断发展，可能为元条形码提供一种有希望的替代方法(Pierella Karlusich et al. 2023)。然而，尽管存在已知的PCR偏倚问题，近年来，越来越多的证据表明，元条形码在广泛的后生动物群落中具有定量或半定量的潜力(Ershova et al. 2021;Krehenwinkel et al. 2017;Lamb et al. 2019;McLaren et al. 2019;Schenk et al. 2019;Thomas et al. 2016)。量化的挑战之一是确定一个适当的度量来比较序列计数。对于单细胞生物，通常使用细胞计数，但即使如此，物种之间的读取拷贝数也会有很大差异(Wang et al. 2017)。在后生动物群落中，由于不同物种的大小差异很大，计数或丰度估计也会受到混淆。例如，即使用相同的取样装置捕获，中浮游动物的长度也会从大约200微米到几厘米不等，这导致重量的几个数量级差异。尽管如此，我们发现在我们的数据集中，特别是对于一些分类群，相对丰度与相对序列读取具有惊人的高相关性。生物量或碳重是较好的定量指标。这并不奇怪，因为一个大的生物体比一个小的生物体含有更多的DNA。尽管在描述浮游动物群落时，物种丰度是比物种生物量更常用的度量标准，但这更多的是一种方法学上的人工产物，因为物种计数传统上比物种重量更容易获得，并且不一定反映丰度是更生态相关的度量标准。事实上，就放牧压力、碳和养分循环以及更高营养水平的可利用性而言，物种特异性生物量可能是一个更重要的量化参数。

　　之前的几项研究报告了几种遗传标记的相对读数与浮游动物相对生物量的中度至良好相关性，包括COI (Elbrecht和Leese 2015;Ershova et al. 2021;Matthews et al. 2021;Yang et al. 2017)。这些相关性在一些分类群中比在其他分类群中要好得多，即使是强关系也经常与1:1的比例有很大的不同，这使得从另一个分类群中推断一个值变得很困难。我们同样发现，这些相关性对几乎所有的类群都是显著的，只要有足够的观察结果存在，同样地，观察到某些类群的相关性比其他类群强。然而，我们更进一步，引入了一个新的定量度量，称为BWSR(生物量加权序列读取)。与相对丰度不同，相对生物量可以更容易地通过单个生物量测量转换为定量参数，这通常是常规浮游动物分析的一部分。然后将这个数字乘以属于一个物种或分类群的读数比例。此外，通过应用物种或分类特异性转换因子，使reads计数和生物量之间的关系更接近统一，我们还可以减少一些基于pcr的偏差，增加这两个测量之间的可比性。在之前的研究中，已经使用转换因子来改善微生物群落的量化(McLaren等人，2019)、硅藻(Vasselon等人，2018)、鱼类(Thomas等人，2016)和节肢动物(Krehenwinkel等人，2017)，但据我们所知，这是第一次将这种方法应用于海洋浮游动物群落。虽然BWSR与生物质密切相关并共享单位，但不应将其报告为生物质或用于与其他基于生物质的研究进行比较。相反，它提供了一个框架，用于在单一研究中定量监测相对物种组成随时间和空间的变化(例如，Coguiec et al. 2021)，并允许使用标准的群落分析工具，如多元统计。它可以进一步用于计算一些附加指标，例如，浮游生物与全浮游生物的比例，或桡足动物与非桡足动物分类群的比例，或用于估计各种生物地理亲和力指数。对于一些体重范围相对较小的分类群(例如，小型桡足类如Oithona spp.)， BWSR值也可以作为生物量的代表来估计物种丰度，在其他研究中经常使用反之亦然。所有三个定量测量-丰度，生物量和BWSR都显示出非常相似的群落模式，当分解到一个共同的分类分辨率时，几乎相同。然而，BWSR数据能够提供更详细的物种水平信息，说明哪些特定物种推动了群落趋势。例如，在所有三个检测参数中，被发现强烈驱动群落结构的卷足类和十足类幼虫分别由4-5个不同的物种代表，这些物种无法通过形态学识别。这些结果有力地支持了元条形码数据不仅可以用于估计生物多样性或绘制物种的存在/缺失，还可以用于估计物种的相对密度和定量描述群落结构的观点。

　　当将序列与参考文库(如BOLD (Barcode of Life System, www.boldsystems.org)进行比对时，通常会遇到三种主要的错误类型:(a)数据库中缺少物种，(b)对参考文献的错误识别或注释，以及(c)感兴趣的遗传标记差异不足或过度，这将导致多个物种水平的匹配，或者在指定的阈值(通常为97%)缺乏物种水平的匹配。第一种错误类型将在最终的物种列表中产生“未知数”，导致更高比例的“假阴性”，尽管这些motu通常可以被分配到更高的等级(即科或目)。在我们的数据集中，只有大约65%的MOTU被分配给物种，15%甚至在门水平上也不能匹配。第二种错误类型，不正确的识别，尤其有问题，因为它可能导致假阳性和假阴性的存在。对于更常见的物种，它通常会在参考数据库中产生几个物种级别的匹配，研究者必须决定其中哪个更可靠。我们在其中一个阿卡迪亚物种中遇到了这种类型的错误，这导致了阿卡迪亚tonsa和阿卡迪亚hudsonica的物种水平匹配。在手工检查了这些凭证的原始来源和注释后，我们认为A. hudsonica是更可能正确的识别。另一方面，只有一个条形码凭证的稀有物种的错误识别是更难以识别的，直到更多的条形码工作，将不得不接受信仰。由于标本的形态鉴定代表了DNA条形码的质量控制，理想情况下，每个条形码都应该链接到一个凭证标本，这应该成为未来的标准做法(Rimet et al. 2021)。多物种水平的匹配也可能是由于所选择的条形码差异不足，无法可靠地区分相关物种。在我们的数据中，这样的一个例子是毛齿动物Eukrohnia sp.，它与E. hamata和E. bathyantarctica相匹配。基于这些物种已知的地理分布，我们认为hamata e是更可能正确的鉴定。相反，毛囊线虫线虫在线粒体基因组中具有异常高的差异，并且使用低至90%的相似性阈值来分配该物种(marlsamtaz et al. 2017)。

　　对于海洋后生浮游动物，近几十年来人们在建立和质量控制可靠的DNA条形码参考文库方面做了大量的工作。建立条形码库和相关代金券收藏一直是几个单独项目和国家运动的主要目标(见Bucklin等人。2021;Weigand et al. 2019，参考文献)。通过在参考数据库中实施QA措施，还尝试提高条形码库的质量(Fontes et al. 2021)。在生命条形码数据系统(BOLD)中进行了海洋条形码数据整理的主要工作，包括根据一致性排序系统对条形码记录进行注释(Radulovici et al. 2021)。此外，通过metaZooGene条形码图谱和数据库(MZGdb)，还提供了一种新的工具，用于提高海洋浮游动物(全息和浮游生物)DNA条形码的质量控制(Bucklin等人，2021)。尽管上述和其他正在进行的努力，一些分类群体和/或地理区域的可用开放获取DNA参考文库仍然不完整(McGee et al. 2019)。例如，2019年，只有22%的欧洲海洋无脊椎动物物种在BOLD中至少有一个条形码(Weigand et al. 2019)。如果要在生物监测和生态状况报告中实施元条形码，可靠的条形码参考库尤为重要(例如，欧盟海洋战略框架指令，MSFD)。因此，继续需要通过增加分类群和扩大地理覆盖范围来建立全面可靠的条形码参考数据库。

　　用80-100%乙醇固定浮游动物样本是保存浮游动物遗传利用的最常见方法，也是大多数条形码或元条形码协议中推荐的方法(Rey et al. 2020;van der Loos and Nijland 2021;Wiebe et al. 2017)。其他不太常见的保存浮游动物的方法包括将整个样本冷冻或保存在其他固定液中，如DESS或RNAlater (Creer等人，2016;van der Loos and Nijland 2021)。我们提出了另一种保存浮游动物DNA的方法，即将整个样本在65°C的干燥箱中脱水12-24 h。在我们的研究中，我们预计绝对乙醇是更好的保存方法，但发现乙醇与干燥样本在恢复的DNA质量或数量、测序深度或总体恢复的生物多样性方面没有差异。在相对分类组成上也没有差异，两种保存方法的reads丰度与所有分类群的相对生物量的相关性同样良好。尽管乙醇保存仍然是一种“非破坏性”的方法，允许随后的子采样或筛选感兴趣的分类群/物种，但它也有一些缺点。其中包括更高的试剂成本，额外的HSE风险(烟雾和火灾危险)，物流运输限制，样品存储空间，以及在实验室中更长/更复杂的处理，因为大多数DNA提取方法对乙醇敏感，需要去除乙醇。这些挑战导致许多大型浮游动物监测工作不愿采用元条形码组件。另一方面，许多监测项目，比如在海洋生物研究所实施的项目，已经收集了用于估算浮游动物生物量的干样。可以采取简单的附加步骤，以确保这些样品适合遗传用途。这包括样品之间取样装置和实验室工具的适当清洁，以防止交叉样品污染，一旦样品干燥，立即从干燥箱中取出，并适当长期储存。使用这种方法，建议保持整体样品体积低(湿动物的体积小于2毫升，去除水分)，以确保快速均匀干燥。对于较大的样品，建议分取样或将样品分离到几个干燥托盘上。干燥后的样品可在室温下运输，但应在- 20°C下长期保存。作为一个额外的好处，在测序之前测量样品的干重创建了一个简单的向前路径，将相对序列读数转换为BSWR，如本工作所述。

　　在这项工作中，我们提出了一个从COI元条形码数据中恢复生物多样性和定量估计浮游动物物种生物量的框架，我们认为该框架适合于成本效益高的大规模监测。我们使用来自北海的模拟浮游动物样本成功地测试了我们方法的适用性和准确性。尽管存在一些偏差，但我们认为基于COI元条形码的方法目前已经达到了令人满意的技术成熟度，其结果与基于形态学的浮游动物分析方法具有可比性和高度互补性。但是，应该在其他地理区域进行类似的研究，因为这些区域的参考条形码数据库可能不像欧洲水域那样完整。虽然我们的研究结果突出了元条形码的优势，但它们也强调了通过结合形态学和分子分析来综合分类方法的价值，这也是先前研究推荐的方法(Di Capua等人。2021;Matthews et al. 2021;Pierella Karlusich et al. 2022)。

　　以下是电子补充材料的链接。

　　下载原文档：https://link.springer.com/content/pdf/10.1007/s12526-023-01372-x.pdf