跳到主要内容

统计工具发现DNA数据集中的“差距”不应该被忽视

日落时分的北卡州大门

立即发布

特蕾西皮克

一项简单的统计测试表明,与目前的做法相反,进化生物学中常用的DNA蛋白质和序列比对中的“间隙”可以提供有关核苷酸和氨基酸随时间变化的重要信息。这一发现可能对那些研究远亲物种的人尤其重要。

研究进化的生物学家通过观察DNA和蛋白质序列如何随时间变化来做到这一点。这些变化可以是序列长度的变化——当特定的核苷酸在某些位置被删除或添加时——或替换,其中一种核苷酸类型在给定的点上被交换为另一种类型。

北卡罗来纳州立大学生物科学和统计学教授、该研究的共同通讯作者杰夫·索恩(Jeff Thorne)说:“把DNA序列及其进化想象成一个句子,随着时间的推移,被不同的人复制。”“随着时间的推移,一个单词中的一个字母会发生变化——这就是替代。删除或添加字母或单词对应于删除或插入。”

分析人员在观察进化DNA变化时,通常要做的第一步是构建序列比对。这意味着要弄清楚所有的序列是如何相互对应的,然后将这些对应的位置对齐到列中进行比较。然而,由于替换、插入和删除,列内的核苷酸类型可以在序列之间变化,或者完全不存在。当序列没有相应的核苷酸时,在该序列的比对列中放置一个间隙。

索恩说:“传统上,当使用序列比对进行分析时,比对列中的空白被视为缺失数据,无法提供有关替换的信息。”“从历史上看,研究界一直认为间隙位置与替代过程无关。但如果这个假设是错误的呢?”

索恩和他的同事创造了一个简单的统计测试来评估间隙位置是否独立于氨基酸替换过程。他们测试了1390组不同的序列比对,发现在大约三分之二的序列比对中,间隙位置和氨基酸替换之间独立的通常假设被拒绝了。

索恩说:“一种可能性是,间隙位置提供了有关氨基酸替代过程的有用信息。”“如果是这样,进化生物学家应该开发出更好的技术来提取这些信息。”

该研究还说明了通常构建序列比对然后基于单个最优比对的进化结论的方法是如何存在问题的。如果对齐不对怎么办?更糟糕的是,如果对齐有偏差怎么办?

例如,如果取代比间隙更频繁,那么研究人员倾向于在构建序列比对时重复选择取代而不是间隙,结果比对可能包含的间隙太少。虽然在近亲物种之间的比对中出现的小错误很可能不会影响结果,但随着时间的推移,尤其是在不同物种之间的比较中,这种偏差可能会产生影响后续分析的错误。

“有时我们最好的猜测是有偏见的,”韩国极地研究所首席研究科学家、该研究的共同通讯作者徐泰坤说。“没有简单的解决办法,但希望这项研究能帮助我们注意潜在的陷阱。我们需要意识到传统统计方法的问题,并努力解决这些问题。”

该作品出现在美国国家科学院院刊并得到了国家科学基金会和韩国极地研究所的支持。杜克大学和堪萨斯大学的研究科学家本·雷德林斯也参与了这项工作。

皮克-

致编辑:下面是摘要。

比对间隙与核苷酸取代或氨基酸取代的相关性

DOI10.1073 / pnas.2204435119

作者:韩国极地研究所徐泰坤;杜克大学和堪萨斯大学的Benjamin Redelings;杰弗里·索恩,北卡罗来纳州立大学
发表2022年8月15日那一周美国国家科学院院刊

文摘:
为了评估在进化推理中对缺失数据进行比对间隙的常规处理,我们提出了一个简单的非参数检验零假设,即比对间隙的位置与核苷酸替代或氨基酸替代过程无关。当我们将测试应用于1390个由蛋白质三级结构通知的蛋白质比对并使用5%的显著性水平时,大约65%的数据集拒绝了氨基酸替代和间隙位置之间独立性的零假设。通过包括替换和插入-删除的模拟,我们证明了该测试在真实对齐下表现良好。当我们根据零假设进行模拟,然后将测试应用于四个广泛使用的软件包中的每一个推断的最佳对齐时,零假设被拒绝的频率太高。通过进一步的模拟和分析,我们表明,零假设的过于频繁的拒绝并不仅仅是由于广泛使用的软件寻找最佳对齐的弱点。相反,我们的证据表明,最优排列并不代表真正的排列,依赖于个体最优排列可能导致有偏见的进化推断。

留言回复

您的电子邮件地址将不会被公布。所有字段都是必需的。