帮助研究人员识别癌症和遗传疾病的DNA模式的新工具
一个新工具将帮助研究人员确定导致癌症,亨廷顿疾病和许多其他遗传疾病的DNA模式的微小变化。该工具是在北卡罗来纳州立大学开发的,将DNA序列转化为图形图像,这使得研究人员比使用计算机的历史可能更快和高效地区分遗传模式。
David Cox,博士。在NC状态下计算机科学的学生,设计了“符号散点图”工具,以提供DNA序列的视觉表示。Cox解释说:“人类视觉系统更擅长识别模式,而不是现有的计算机程序之间的不同模式,例如试图识别DNA序列重复的计算机程序。”换句话说,肉眼比计算机更好地看到图案。
识别DNA序列的模式是很重要的,因为它可以帮助研究人员识别患有某种疾病(如癌症)的受试者和没有患这种疾病的受试者之间的微小遗传变异。考克斯说:“通过允许研究人员专注于与疾病相关的DNA成分,并提高我们对这些疾病的遗传机制的理解,改进相关DNA序列的识别有望加快一系列疾病成功治疗的发展。”例如,是什么打开和关闭特定的基因?”
那么,符号散点图是如何创建DNA的视觉表示的呢?DNA是由一系列核苷酸组成的。只有四种类型的核苷酸,用字母A、T、G和c来表示。每一串由三个字母组成的核苷酸,如AAA或ATG,被称为3-mer。Cox解释说:“只有64个可能的3-mer,因此每个3-mer映射到一个从0到63的数字。符号散点图用一长串代表DNA序列的字母,把它分割成一串三聚体。然后它为每一个3-mer绘制一个点,从0到63,这个数字作为y坐标。”x轴是3-mer在基因序列中出现的顺序。
“如果这似乎真的很简单,”Cox说,“那是因为它真的很简单。即便如此,所得到的散点图会发现原始DNA中的有趣模式。我还可以将这些散点图串在一起以产生动画,以便比较DNA序列。“
考克斯选择关注3-mers是因为它们与密码子相关,密码子是身体在蛋白质生成过程中用来指定插入特定氨基酸的遗传密码。换句话说,他们监督蛋白质的生成,而蛋白质本身就是人体的基本组成部分。“有64个3-mers,但只有20个氨基酸,”考克斯说,“所以每个氨基酸对应多个3-mers。”考克斯设计了符号散点图,使得对应于相同氨基酸的3-分子彼此相邻。
“通过这种方法,”Cox说,“更容易确定从一种氨基酸到另一种氨基酸的三聚体差异是显著的,而不是三聚体差异仍然导致产生相同的氨基酸。”一种氨基酸的变化可能是一种相对无害的疾病和一种致命疾病的区别,”Cox说。
考克斯将于今年7月在拉斯维加斯举行的2009年生物信息学和计算生物学国际会议上介绍这项研究。西安大略大学的莉娜·达格尼诺博士参与了这项研究。
希普曼-
编辑注:演示摘要如下。
用符号散点图分析DNA序列
作者:北卡罗来纳州立大学David Cox;安大略省西部大学临安达尼诺
提出了2009年7月13-16日,在BIOCOMP ' 09 - 2009年在内华达州拉斯维加斯举行的生物信息学和计算生物学国际会议。
文摘:DNA的破译是一个重要而开放的研究课题。回答这个问题的关键是确定序列中哪些核苷酸构成了一个单一的相干区域。符号散点图是一种新颖的DNA图形表示方法。类似于搜索技术如BLAST,初始步骤散列小重叠k-mers。这项技术的新颖之处在于,所有后续处理都依赖于人类的视觉系统。为了评估其有效性,我们将该技术与串联重复查找器进行了比较。结果表明,人类视觉系统在识别DNA序列中的大多数重复序列和其他模式方面优于串联重复序列发现者。
