为什么Hadoop是基因组测序的完美选择

作者: Roger Morrison
创建日期: 19 九月 2021
更新日期: 5 可能 2024
Anonim
为什么Hadoop是基因组测序的完美选择 - 技术
为什么Hadoop是基因组测序的完美选择 - 技术

内容


资料来源:A3701027 / Dreamstime.com

带走:

基因组测序需要强大的技术工具来处理其所有数据,而Hadoop可以完成任务。

临床基因组学是一门引人入胜的主题,人们在研究前沿技术以处理快速,准确的结果。市场上有许多基因组测序仪,它们正在产生PB级的序列数据,而测序的增长将在不久的将来产生EB级的数据。在这里,Hadoop是处理复杂基因组学工作流程的理想平台。 Hadoop可以存储和分类大量信息,还可以进行有意义的分析。 (要了解它真正需要多少数据,请阅读了解位,字节及其倍数。)

基因组学的现状与未来

如今,基因组作图已达到发展的顶峰。与基因组学行业相关的许多人都充满了好奇心,并且随着新机遇的出现,时刻需要更好的技术。基因组测序是一项非常重复且占用大量资源的任务。仅在2013年,就产生了大约15 PB的数据,仅由2,000个定序器产生。这个令人jaw目结舌的数量包括300 KB测序的人类基因组数据。以这种数据生产速度,可以估计到2018年,将生产大约1 EB的数据。这是由于定序器的增长,每次运行将产生越来越多的数据。另一个原因是功能强大且低成本的基因组测序仪的问世。自2008年以来,这些机器的价格一直在稳步下降。这是因为强大的下一代机器已进入市场。

基因组作图行业的需求

复杂的算法用于处理从人类基因组收集的数据。然后,需要存储此信息。将来可能会对其进行审查以与原始数据进行比较。处理和存储100 GB数据的任务并不是很困难,特别是当您使用测序中心使用的强大机器进行处理时。研究表明,这种数据量仅需大约1,000个CPU小时即可处理,因此非常容易。以这种技术进步的速度,很明显,基因组产业将在短短几秒钟内很快处理数千兆的数据。

但是,数据管理和存储技术的发展速度并不快,因此,可能会丢失大量宝贵的数据。这确实是不可取的,因为它将严重阻碍人类基因组学的进展。因此,非常需要易于更新的有效数据管理技术。这在不久的将来尤其有效,因为在不久的将来,基因组作图将从拥有强大计算机的大型实验室转移到小型医院和实验室。

解决方案中期望什么?

发现和开发新的基因组测序技术的步伐非常快。这一步伐对迈向医学界将是非常有益的,它是迈向消灭重大疾病的有力步骤。但是,这种步伐也可能非常具有挑战性。


挑战来自管理测序项目产生的大量数据的形式。因此,需要一种有效的解决方案,这将有助于大数据的存储和处理。该解决方案必须既便宜又快速,同时还要具有自适应性。此解决方案提供的分析还必须准确且恒定。那么,该问题的解决方案是什么?毫无疑问,它是Hadoop。 (有关使用Hadoop的更多信息,请参阅关于大数据(Hadoop)即服务的5个见解。)

为什么Hadoop是基因组测序的最佳解决方案

基因组学行业需要的是一种出色的解决方案,可以帮助他们有效地管理数据,处理数据并将其存储以备将来使用。该解决方案似乎与Hadoop软件完美匹配。因此,Hadoop可以被视为完美的大数据管理软件,可以极大地改善基因组学行业当前的数据存储技术。

Hadoop的实时功能使基因组测序仪能够一次实时分析和存储大量数据。这也使数据将来可以使用。 Hadoop可以击败许多遗留系统,因为它比它们更快,更可靠。

没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时,您就无法提高编程技能。

Hadoop还可以做什么?

由于Hadoop,在基因组学和基因测序领域开辟了许多可能性和机遇。 Hadoop提供了并行计算选项,因此可以实现更快的排序。此外,使用Hadoop的MapReduce功能,可以非常轻松地映射大量基因。因此,使用Hadoop进行排序将真正成为“下一代”,并且变得简单得多。

Hadoop的机会

Hadoop在基因组产业中有很多机会,但最好的机会来自Lynda Chin在《基因与发展》杂志上发表的文章“了解癌症基因组数据”。在本文中,她讨论了现代基因组学如何打开新的大门,并带来了许多积极的成果,例如发现有关癌症的基因组信息。因此,我们更接近发现癌症本身的治疗方法。但是,这需要更多的关注,并且需要功能强大的数据管理应用程序以提高该领域的研究能力。这可能是Hadoop证明其速度,功能和准确性的最佳机会。

Crossbow:下一代数据管理平台

Crossbow是用于分析基因组重测序的软件管道,是最好的解决方案之一。这是Hadoop内部集成的一种结果,该结果是用于对齐序列数据的快速算法(称为Bowtie)与比较和检查序列数据的强大算法(即名为SoapSNP的基因分型器)之间的集成。它基于Apache Hadoop构建,并基于MapReduce框架的实现。 Crossbow是便携式的,可伸缩的,并且还适合作为云计算工具。


通过这种强大的集成,可以在一天之内在具有10个节点的本地群集上检查完整的基因组。使用40个节点的群集,该过程甚至更快,并且仅需三个小时即可完成,总成本不到100美元!一项测试Crossbow准确性的研究表明,它可以比较每个基因组,其准确性为99%。 Crossbow的另一个有用功能是它在云上运行。因此,Crossbow将使成千上万的未来测序中心(如医院)能够对大量的基因组数据进行测序,而无需任何功能强大,昂贵的计算机和技术。

其他基于Hadoop的基因组学软件

许多公司已经认识到Hadoop在改变基因组学领域的力量。他们已经对Hadoop进行了适当的修改,以挖掘其在高级基因组测序中的潜力。下面给出了一些著名的基于Hadoop的基因组测序解决方案的示例:

  • Hadoop-BAM:这是一个功能强大的数据管理工具,利用Hadoop的MapReduce功能进行与基因组学相关的各种活动,例如基因分型。这适用于Binary Alignment / Map格式。
  • Cloudburst:此基于Hadoop的解决方案创建于2009年。它在比较基因组序列和绘制单个基因方面非常有效。这也是为此目的而设计的首批基于Hadoop的应用程序之一。

结论

在现代,大数据与基因组学行业之间的集成被证明是一个福音。这些平台可有效发现多种疾病,例如癌症。通过基因组作图发现的数据可用于制定此类疾病的预防信息。大数据的出现可以看作是基因组学领域的转折点,如果信息使用得当,那么也有可能在更广泛的医疗保健领域中使用。该领域前进的唯一途径是使用适当的数据管理工具,如Hadoop。