前进的动力:超越传统的关系

作者: Louise Ward
创建日期: 6 二月 2021
更新日期: 16 可能 2024
Anonim
High Density 2022
视频: High Density 2022

带走: 主持人Eric Kavanaugh与专家Dez Blanchfield,Robin Bloor和Bert Scalzo讨论了数据库技术的创新。



您目前尚未登录。请登录或注册以观看视频。

埃里克·卡瓦纳(Eric Kavanagh): 女士们,先生们,这是东部时间的四个星期三。我在新奥尔良,夏天来了,这意味着天气很热!是时候使用热门技术了,是的,的确是。我叫埃里克·卡瓦纳(Eric Kavanagh),我将成为您的主人。我将为Hot Technologies踢球。今天的主题是“前瞻性:超越传统。”亲爱的人们,我们今天有三位数据库专家在电话上,所以您有任何疑问,包括难题,不要害羞。今天,我们为您准备了一堆好内容。真正有关于你的地方,对我来说足够。当然,今年很热。在本次展会中,我们正在谈论所有热门技术,这是与Techopedia的朋友建立的伙伴关系。今天,我们将一直深入到信息管理的基础,当然是数据库。我们将讨论我们如何到达这里,今天发生了什么以及未来发生了什么。发生了很多非常有趣的事情。

显然,我们在数据库领域有一些严肃的创新。有一阵子安静了。如果您与业务中的一些分析师交谈,我想大概是从2005年到2009年或“ 10”年,就创新而言似乎并没有进行太多。突然之间,一切都突然爆发了,比如越狱之类的东西,现在发生了各种各样有趣的事情。这主要是由于网络的规模以及所有出色的网络属性正在做的有趣的事情。那就是NoSQL概念的来历。这意味着两点不同:它意味着没有SQL,因为它不支持SQL,也不仅意味着SQL。有些人使用过一个“ NewSQL”一词。但是显然,SQL的-结构化查询语言-确实是基础,它是查询的基础。

有趣的是,所有这些NoSQL引擎发生了什么?好了,他们出来了,对此非常兴奋,然后几年后,我们所有人都开始听到了什么?哦,Hadoop上的SQL。嗯,所有这些公司都开始将SQL接口添加到他们的NoSQL工具上,并且任何编程领域的人都知道,这将带来一些挑战,一些困难,以及一些交叉的事物,等等。因此,我们今天将了解很多此类内容。

我们共有三位主持人:我们有来自悉尼的Dez Blanchfield,来自德克萨斯州的我们自己的Robin Bloor和来自德克萨斯州的Bert Scalzo也都有。因此,首先我们将收到Dez Blanchfield的来信。亲爱的,我们将在#HotTech的标签上进行鸣叫,请随时通过网络广播控制台的“问与答”组件甚至通过聊天窗口随意发表您的评论或提出问题。有了这个,Dez Blanchfield,把它拿走。


Dez Blanchfield: 谢谢你,埃里克。嗨,大家好。因此,我将尝试将场景设置在30,000英尺的高度,以了解过去十年中发生的事情,以及我们已经看到的重大变化-至少至少十五年了-数据库管理系统,以及从商业或技术角度来看的一些影响,以及我们最近忍受的一些趋势,使我们进入今天将要围绕该主题进行的对话。

我的封面图片是沙丘,风在它的顶部吹来细小的沙子。结果,沙丘从一个空间缓慢地走到另一个空间。这真是一个了不起的现象,这些巨大的40英尺和50英尺高的高山实际上可以移动。它们移动非常缓慢,但是它们确实移动,并且随着移动,它们改变了景观。如果您在沙丘是自然事物的区域中度过所有时间,那将是一件值得关注的事情。因为您有一天可以看着窗外,并且意识到这片巨大的沙山实际上实际上已经移动了很少的细小颗粒,并且风慢慢地将其从一个位置转移到另一个位置。

我认为从很多方面来说,这已经是数据库系统的世界了。直到最近,沙粒形式的微小变化才使沙丘形式的巨型沙丘移动。这些年来,数据库平台几乎没有什么变化,在中端时代的大型机中,它一直是围绕数据库系统和平台的相当稳定和牢固的环境。但是最近,我们的商业需求和技术驱动因素发生了一些相当重要的事情。我将引导我们完成这些。

我认为,数据库的基本概念(我们已经知道很多年了,并且您可能已经在展会前的玩笑中听到了),今天与我联系的两位专家终生都在在这样的空间中,他们完全有权利分享80年代初期开始出现在这里时的吹牛权利。但是我们在过去的十年中已经看到了巨大的转变,在我将其移交给Robin Bloor博士之前,我将快速地引导我们完成。

我们经历了这种所谓的“更大,更好,更快,更便宜”的体验。正如我所说,数据库的定义已更改。数据库平台必须解决性能问题以及技术和商业要求的环境也发生了变化。我们已经看到,对于解决更复杂的商业或更复杂的技术要求的解决方案的需求在增加。因此,快速浏览一下我认为这实际上意味着什么,我们进入了90年代,并且我们看到数据库技术受到了互联网的引入的影响,以及我们当时所说的互联网规模。我们不仅在谈论坐在码头前的人,起初是像电传打字机那样的终端,内置终端,里面有132列书面文件。然后是早期的绿色屏幕终端,用键盘打孔。

但是,您知道,我们的世界是长时间与计算机通讯的终端和串行电缆或网络电缆。然后是互联网,以及连接性的爆炸性增长,您不必再将其插入计算机。要进入数据库系统,您只需要一个Web浏览器。因此,数据库技术必须进行巨大的变革,以处理用于索引世界的基本搜索引擎技术的所有规模,并以数据库格式规模为例存储信息索引。像Google和其他公司这样的人提供了一个执行此操作的平台。并且产生了所有新型的数据库存储以及查询和索引。然后我们有了音乐网站和电影网站。


然后在2000年代,我们看到了互联网泡沫的兴起,这使使用由某种形式的数据库始终提供支持的系统的人数激增,甚至更加戏剧化。在这个阶段,关系数据库仍然可以应付大部分负载,我们只是将它们放在更大的罐子上,然后我们从诸如IBM和Sun等人那里去了运行Unix平台的非常非常大的中型系统。从硬件,性能的角度来看,网络泡沫的兴起使事情变得更大,更快,并且数据库引擎发生了一些重大变化,但更好的是,我们仍然看到了同样的事情。很久。

然后我们提到了这个Web 2.0的时代。这是一个巨大的转变,因为突然之间我们需要更简单的数据库平台,并且必须有一个水平形式的规模。这就是我们处理数据库概念的方式的重大转变。我认为我们现在仍然真的在追赶。现在,我们正在处理整个泥潭,我要说的是积极的,不是消极的含义,是我们所谓的大数据的泥潭,是一个巨大的爆炸,我的意思是爆炸。当我们谈论数据库时,这种可笑的变化垂直地出现在我们拥有的选项数量的图表上,以及某种形式的关系查询能力。

有趣的是,我个人认为大数据确实只是冰山一角。我们确实会对大数据的影响以及我们现在可用的选择类型感到有些兴奋。我们提供了NoSQL引擎,图形引擎,所有这些类型的平台,我们可以在其中投放数据并使用它们进行处理。甚至到事实上,我今天与我们一起在这里与Eric Kavanagh进行的第一次对话中,都围绕着与Apache Drill有关的对话,Apache Drill是一个开放源代码项目,可让您查询模型内部的数据具有不同的数据类型:从硬盘上的原始CSE文件到PB级的HDFS文件系统,应有尽有。而且您知道,它允许您对各种令人兴奋的工厂的结构化和非结构化数据执行这些SQL样式的查询。

我们将看到“智能建筑”成为现实,我们想以为我们拥有安全和热管理的智能建筑,但我所谈论的是对您的身份更加了解的智能建筑。以及您进入的位置以及在该级别上进行的各种整洁的事情,直到智能城市-城市级别的整个生态系统-知道如何聪明地做事。除此之外,我们还拥有令人难以置信的东西,我认为世界上没有任何人能完全掌握它,而这就是物联网的形式。在过去的十年中,所有这些变化都差不多,大概大概在二十年后,如果我们将其四舍五入,我认为这只是影响了我们所认为的数据库领域。

有几项重要的事情使这一切成为可能。硬盘驱动器的成本已大大降低,并且在许多方面,这使得驱动某些参考架构(例如Hadoop模型)成为可能,因为我们要吸收大量数据并将其散布到许多硬盘驱动器上,用它做聪明的事。实际上,在我看来,关系数据库或传统DB单元模型已成为分片。 RAM的价格非常非常便宜,这为我们提供了一个全新的机会来使用不同的参考体系结构(例如内存),以及进行诸如分区非常大的数据块的操作。

因此,这给了我们现在正在查看的这张小图,它是一张图表,显示了您处于大数据环境中时可用的平台类型。而且,它非常非常难读,其原因是,有关该信息的信息太多。将数据放入任何形式的数据库系统中,进行查询并进行传统读写的方法有很多制造,建模和制造选项。而且它们并不都符合要求,实际上它们甚至都没有符合任何基本样式标准,但是他们仍然认为自己是数据库。我将在几秒钟内向您展示几个屏幕,以向您介绍我从90年代和互联网规模到Web 2.0的转变,再到大数据的整体增长所带来的意义。如果我们认为这个大数据技术格局令人兴奋,因为上面有很多选择,那么让我们看一下一个关键的垂直领域。

让我们看一下营销技术。这里是数据库管理系统的选项,或仅在mar-tech空间内进行数据管理的选项,因此与营销相关的技术。现在是几年前的2011年。五年前,这就是风景。如果我只是简单地回顾一下一张幻灯片,这就是我们在数据库技术中拥有的各种品牌和产品中当今的数据格局。这就是五年前的营销技术行业。

现在,如果以今天的观点来看,这就是它的样子,而且完全不可穿透。仅仅是品牌和选择的墙,它有成千上万的软件组合认为自己属于数据库类,它可以捕获,创建或存储和检索各种形式的数据。而且我认为我们现在正进入一个非常非常有趣和勇敢的时代,从前您可以了解主要品牌,您可以了解Oracle和Informix,DB2等五,六个不同的平台,并且几乎是20年前所有品牌的专家。十年前,它变得容易了一点,因为一些品牌下降了,而且并不是所有的品牌都能应付网络繁荣的规模,而有些公司破产了。

今天,绝对不可能成为现有的所有数据库技术的专家,无论是关系数据库还是过去二十年来我们所了解的标准数据库管理平台。或更可能的情况是,像N​​eo4j这样的更现代的引擎。因此,我认为我们正在进入一个非常勇敢的世界,那里有很多可用的选项,并且我们已经在内存或磁盘上水平扩展了平台。但是我认为对于技术和业务决策者来说,这是一个充满挑战的时刻,因为他们需要在技术堆栈上做出一些非常大的决策,在某些情况下,这种决策实际上只存在了几个月。对于一些更令人兴奋的新开源数据库平台来说,现在已经有18个月了。他们开始合并平台,并变得更加新颖和令人兴奋。

我想我们今天将就这一切如何影响传统的数据库平台以及它们如何响应传统的数据库以及正在使用的技术类型进行一场精彩的对话。考虑到这一点,我现在将传递给罗宾·布洛尔博士,并获得他的见解。罗宾,交给你。

罗宾·布卢尔(Robin Bloor): 好的,谢谢你。是的,这个话题太大了。我的意思是,如果您只是摘下Dez展示给您的插图之一,那么您可能会和其中的一个进行长时间的交谈。但您知道,您可以进入数据库–自1980年代以来,我一直在研究数据库,但我不知道,您可以采用不同的方式研究数据库。我认为今天要做的事情之一就是谈论破坏性事情在硬件级别发生的原因。您必须记住,在软件级别实际上也发生了很多破坏性的事情,因此,这并不是所有事情的全貌,而只是硬件方面的事情。

我也不会谈得特别长,我只想给您提供硬件图片。数据库具有跨越CPU,内存和磁盘的数据检索功能,并且正在发生巨大变化。我之所以这样说,是因为我学会了从实际操作的角度理解数据库。您知道,实际上CPU上的数据与数据从内存中拉入CPU以及数据从磁盘中拉入并通过CPU的延迟之间存在差异。而旧的数据库体系结构只是试图平衡这一点。您知道,他们只是说:“嗯,这进行得很慢,我们会将数据缓存在磁盘上,以便存储在内存中。我们将尝试以一种非常准确的方式进行操作,以使我们要求的数据中有很大一部分已经存在内存中。我们将尽快将数据传输到CPU。”

而且数据库是在过去编写的,而机器是为小型集群编写的。现在,对于无知的并行性。因为如果要从群集中获得一些性能,则必须并行执行各种操作。并行性是游戏的一部分,与现在不同。我将简单地介绍发生的情况。

首先,磁盘。磁盘确实结束了。关于数据库,这已经差不多了。我认为数据存档有很多弊端,即使是在Hadoop上运行的非常大的数据湖,如今最糟糕的旋转磁盘也可能可行。确实,磁盘旋转的问题在于读取速度没有特别提高。当CPU上升时,摩尔定律的速度大约每六年就会增加一个数量级。记忆紧随其后,然后这两个彼此合理地保持同步,虽然并不完全顺畅,但他们做到了。

但是随机读取磁盘时,磁头在磁盘上飞行,我的意思是,除了别的以外,这是一种物理运动。而且,如果您要随机读取磁盘,那么与从内存中读取数据相比,它的速度实在令人难以置信,速度要慢100,000倍。就在最近,我深入研究过的大多数数据库体系结构实际上都是从磁盘上串行读取的。您确实希望以某种方式从磁盘中缓存尽可能多的内容,然后将其从该慢速设备中拉出并放入快速设备中。您可以执行很多聪明的事情,但这已经结束了。

固态磁盘或闪存驱动器实际上就是它们的替代品,它很快就会取代旋转磁盘。而且这又完全改变了,因为数据是根据磁盘的组织方式来组织的,而是根据磁盘的工作方式来组织的。实际上,这是关于一个磁头在旋转表面上移动,实际上是多个磁头在多个旋转表面上移动,并随即拾取数据。固态驱动器只是您可以阅读的一小部分。我的意思是,第一件事是所有传统数据库都是为旋转磁盘而设计的,而现在它们已针对SSD进行了重新设计。新数据库可能可以–现在正在编写新数据库的任何人都可能忽略磁盘旋转,甚至根本不考虑它。但是SSD的主要制造商三星告诉我们,SSD实际上处于摩尔定律曲线上。

我认为它们已经比旋转磁盘快三到四倍,但是现在基本上每18个月它们就会变得更快。速度提高一倍,速度提高10倍,大约六年。但是,仅此而已,我稍后会告诉您。当然,旋转磁盘正在成为归档介质。

关于记忆。首先,RAM。每个CPU的RAM之间的CPU比率一直在增加。当然,从某种意义上讲,它可以提供更快的速度,因为您现在可以拥有的英亩内存可以存储更多的内存。这实际上是在减轻MLTP类型的应用程序或随机读取应用程序的压力,因为更容易满足这些要求,因为您现在有很多内存,这样您就可以缓存任何可能会读入内存。但是您会遇到更大的数据堆问题,因此,大数据实际上并不是那么简单。

然后我们有了配备3D Xpoint的英特尔和拥有相称内存PCM的IBM,它们提供了他们认为是的东西–嗯,它至少比当前的SSD快10倍,而且他们相信它将得到与RAM的速度非常接近。当然,它更便宜。因此,以前您具有CPU,内存和磁盘的数据库结构,现在我们正朝着具有四层的结构发展。它具有CPU,内存或RAM,然后是实际上比非易失性快于SSD的内存,然后是SSD。这些新技术是非易失性的。

还有HP的忆阻器,您尚未知道,因为它是在大约七年前宣布的,但尚未出现。但是我听到的谣言是,惠普还将与忆阻器一起改变游戏规则,因此您的记忆力有了新的提高。这并不意味着我们有了更快的东西,就好像我们有了全新的层。然后我们有了SSD存取的事实,您可以并行读取它。您不能并行读取旋转磁盘,除非拥有许多不同的旋转磁盘。但实际上,您可以并行读取一块SSD。而且,因为您可以并行读取,所以如果您实际上在单个CPU上跨多个进程设置了多个进程,并且仅使用SSD,它的读取速度将比其简单读取速度快得多。

据估计,这样做可以达到几乎RAM的速度。这就是说,内存架构的未来尚不清楚。我的意思是,事实是,各种主导供应商(无论他们是谁)可能会决定硬件的发展方向。但是没有人知道现在的情况。我已经与一些数据库工程师进行了交谈,他们说:“我不怕发生了什么事”,但是他们不知道如何从一开始就对其进行优化。而且您总是会这么做,所以很有趣。

然后是CPU。嗯,多核CPU不仅仅是多核CPU。我们还有大量的L1,L2和L3缓存,尤其是L3,我不知道它高达数十兆字节。你可以在那放很多东西。因此,您实际上可以将芯片用作缓存介质。这样就改变了游戏。当然,矢量处理和数据压缩实际上已经有许多厂商做到了,将这些东西拖到了CPU上,以使它们在CPU上的运行速度大大提高。然后您就会发现,配备GPU的CPU确实非常擅长加速分析。他们确实擅长某些查询,这取决于您的查询是什么。

您可以创建带有CPU和GPU的板,也可以像AMD现在所做的那样,生产称为APU的东西,这是CPU和GPU的结合。它具有两种功能。这是另一种处理器。然后,英特尔最近宣布他们将在芯片上安装FPGA。我当时在想:“到底会发生什么?”因为如果CPU,GPU的可能性,以及CPU,FPGA的可能性–顺便说一句,如果您确实愿意,可以在同一块板上放置CPU,GPU和FPGA。我不知道您实际上将以这种方式运行任何事情,但是我确实知道正在这样做的公司,并且它们得到的查询响应非常非常快。这不是将要被忽略的东西,这可能是既定供应商和即将出现的新供应商将要使用的东西。 DBMS始终是并行的,但是现在并行的可能性才有了爆炸性的增长,因为这允许您以多种方式将其与此并行化。

最后,是向上扩展还是向外扩展?扩大规模确实是最好的解决方案,但这只是一回事。如果您可以完全优化一个节点上的CPU和磁盘上的内存性能,则可以得到更好的节点性能。而且您将使用更少的节点,因此它将变得更便宜,对吧?而且更容易管理。不幸的是,这是一个依赖于硬件的设计,并且随着硬件的变化,这样做的可能性越来越小,除非您的工程师能够以硬件变化的速度运行。确实会遇到工作负载问题,因为在进行扩展时,您会对要执行的工作负载做出各种假设。

如果您进行扩展,也就是说,如果您的体系结构强调在进行扩展之前先进行扩展,那么实际上您必须同时进行这两项工作,而仅仅是强调一种。然后,您将获得更好的网络性能,因为该体系结构将处理它。就硬件而言,这将更加昂贵,因为将有更多的节点,但是工作量问题将减少,并且设计将更加灵活。

我只是想把它扔进去,因为如果您真的想到了所有硬件更改,我只是指了指,然后又想到了,您将如何扩展和扩展这些东西?然后您意识到,至少在我看来,数据库工程师的薪水很低。因此,如果您仅考虑硬件层,那么数据库挑战就显而易见了。现在,我将其传递给伯特,他将使我们所有人都受过良好的教育。

埃里克·卡瓦纳(Eric Kavanagh): 而已!伯特?

伯特·斯卡尔佐: 非常感谢你。让我直接进入这些幻灯片。我有很多幻灯片要浏览,因此在其中很多幻灯片上我可能会很快浏览。我们将要讨论的是“向前冲动:超越传统的关系。”不再是您父亲的数据库。情况发生了变化,正如一位早先的发言者所说,在过去的六到七年中,形势发生了根本性的变化。

我本人自80年代中期以来一直在从事数据库工作。我已经撰写了有关Oracle,SQL Server,基准测试和许多其他内容的书籍。 “世界瞬息万变。大不会再打败小。我会加上“适应”。那是鲁珀特·默多克(Rupert Murdoch)的话。我真的相信这将是正确的。您将无法像10、15、20年前那样做数据库工作。您将必须按照企业现在想要的方式进行操作。

我将尝试在介绍的内容中保持通用性,但是我正在谈论的大多数功能都可以在Oracle中找到,您将在SQL Server,MySQL,MariaDB和其他一些重要功能中找到玩家。关系数据库的革命,我再次同意早期的演讲者。如果您看准2010年左右,我们从红色赛车转到了黄色赛车。发生了很大的变化,到2020年,我相信您将会看到另一个重大变化。我们正处于一个非常有趣的时期。

现在,这张幻灯片是关键,这就是为什么我在上面放了一把钥匙的原因。所有这些变化都在进行,左侧是技术,右侧是业务。问题是,哪个因素引起了什么,哪个因素支持了那个?我们进行了所有这些硬件更改:磁盘减少,磁盘大小增加,新型磁盘,因此早期的扬声器对此有所介绍。所有这些较新版本的数据库,内存价格下降。但是在右侧,我们有数据保护和合规性,数据仓库,商业智能,分析,强制性数据保留。等式的两面都在驱动,等式的两面都将利用所有这些新功能。

首先,我们有典型的SAS旋转磁盘,现在它们的大小已达到10 TB。如果您没有看到,西部数据HGST拥有他们所说的氦气驱动器,现在它的容量高达10 TB。旋转磁盘的成本变得越来越低。如前所述,固态磁盘最多可以达到2 TB,但三星很快就会有20 TB的单元。费用正在变得合理。我要谈的另一件事不是闪存盘的概念。 PCIe,即PCI Express,与NVMe相比,您可能听说过这种非易失性存储器。基本上,NVMe将取代SAS和SATA,实际上它是一种通讯协议,而不是其他任何协议。但是现在这些磁盘已高达约3 TB。

您可能还已经看到,某些SAS驱动器现在带有U.2连接器,该连接器与支持标准磁盘NVMe的SAS或SATA的连接器有所不同-当然,磁盘也必须支持它。然后是带有M.2连接器的SATA,这些都开始使用NVMe。实际上,现在有一些笔记本电脑供应商正在销售其中装有NVMe闪存盘的笔记本电脑,与您以前使用的技术相比,这些东西会大叫。

许多人不知道所有这些不同的闪光是什么。如果您在右下角看,那是M.2的示例。您可能会说:“哦,天哪,它看起来很像它左侧的mSATA驱动器。”但是正如您所看到的,它的针脚有两个缝隙,而不是一个,而且更大一些。而且,M.2可以采用三种不同的尺寸。

然后是PCI Express闪存和NVMe闪存。现在,NVMe闪存也是PCI Express,但是PCI Express通常仍然是为旋转磁盘编写的SAS或SATA型控制器算法,而NVMe是专门为闪存编写的算法或技术。同样,您将看到所有这些。

NVMe提供了很多东西。我认为最大的两个改进是,在右上角,延迟减少了多达70%。实际上,我看到的甚至更高。另外,如果您查看右下角的内容,则当您的操作系统与NVMe磁盘进行通讯时,它通过的软件级别将大大减少。基本上,您要通过操作系统附带的NVMe驱动程序,它会直接与媒体对话。这项技术将彻底改变数据库世界的原因有很多。

很多时候,人们会说:“嗯,NVMe有多快?”您知道,过去的美好时光,可以追溯到2004年及之前,如果我们拥有每秒300兆字节的Ultra-320 SCSI,我们会感到非常兴奋。如今的速度,你们中的许多人可能都在使用光纤或InfiniBand,而且速度极快。右侧的NVMe从当前技术的终止处开始。我要说的是,具有八车道链接的PCI Express 3.0的起价将近8000,并且随着我们获得更新版本的PCI Express,第四等产品而不断增加。 NVMe除了无处可去。

现在,数据库中发生了哪些变化?现在,在幻灯片的右上角,我提出了我认为该技术已出现的商业原因。在这种情况下,由于数据仓库和强制保留数据的法规原因,数据库开始在其中提供压缩。现在,有些数据库将压缩作为附加组件提供,有些则将其作为标准的内置组件提供,比如说企业版数据库,而某些数据库(例如Oracle)甚至可以提供更好的压缩版本,即例如,在Exadata平台中,他们实际上已经构建了可以支持非常专业的压缩的硬件,例如,Exadata中的硬件获得了40倍的压缩率,因此非常重要。我认为这是强制性的数据保留,人们只是想要更长的数据。为了进行分析和商业智能,他们需要最近5、10、15年的数据。

现在,在2008年,2009年左右开始出现的另一个功能是分区。再次,您将在Oracle,SQL Server等数据库中找到该数据库,并且在这两个数据库中都需要为此付费。在Oracle中,您必须购买分区选项;在SQL Server中,您必须使用数据中心版本。这是您传统的分而治之的技术,您所要做的就是在顶部具有逻辑大表的概念,并将其放入磁盘后,实际上就分解成了多个存储桶。您会看到,这些存储桶是按照某些分隔条件(通常是引用或称为分区功能)来组织的,然后,同样,您也可以在某些数据库平台中进行子分区,甚至可以进行进一步的操作。

同样,我认为数据仓库和强制性数据保留都推动了这一点,并且在某些数据库中,您最多可以有64,000个分区,而在其他一些数据库中,甚至可以有多达64,000个子分区。这使您可以将数据分解为可管理的部分。您还将对索引进行分区;您可以不必选择此选项,但也可以对索引进行分区。这样做的原因之一可能是您拥有滑动的数据窗口。您想保留10年的数据价值,但是为了删除索引以运行今晚的批量加载,您不必只在当前存储桶中的每一行上删除索引。分区实际上是一个非常好的管理工具,尽管大多数人认为分区的巨大好处是在您的计划中放弃了分区消除,从而加快了查询速度。这真是锦上添花。

现在您可能听说了分片,并且您可能会想,“好吧,为什么将这张幻灯片放在这里?”这是NoSQL之一–这是那些Hadoop类型的环境之一。 Oracle 12c发布了两个版本,这还不是G8,但是正在显示或预览的版本中确实有分片。您将拥有像Oracle这样的传统数据库系统,并且能够像在Hadoop模型中一样进行分片,因此,您将拥有另一种分而治之的技术,它将拆分您的逐行将其分为每个节点的分组,就像在某些NoSQL数据库中看到的那样。实际上,对于MySQL,您实际上可以使用他们的一种群集技术来完成这项工作,但是它已经进入了传统数据库,我猜想Microsoft不会被抛在后面。这两个人一直在互相跳蛙,所以我希望在下一版本的SQL Server中能看到分片。

数据生命周期管理,再次是强制性数据保留,还用于商业智能和分析。确实,这是一种分而治之的技术,通常DBA会手动执行此操作,也就是说,“我将把今年的数据保留在快速磁盘上,将去年的数据保留在稍慢的磁盘上,也许我会可以将最后两年的数据保存在更慢的磁盘上,然后我将采用一些存档方法。”通常不再使用磁带,通常是–使用某种类型的网络连接存储或具有很多功能的设备存储,并且成本效益高,但它仍在旋转磁盘。

因此,现在您实际上可以在Oracle和SQL Server上购买定义规则的选件,而这只是在后台自动发生。您无需再编写脚本,也无需执行任何操作。而且,如果您看过6月初发布的SQL Server 2016,则有一个名为“ Stretch Databases”的新功能,它基本上可以使您(在该页面的右下角)可以从多层直接迁移到云中再说一次,这是内置于数据库中的一项功能,您只需说一句类似的话:“如果数据已存在365天以上,请将其移至云中,并且您会自动为我完成此操作。”

这将是一个非常酷的功能,实际上,我在想,这可能是我们将来要看到的功能,也就是说,您将拥有混合数据库,其中将保留一些本地信息。还有一些在云中。在此之前,人们曾想过:“哦,我要么在内部部署,要么在云上部署。”现在,我们看到两种技术以这种混合方式结合在一起。我认为这将是一个很大的规模,并且微软首先到达了那里。

编辑,这是由于数据保护和合规性。现在,在过去的好日子里,我们可能会说:“嘿,应用程序开发人员,当您在报表中显示此内容时,当您在屏幕上显示此内容时,您应该检查一些安全事项,请知道,仅显示数据好,像往常一样,当您将其推送到应用程序时,它并没有在一个地方完成,因此它会以不同的方式完成,或者没有完成。在某些地方还没有完成。因此,现在您实际上已经在数据库系统中获得了此功能。

现在,在SQL Server 2016中,此功能已内置,因此,它不是数据中心新增的可选费用项目;在Oracle 12中,您必须购买他们的生命周期管理插件,但这是新事物,并且再次受到业务的推动。特别是因为您现在要保存大量数据,并且正在进行数据挖掘,因此BI和分析必须知道谁正在访问哪些数据并确保只允许他们查看什么。他们被允许看到。

同样,再次来看一下数据保护和合规性。您会发现现在很多数据库系统正在构建压缩,或者很抱歉,直接将加密加密到数据库中,如果您查看写入它的关系图上的向下箭头和向上箭头,那么此加密的重要意义到磁盘加密,然后将其读回内存并解密。实际上,这是一个模型,而又有一个模型,只有在它通过网络将数据传递到实际的客户端应用程序时,它才会执行。

在这种情况下,它甚至仍可以存储在数据库服务器的内存中,并且只有在将其发送到客户端应用程序时才可以加密和解密。这里有两种不同的模型,您可以在数据库中找到它们,事实上,最近刚刚添加的数据库之一是其版本10.X中的MariaDB。我相信他们现在是10.1或10.2。而且我实际上对此加密做了一些基准测试,为了获得这种加密,我仅经历了吞吐量或速度下降了8%左右的情况。在基准测试中,加密不会造成太大的影响,因此这是一个非常有用的功能。

现在,我们在前面提到了有关闪存和SSD的信息。 Oracle和SQL Server中许多人没有意识到的功能之一是,您可以使用数据库服务器上的闪存或SSD,并且可以对数据库说:“就好像它们是内存一样使用。将RAM视为优先级,但假装这是慢速内存,并将其用作扩展缓存。”现在,在SQL Server 2014中,它问世了,称为“缓冲池扩展”,它是免费的。在Oracle中,它是在11g R2中推出的,它被称为“数据库闪存缓存”,并且在那里免费提供。

不过,我的建议是仔细测试该功能。每次进行查找时,每次使缓存更大时,它都将花费更长的时间。如果您将一个3 TB的闪存卡放入数据库,并说“将其添加到内存中”,实际上您可能会发现由于由于需要查看时间而使速度变慢,并且看到它在闪存中,脏了还是脏了。清洁?有一点是收益递减。我的建议是再试一次,看看有什么用,但是再一次,它存在于您的数据库中;如果是Oracle,则存在于SQL Server和Oracle中,已经存在了几年。

然后把我们带到内存数据库的祖父那里,这是因为数据库价格下降了。您可能认为发生这种情况的另一个原因是,许多分析要求非常快速地访问数据,因此它必须在内存中。请注意,数据库用于访问此数据,对其进行压缩,对其进行加密,对其进行存储的算法,您知道在某些情况下某些数据库可能会继续将内存存储为一行。

在某些情况下,某些数据库可能会将其分解为面向列的数据库,这样做的原因是,它们通过按列顺序与行顺序进行存储而获得了更高的压缩级别,大约在11到12倍之间。它首先出现在SQL Server 2014中,称为“ Hekaton”。它在SQL Server 2016中得到了根本的增强,他们会看到它被一些不同的名称引用,并在Oracle 12c中出现。我说的是这里的第二个版本,而不是R2。 Oracle 12c有两个不同的版本,即12.1.0.1和12.1.0.2.。这是数据库R1版本的第二个版本。

而且,在两个数据库中,内存对象的定义方式相似。在这里,您可以在右上角看到我正在创建一个SQL Server,并且可以看到它说的是内存优化且持久性仅是模式。我不会讨论所有这些语法含义,在Oracle中实际上甚至更简单,您只需更改一个表并在内存中说或不说,就可以更改它。我可以说今天是内存中,明天不是,因此它非常灵活。

我使用内存表在Oracle上进行了一些测试,运行了将近40分钟的测试,排在第一行。现在重要的是,当我到达最下面的两行时,我已经增加了运行时间或将运行时间减少了大约五分钟,当我查看压缩因子时,内存中的数据实际上是3.6缩小至4.6倍。这很重要,因为在这种情况下,我使用的是面向列的格式及其压缩方式。那你猜怎么着?实际上,我存储的内存几乎是四到五倍。我不仅获得了内存中的优势,面向列的优势,而且还获得了更多数据的优势–内存缓存中的数据多达五倍,因此这是一项非常强大的技术。再说一次Oracle和SQL Server,您想看看它们,它们确实是很酷的功能。有了这些,我想我会提出很多问题。

埃里克·卡瓦纳(Eric Kavanagh): 伯特,首先,您在所有精彩的教育中都非常无私。您能谈一谈你们的工作吗?因为您拥有一些可以促进您一直在谈论的内容的支持技术。只需谈论一下您的工作,然后让Dez和Robin进入方程式即可。

伯特·斯卡尔佐: 是的,我在一家名为IDERA的公司工作。我们位于德克萨斯州,总部位于休斯敦,实际上我现在坐在奥斯汀,但我的总部位于达拉斯。我们制造数据库工具,并制造数据库工具来帮助您解决问题。这个问题可能和生产力一样简单,在这种情况下,我们有一个名为DBArtisan的工具可以让您执行数据库管理任务,而它却可以让您管理12个不同的数据库平台。我可以管理SQL Server,可以管理Oracle,可以管理MySQL,DB2,Postgres,而且我使用的是一种工具,一种可执行文件,一种GUI设计和一套一致的工作流程。我们还提供实现合规性的工具,我们有一个名为SQL Compliance Manager的工具来帮助您满足合规性需求。另一个名为SQL Security的工具,因此我们尝试制作可帮助您高效工作的工具,如果您访问我们的网站,那真的很不错,我们这里有很多免费软件,因此,如果没有其他功能,请下载–我认为我们有20或25个免费软件。这里有一些非常好的免费软件,例如SQL Server和Windows帮助检查,它基本上只是查看您所拥有的内容,并告诉您是否有问题或事物,并且它们是完全免费的。

埃里克·卡瓦纳(Eric Kavanagh): 你真的是-

伯特·斯卡尔佐: 绝对是第一件事

埃里克·卡瓦纳(Eric Kavanagh): 您说的是当今市场的异质性,过去曾经是一种千篇一律的方程式,实际上我记得在2005年迈克尔·斯通布雷克(Michael Stonebraker)博士大力推动时采访了他在谈论关于面向列的数据库运动的判决时,他谈论的是多年来“一刀切”的所有关系模型如何占主导地位,他预测这一切都会改变,而男孩对此是正确的。现在,我们有了一个非常多样化和有趣的环境,有很多不同的选择和机会,但是您确实需要有人来管理所有这些,而且在我看来,您的公司非常专注于解决数学问题,因此可以推动数学的发展。异构头,对不对?

伯特·斯卡尔佐: 绝对。我的意思是,总会有DBA说:“我不想使用GUI工具,我用脚本做所有事情,”您知道吗?他们认为这是DBA的超人类型,这很好,但是对于我们大多数人来说,我们只想完成工作,而且–您知道,我使用Microsoft Word编写文档。我使用Microsoft Outlook来完成。我的意思是,我有执行任务的工具。我们正在建立相同的概念,正在为数据库管理员和开发人员构建工具,以帮助他们专注于他们想要做的事情,而不是他们必须做的事情。

埃里克·卡瓦纳(Eric Kavanagh): 这样做是有道理的,但让我转交给我们的专家,您可以自由地参与讨论。听众发表了一些评论。也许Dez有几个问题,Robin有几个问题?

Dez Blanchfield: 当然。鉴于您拥有丰富的经验,我想向您提出的第一个问题是,您很快就会意识到其中的任何一点都会变慢的时间点吗?还是您认为我们真的正处于这种不断增长的变化线的切入点?我认为公司所面临的最大问题之一,而总是试图支持为那些公司提供业务运营技术的人们所面临的最大变化是,变化的速度如此之快,以至于他们跟不上所有事物。出现了不同的功能,软件,系统,框架,体系结构以及新代码,然后是其下的硬件,您是否看到当前的变化速度立即降低了?我的意思是,您可以使用整个IDERA套件处理如此广泛的平台,是我们很快就要放慢脚步,还是很长一段时间都在这种疯狂的失控货运列车上?

伯特·斯卡尔佐: 我认为我们处于该增长曲线的前20%,并且还有很长的路要走,有两方面的推动力。技术在不断发展。您已经提到了一些即将出现的新的内存类型,这将是很棒的。三星很快就会在这里拥有20 TB的闪存驱动器。这将改变一切。我们已经拥有了所有这些NoSQL和云数据库,这将继续下去。但是,一件有趣的事是,当我查看Oracle和SQL Server等数据库以及其他一些数据库时,它们实际上不再是关系数据库。我可以将非结构化数据放入Oracle,但仍保持ACID合规性。如果您在20年前告诉我,我只是说您正在吸毒。

Dez Blanchfield: 是的,很酷。好吧,即使现在,那些具有相当不错的利基垂直市场的引擎(例如GIS),也比现在的本机功能更好。您对DBA所面临的挑战以及我们希望在各地看到的DBA的不同时期发表了很好的评论,但是与您所处理的业务层次相比,世界看起来如何?我的意思是,这些人使用的平台从诊断管理器到清单工具,再到碎片整理,一路走来,DBA如何应对这种变化以及他们如何处理这些平台-您知道,他们在使用您的工具做什么以应对这种格局的重大转变?

伯特·斯卡尔佐: 好吧,我将回溯将近20年前,然后我要说的是DBA在组织中扮演着非常特殊的角色。他们通常使用一个数据库平台(可能是两个),并且管理相对较少的数据库。现在到数据库管理员为止,他实际上将要了解10个数据库平台。他正在管理,这在某些情况下是数千个数据库,这不是开玩笑。在SQL Server领域或MySQL领域更是如此。但是仍然在Oracle世界中,他们可以管理数百个数据库。因此,他们推出了所有这些新功能,拥有了所有这些新平台,并拥有了负责的所有这些数据库。他们正在寻找工具来提高生产力并帮助他们学习一些东西。

我举一个例子-如果要对表进行分区,这是一种晦涩难懂的语法,如果要对它进行子分区,则语法会变得更加困难。我知道我想做什么,我想创建存储桶。如果我有一个像DBArtisan这样的工具,它说:“嘿,这是一个不错的屏幕,让您专注于要尝试做的事情而不是如何做,然后顺便说一句,完成后,显示“ SQL”按钮,我们将向您展示什么是SQL,以便您可以开始真正地学习和掌握它。”

DBA发现工具既可以帮助他们完成工作,又可以帮助他们教会他们正在使用的所有这些新知识,这同样是正确的–假设我是Oracle专家,然后进入MySQL并说, “好的,创建一个数据库,DBArtisan。现在,向我展示SQL,因为我想知道在MySQL上创建数据库的感觉,我只是学习语法。”因此,我们不仅在帮助他们跨数据库工作,而且还在跨数据库教育他们。

Dez Blanchfield: 当您接触到一些更现代的(或不更现代的,说起来不公平)时,它会变得更加有趣,但是从前数据库是数据库。这些天来,我看到您在谈论的所有内容都带有附加挑战,即传统上我们从供应商处看到的技术堆栈,而且您将其中的某种开源技术也表现得很好。不仅要处理数据库引擎和查询语言,还要处理结构化和非结构化的数据类型(要知道),这是必须处理多PB HDFS范围内的所有问题的挑战。环境到小的微型容器,数据包文件和各种日志文件格式。

我认为现在这就是我们正在看到的地方,没有一个人,无论有多少超人,超女,无论他们以为是什么,他们的身体上,他们只是无法从心理上应对这种变化,变化的规模。我认为您现在提供的工具套件将达到某种程度,它们将在许多方面几乎都处于默认状态,因此我们无法运行没有它们的数据库环境,因为我们只是物理上不能向他们扔那么多尸体。我非常喜欢您的演讲。我将转交给罗宾·布洛尔(Robin Bloor)博士,我相信他也有很多问题要问您。

罗宾·布卢尔(Robin Bloor): 好的。好吧,我当然有疑问。伯特,我不知道你要去哪里–几天前,我进行了一次非常有趣的对话,有人开始告诉我最新的DU数据保护,从他们的观点看来,这在我看来是难以置信的在他们坚持的事情上严厉。我想知道您是否真的在看这个;你熟悉吗?

伯特·斯卡尔佐: 绝对。是的

罗宾·布卢尔(Robin Bloor): 2016年,好的,告诉我们。

伯特·斯卡尔佐: 而我实际上-

罗宾·布卢尔(Robin Bloor): 非常有趣。

伯特·斯卡尔佐: 实际上,我为Flash供应商工作了一段时间,在他们的数据库区域中帮助他们为数据库构建Flash产品,我可以告诉您,这个严厉的做法一路下滑。我的意思是,如果您还记得我的一张幻灯片,我说过在某些数据库中它将进行加密,但是将其放入服务器内存中,而在某些数据库中将其加密–它仍在服务器内存中进行加密,只有在以下情况下才被解密它被发送到客户端。嗯,您还会发现其中一些政府标准,尤其是美国的国防部或军事部门,它们也一直下降到闪存级别,他们不仅想知道您是否支持加密和解密。您的硬件,但是如果有人偷走了这些芯片-您知道,将它们从服务器中拉出,那是加密的,因此即使他们拥有了无法存储的存储,他们也会一直到实际–不仅是闪存部分本身,而是各个芯片。他们想知道每个芯片都被加密了。

罗宾·布卢尔(Robin Bloor): 哇。我的意思是,有很多事情-您知道,我只提出了一张或两张幻灯片,但这确实是一种有趣的情况。例如,信息编辑不仅要掩盖各个领域,还需要一点技巧,因为特别是在当今的机器学习中,您可以做一些演绎性的工作,使您可以公开以前无法公开的信息。

如果您想保护健康,比如说健康信息,那么在美国,这是关于健康信息的非常严格的规则,但是实际上,您可以使用各种机器学习技术来确定谁是某人的医学信息实际上是。我只是想知道您是否对此有话要说,因为他们都认为这是一个有趣的领域。

伯特·斯卡尔佐: 是的,绝对,我只是以这个例子为例,我并不是要说一个数据库比另一个数据库更好,但这是您所问的一个很好的例子。例如,在Oracle中,不允许我查看一行数据,例如不允许我查看John Smith病历。在Oracle中,如果我说“选择该记录”,我将被阻止,或者将被允许看到允许看到的内容并将被删除。如果我说“从等于约翰·史密斯的表中选择帐户星号”,我将得到零。

在SQL Server中,它可以进行编辑,但有一些漏洞。如果我说“从等于约翰·史密斯的表中选择帐户星号”,我实际上会找回一个,因此我知道有一个约翰·史密斯。一个比另一个更安全。现在,我希望他们能解决这个问题,他们总是互相跳蛙。再说一次,除了展示一个例子外,我并没有试图在数据库之间进行区分–看一下我们现在在说什么,即使是从技术上讲,选择帐户也要像select帐户一样简单。话说回来,除了该行的存在之外,没有其他要修改的内容。

罗宾·布卢尔(Robin Bloor): 是的,对。很有意思。我的意思是,由于我没有太多时间,另一个普遍的问题实际上是关于改进的问题。我的意思是您去过一个地方,我知道您已经向我们展示了您所运行的各种测试结果的示例–您是否认为传统数据库(我们称它们为主要数据库,SQL Server和Oracle),认为他们会领先于完成?还是您认为他们实际上会被真正为他们服务的各种市场干扰中的一种或另一种所吸引?你怎么看?

伯特·斯卡尔佐: 我有一种看法,而且-您知道,我要再次说这是我的看法-例如,在后Baller时代,微软给我留下了深刻的印象。我的意思是,这个拉伸数据库在Linux上使用SQL Server,在Linux上使用.NET,在Linux上使用PowerShell。我认为传统的数据库供应商不会落伍。我认为他们已经决定,“嘿,让新手,初创公司定义一些东西。让他们弄清楚分片是什么以及应该如何完善分片,一旦他们完成了所有的研究和开发,我们就确切地知道了用户的需求,现在让我们向Oracle添加分片。说,“嘿,当您是主导者时,排在第二或第三名还不错,因为那样一来,人们就不会从您那里迁移出去。”

罗宾·布卢尔(Robin Bloor): 是的,我的意思是这是一种已被使用的策略。我的意思是说IBM曾经这样做,并且在整个产品范围内都这样做,并且它的评级相当不错,直到有人提出完全没有人想到的东西,但您无法计划无论如何反对。

听众有问题吗,埃里克?

埃里克·卡瓦纳(Eric Kavanagh): 是的,但是您有时间,我想可能只有一个,而且我知道Bert必须参加比赛。这里有一些有关–好的,Oracle 12c上的分片架构是一种指示–或者您认为是什么指示,您认为那里正在发生什么?

伯特·斯卡尔佐: 好吧,Oracle正在吸收或提供所有其他数据库供应商所拥有的一切。例如,我可以将非结构化数据放入Oracle。我不知道如何放置非结构化数据,然后将其称为关系数据库,所以它没有任何意义,但是可以。现在,Oracle正在添加分片,因此Oracle在说:“您知道吗?无论市场想要什么,我们都会提供数据库,因为市场想要市场想要什么,我们想要提供解决方案,我们希望他们与我们在一起。”

我认为您将看到其他项目。看到类似Hadoop的数据库节点集群不在Oracle机架或实际应用程序集群中,而基本上是在传统的Hadoop类型集群中进行这种分片,我不会感到惊讶。因此,我认为您将能够像Hadoop一样部署像Oracle这样的数据库,并且这种趋势还将继续。这些大型的数据库供应商,他们赚了数十亿美元,他们不想失去自己的市场,因此他们愿意适应任何事物或采用任何事物。

埃里克·卡瓦纳(Eric Kavanagh): 好吧,你知道,这很有趣,因为我已经关注开源供应商一段时间了,并且想知道这一切将对传统的闭门技术产生多大的影响,而且有一段时间,开源供应商正在取得长足发展,现在,当我看市场时,我会看到您在说什么,大公司已经完成了数学运算,磨了铅笔,他们弄清楚了如何编织很多东西进入了他们的架构。无论是IBM,Oracle还是SAP –上个月我刚参加SapphireNow会议时,该公司一半负责人史蒂夫·卢卡斯(Steve Lucas)都吹嘘说,SAP现在在其HANA云平台中集成了比任何其他开源组件更多的开源组件。竞争对手。如果您对此进行数学计算,这将是一个非常令人印象深刻的陈述,它告诉我,大个子们很快就不会去任何地方。

伯特·斯卡尔佐: 不,我会把钱都押在这两者上。我的意思是,如果您看一下,微软的股价最近在50美元左右,而几年前,它的价格是25美元。除非您做得好,否则您不会在短时间内使股价翻番。知道,从第一年免费提供Windows 10到他们正在执行的所有其他智能操作,我认为这种可扩展的数据库功能非常出色。我认为将要发生的事情是很多人最终将直接进入Azure,而不是像他们所说的那样:“让我将数据库迁移到Azure。”它将神奇地迁移到那里,因为它将被存档使用这种新的拉伸数据库功能,因此Azure的采用将飞速增长。

埃里克·卡瓦纳(Eric Kavanagh): 嗯,即使在Mac上,这也是我所能看到的市场趋势之一。当您进入Mac来保存一些文档时,它们现在就可以了,而新的Mac只是随云而行,对吗?我的意思是说,这种策略有很多意义,我也要仔细研究一下,“好的,你们正试图将我逐步吸引到您的云环境中,然后有一天我想看电影的时候我的信用卡已过期,我会遇到麻烦的。”

伯特·斯卡尔佐: 是的,但是您可以继续进行。

埃里克·卡瓦纳(Eric Kavanagh): 是的确实如此。

伯特·斯卡尔佐: 你把一切都穿上了。

埃里克·卡瓦纳(Eric Kavanagh): 好吧,不是全部。

伯特·斯卡尔佐: 不,我的意思是-

埃里克·卡瓦纳(Eric Kavanagh): 是的,继续。

伯特·斯卡尔佐: 这些社会趋势正在影响企业。现在,企业还有许多其他事情要做,但是他们看到了这些趋势,并且正在做同样的事情。我没有看到Oracle或Microsoft消失。实际上,每次下跌时,我都会购买股票。

埃里克·卡瓦纳(Eric Kavanagh): 确实是的。伙计们,请访问idera.com,I-D-E-R-A点com。就像伯特所说的那样,他们那里有很多免费的东西,这是市场上的新趋势之一–给您一些免费的东西玩,让您着迷,然后再去购买真实的东西。

民间,这是另一项热门技术。感谢您今天的宝贵时间,当然还有Bert,Dez和Robin。下周,我们会与您联系,伙计们,还有很多事情要做。如果您有任何想法,请尽情享受。下次我们会与您联系,保重。再见。