传统与创新的纽带：数据的转折点

内容

没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南
正事
Kafka如何改变数据管理

带走：

Kafka将为LinkedIn的商务人士提供信息系统服务：使他们在广泛的范围内保持联系。

通过热情地相信尚不存在的事物，我们创造了它。不存在就是我们没有充分想要的。

〜弗朗兹·卡夫卡

必要性仍然是发明之母。正如一位精明的顾问曾经告诉我：“如果组织中需要发生某些事情，那么它正在发生。”他的观点有两点：1）有些人总会找到一种方法来完成任务； 2）高级管理人员甚至中层管理人员可能完全不知道自己公司内部的工作情况。

如果将这个比喻扩展到整个数据管理领域，那么我们可以看到正在发生的转变。大数据的原始压力与流数据的轴线相结合，产生了巨大的压力，以至于旧系统即使没有完全崩溃也正在边缘发展。然而，此时此刻有无数的专业人员从事他们的工作，他们基本上不了解这一现实。

数据承载的，数据驱动的企业占据一席之地，并且在许多方面都在推动这一变化。考虑一下像Yahoo!和LinkedIn这样的强国如何通过向开源提供巨额捐款来扭转企业软件行业的局面：Hadoop，Cassandra和现在的Kafka，所有这些都由Apache基金会管理，而Apache基金会本身就是这种变态反应的核心参与者。

所有这些变化的结果是什么？今天目睹的是数据管理本身的重新分类和重组。这并不是说遗留系统现在将被淘汰并被替换。任何行业资深人士都会告诉您，旧系统的大规模解散与芝加哥小熊队赢得世界大赛的发生频率差不多。至少可以说这是罕见的事件。

真正发生的是，围绕旧系统构建了一个超级结构。考虑到州际公路的类比，它通常高于其服务的城镇，旨在将人员和货物运送到这些人口中心，并向其中的任何人提供出口。他们并没有取代现有的道路，而是以高速替代道路来扩大它们。

那正是Apache Kafka所做的：它为信息系统之间的数据移动提供了高速路由。按照高速公路的类比，仍然有许多公司使用线性队列或ETL的旧标准（提取-转换-加载）。但是这些路径的速度限制较低，并且坑洞很多。此外，维护成本通常很高。标牌差。

Kafka提供了另一种传递数据的方法，该方法绝对实时，可扩展且持久。这意味着卡夫卡不仅是数据移动工具，而且还是数据复制器。某种程度上是分布式数据库技术。我们应该谨慎对待此类比喻，因为Kafka尚不具备ACID兼容数据库的特征。尽管如此，变化是真实的。

对于信息领域而言，这是个好消息，因为现在可以自由地在全国范围内以及世界范围内移动数据。过去曾经是一个痛苦的约束，即为ETL过程打了批处理窗口，现在却逐渐散去，因为雾在炎热的阳光下让天空晴朗。当将数据从一个系统移动到另一个系统变得无缝时，新机遇时代就来了。

没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时，您就无法提高编程技能。

在新的数据未来之路上，人类可能代表着最大的摩擦。旧习难改。首席信息官纳里（Nary）对于对企业系统进行全面更改感到非常兴奋。一位精明的高级主管说：“准备变得孤独。”在发表评论的一年之内，他是一名顾问。试图管理极其笨拙的企业数据世界，这不是一条容易的道路。

好消息是，Kafka为未来提供了方便。因为它是高性能，多面的总线，所以它在传统系统和前瞻性系统之间架起了桥梁。因此，以开放的胸怀和充足的预算来拥抱这一新机会的组织将能够步入新世界，而不会落后于旧世界。那是一个严重的大问题。

正事

尽管Apache Kafka是一种开源技术，任何人都可以免费下载和使用，但为LinkedIn创建该软件的人却剥离了一个名为Confluent的独立实体，该实体致力于加强企业使用的产品。与Cloudera一样，Hortonworks和MapR都围绕Apache Hadoop的开源项目建立了业务，因此Confluent寻求通过Kafka获利。

在最近的InsideAnalysis采访中，Confluent首席执行官兼联合创始人Jay Kreps在LinkedIn上解释了其起源：

“我们试图在那里解决几个不同的问题。一个是，我们拥有所有这些具有不同种类数据的不同数据系统。我们有数据库，我们有日志文件，我们有关于服务器的指标，有用户点击了东西。收集所有数据-变得越来越大-真的很困难，只有当您能够将数据传递到应用程序，处理程序或需要它的系统时，数据的力量才能存在。

“我们遇到的另一个问题是我们采用了Hadoop，这是我所涉及的。我们拥有一个出色的离线处理平台，可以扩展并可以将所有数据放入其中。对于LinkedIn，我们的所有数据都是真实发生的。时间，不断产生数据。当我们尝试根据数据实际构建业务的关键部分时，总会出现这种不匹配的情况；在一天一次（可能是晚上）运行的某个时间之间，到第二天才产生结果的时间之间，以及这种持续不断的数据-短的交互时间-您必须赶上。我们希望能够做一些学术界已经存在的事情，但实际上并没有成为主流，在数据流生成时而不是在数据存储时进行访问并对其进行处理。”

好。这正是Confluent现在寻求与各种形状和大小的企业数据进行关联的目的。机会在发挥吗？格林菲尔德。坦率地说，在企业软件的整个历史中，人们可能会争辩说，这项技术的潜在市场绝对是蛋糕。没有一个大型组织，甚至没有大量数据的小型企业都无法从这项技术中受益匪浅。

由于这项技术的神经方面，这尤其如此。不只是涉及的思想，还有卡夫卡为信息系统所做的工作的本质。由于Kafka可用于管理整个组织中的数据移动，因此它不仅可以看作是交通警察，还可以看作是运营本身的大脑。处于该愿景的早期阶段，但请放心，它是真实的。