云中的大数据-我们的数据有多安全？

内容

分布式编程框架中的安全性问题
数据和事务日志问题
数据验证问题
实时大数据安全监控
没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南
面对安全威胁的策略
改善分布式编程框架中的可信度
强大的数据保护政策
分析
在收集数据时检测异常值
结论

资料来源：Cuteimage / Dreamstime.com

带走：

探索对云中大数据的最大威胁，并学习防范它们的方法。

大数据量每天都在急剧增加。大数据预计将从2012年的2500艾字节增长到2020年的40,000艾字节。因此，数据存储是一个严峻的挑战，只有云基础架构才能处理。云之所以成为一种流行的选择，主要是因为其巨大的存储容量以及其使用条款和条件，不会对订户施加任何义务。可以以预定期限内的订阅和服务的形式提供云存储。之后，客户没有义务对其进行续订。

但是，将大数据存储在云中会带来新的安全挑战，而常规静态数据所采用的安全措施则无法应对这些挑战。尽管大数据并不是一个新颖的概念，但仅在近年来，其收集和使用才开始加速。过去，大数据存储和分析仅限于能够负担得起数据存储和挖掘所需基础结构的大公司和政府。这样的基础设施是专有的，不会暴露于通用网络。但是，现在可以通过公共云基础架构以便宜的价格为所有类型的企业提供大数据。结果，出现了新的，复杂的安全威胁，并且它们继续成倍增长。

分布式编程框架中的安全性问题

分布式编程框架使用并行计算和存储技术来处理大数据。在这样的框架中，未经身份验证或修改的映射器（将大型任务划分为较小的子任务，以便可以汇总这些任务以创建最终输出）会破坏数据。有故障或已修改的工作程序节点（从映射器获取输入以执行任务）可能会通过窃听映射程序与其他工作器节点之间的数据通信来破坏数据。恶意工作程序节点也可以创建合法工作程序节点的副本。在如此庞大的框架中很难识别恶意映射器或节点，这使得确保数据安全性更具挑战性。

大多数基于云的数据框架都使用NoSQL数据库。 NoSQL数据库对于处理庞大的非结构化数据集很有帮助，但是从安全角度来看，它的设计很差。 NoSQL最初的设计几乎没有考虑安全性。 NoSQL的最大弱点之一是事务完整性。它具有较差的身份验证机制，这使其很容易受到中间人攻击或重放攻击。更糟糕的是，NoSQL不支持第三方模块集成来增强身份验证机制。由于身份验证机制比较宽松，因此数据也容易受到内部攻击。由于不良的日志记录和日志分析机制，攻击可能不会引起注意和跟踪。

数据和事务日志问题

数据通常存储在多层存储介质中。当卷相对较小且静态时，跟踪数据相对容易。但是，当体积呈指数增长时，将使用自动分层解决方案。自动分层解决方案将数据存储在不同的层中，但不跟踪位置。这是一个安全问题。例如，一个组织可能拥有很少使用的机密数据。但是，自动分层解决方案不会区分敏感数据和非敏感数据，而只会将很少访问的数据存储到最底层。最下层的安全性最低。

数据验证问题

在组织中，可以从各种来源收集大数据，这些来源包括端点设备，例如软件应用程序和硬件设备。确保收集的数据不是恶意的，这是一个巨大的挑战。任何有恶意的人都可能篡改提供数据的设备或收集数据的应用程序。例如，黑客可能会对系统进行Sybil攻击，然后使用伪造的身份将恶意数据提供给中央收集服务器或系统。由于用户可以在企业网络内使用其个人设备，因此这种威胁特别适用于自带设备（BYOD）的情况。

实时大数据安全监控

实时监视数据是一个巨大的挑战，因为您需要监视大数据基础架构及其正在处理的数据。如前所述，云中的大数据基础架构不断受到威胁。恶意实体可能会修改系统，以便其访问数据，然后不断产生误报。忽视误报是非常危险的。最重要的是，这些实体可以尝试通过进行逃避攻击来逃避检测，甚至使用数据中毒来降低所处理数据的可信度。

没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时，您就无法提高编程技能。

面对安全威胁的策略

大数据安全策略仍处于起步阶段，但它们需要快速发展。安全威胁的答案在于网络本身。网络组件需要绝对的信任度，这可以通过强大的数据保护策略来实现。宽松的数据保护措施应为零容忍。还应该有一个强大的自动化机制来收集和分析事件日志。

改善分布式编程框架中的可信度

如前所述，不受信任的映射器和工作节点可能会损害数据安全性。因此，需要映射器和节点的可信度。为此，映射器需要定期验证工作节点。当工作程序节点向主机发出连接请求时，该请求将在工作程序具有一组预定义的信任属性的前提下被批准。此后，将定期检查工作人员是否遵守信任和安全策略。

强大的数据保护政策

由于分布式框架和NoSQL数据库固有的弱数据保护，因此需要解决对数据的安全威胁。密码应使用安全的哈希算法进行哈希处理或加密。即使考虑了性能影响，静态数据也应始终进行加密，并且不要遗漏。硬件和批量文件加密本质上是更快的，可以在一定程度上解决性能问题，但是攻击者也可以破坏硬件设备的加密。考虑到这种情况，优良作法是使用SSL / TLS在客户端和服务器之间建立连接以及在群集节点之间进行通信。此外，NoSQL体系结构需要允许可插入的第三方身份验证模块。

分析

大数据分析可用于监视和识别与群集节点的可疑连接，并不断挖掘日志以识别任何潜在威胁。尽管Hadoop生态系统没有任何内置的安全性机制，但可以使用其他工具来监视和识别可疑活动，但前提是这些工具必须满足某些标准。例如，此类工具必须符合Open Web Application Security Project（OWASP）准则。预计随着已经发生的一些事态发展，对事件的实时监视将得到改善。例如，安全内容自动化协议（SCAP）逐渐应用于大数据。 Apache Kafka和Storm有望成为良好的实时监控工具。

在收集数据时检测异常值

仍没有可用的防入侵系统来完全防止数据收集时的未授权入侵。但是，可以大大减少入侵。首先，必须将数据收集应用程序开发为尽可能安全，并牢记BYOD方案（当该应用程序可以在多个不受信任的设备上运行时）。其次，坚定的攻击者可能甚至会破坏针对中央收集系统的最强大的防御和恶意数据。因此，应该有检测和过滤出此类恶意输入的算法。