2012年1月24日,星期二11:26

带有内存数据库的业务分析

撰写者

抽象

商业智能(BI)和数据仓库供应商越来越多地转向内存中技术来代替传统的基于磁盘的存储,以加快实施速度并扩展自助服务功能。

多年来,已经注意到创建客户数据查询和构建商业智能报告的过程是一项长期的工作。这是因为所需的信息必须从操作系统中提取,然后在可以接受查询的单独的分析数据仓库系统中进行控制。但是,现在,随着真正的“内存中分析”技术的出现,该技术将允许将操作数据存储在一个数据库中,该数据库可以处理所有日常客户交易和更新以及分析请求–几乎实时。

起始问题

成功的Business Analytics项目实施始于提出正确的问题。 以下是一些应列入您的清单。

·  如何利用不断增长的数据来管理和维护现有报告的性能?

·  除了可以分析非常大的数据集,却更易于设置和管理的数据仓库之外,什么是经济高效的替代方案?

·  我今天可以做什么以支持近实时报告要求,而又不严重依赖IT部门?

·  我如何向我的公司证明价值,以扩展实时临时查询功能,以实现诸如金融服务之类的大宗交易功能?

·  如何最大程度地减少管理开销,同时又为最终用户提供透明的报告环境?

本文的目的是从内存和基于磁盘的角度对这两种BI技术进行透视,解释它们之间的差异,并最终以简单的方式解释为什么基于磁盘的BI技术没有消失。相反,请说明考虑内存数据库BI解决方案的必要条件。

但是在开始之前,让我们了解基于磁盘的数据库和内存数据库之间的区别。

基于磁盘和内存的数据库

无论是基于磁盘的数据库还是基于内存的数据库,我们都在谈论在应用程序主动查询数据时数据所处的位置。首先将要查询的数据加载到RAM(随机存取存储器)中。

基于磁盘的数据库经过精心设计,可以有效地查询硬盘驱动器上的数据。从最基本的角度来看,这些数据库假定整个数据无法容纳在相对少量的可用RAM中,因此必须具有非常高效的磁盘读取功能,以便在合理的时间范围内返回查询。 另一方面,内存数据库在相反的假设下工作,即数据可以完全放入RAM中。内存数据库的工程师可以利用计算机拥有的最快的存储系统(RAM)来受益,但要使用的存储系统要少得多。

与基于磁盘的技术和内存技术的基本权衡是读取速度更快,数据量有限,而读取速度较慢且数据量实际上是无限的。这是商业智能应用程序的两个关键考虑因素,因为具有快速的查询响应时间和访问尽可能多的数据非常重要。

快速的分析,更好的洞察力和快速的部署,而IT参与最少!

它是什么?

顾名思义,常规BI工具和内存产品之间的主要区别在于前者在磁盘上的查询数据,而后者在随机存取存储器(RAM)中的查询数据。当用户对典型的数据仓库进行查询时,查询通常会转到从服务器硬盘上存储的多个表中读取信息的数据库。使用基于服务器的内存数据库,所有信息最初都会加载到内存中。然后,用户查询并加载到机器内存中的数据并与之交互。

带有内存数据库的BI听起来像是缓存,这是一种提高查询性能的常用方法,但是内存数据库并没有受到相同的限制。缓存通常是数据的子集,存储在磁盘上并从磁盘中检索(尽管有些可能会加载到RAM中)。关键区别在于,缓存的数据通常是预定义的并且非常特定,通常针对单个查询。但是使用内存数据库,可用于分析的数据可能与整个数据集市一样大。

内存数据库是专门为利用最新的64位操作系统现在可提供的大量可寻址内存而设计的。内存技术将64位服务器中可用的数GB的内存空间用于其数据存储。内存中分析旨在提高用户感知的BI系统的整体性能,特别是影响复杂查询,这些查询在数据库中需要花费很长时间进行处理,或者在访问非常大的数据库(其中所有查询都受到数据库大小的阻碍)时。使用内存数据库,它可以在汇总和详细级别上分析数据,而无需开发ETL流程和数据仓库或构建多维OLAP多维数据集的耗时且昂贵的步骤。由于数据保存在内存中,因此即使在多个并发用户分析的超大型数据集上,任何计算的响应时间也很快。

当人们试图发现未知的模式或学习新的机会时,这种即时的交互式分析尤为重要。

是给谁用的?知道你的挑战寻找合适的组合
  • 选择内存解决方案时,请考虑在端到端BI平台内无缝运行的解决方案,该平台的使用对用户和报告开发人员完全透明
  • 设置部门BI应用程序以及满足中小型企业的BI需求的理想选择,因为它不需要任何前期工作,也不需要ETL
  • 从任何数据库源快速填充,用户可以无缝地使用内存数据库和关联的元数据层作为许多报告,仪表板和分析的源
  • 寻找旨在避免过多管理负担并可以在用户数量,数据安全性和数据治理方面扩展到企业级别的技术
  • 带有内存数据库的业务分析的主要优势在于,可以以业务所需的敏捷性提供决策洞察力。对于拥有自助服务分析功能的业务用户和IT部门来说,这是一个胜利,IT部门可以将更少的时间花费在查询分析,多维数据集构建,聚合表设计以及其他耗时的性能调整任务上
  • 不管内存数据库使用什么奇特的算法,将整个数据集存储在RAM中都会产生严重的影响:使用此技术可以查询的数据量受到可用可用RAM量的限制,并且总会有可用RAM比可用磁盘空间少得多
  • 有限的内存空间意味着BI应用程序的质量和有效性将受到阻碍:我们可以访问的历史数据越多和/或可以查询的字段越多,就可以获得更好的分析,洞察力和智能。
  • 人们可以增加越来越多的RAM,但是所需的硬件却成倍增加。超过64GB,我们将无法再使用归类为个人计算机的设备,而是需要功能完善的服务器,这将使我们进入非常昂贵的计算领域
  • 请注意,所需的RAM数量取决于同时查询它的人数。如果有5至10个人使用相同的内存BI应用程序,则可以很容易地使生成查询结果所需的中间计算所需的RAM数量加倍。
  • 在大多数BI解决方案中,成功的关键因素是拥有大量用户,因此在考虑用于现实世界BI的内存技术时,我们需要谨慎行事。否则,硬件成本可能会螺旋上升,超出组织的意愿或能力
  • 其中一些数据库引入了其他优化,这些优化进一步提高了性能。它们中的大多数还采用压缩技术来表示相同数量的RAM中的更多数据。
  • BI的未来在于可以利用基于磁盘的技术和内存技术的各自优点来提供快速查询响应和广泛的多用户访问而无需巨大的硬件需求的技术。  这些类型的技术不再是理论上的,已经被全世界的企业所采用。有些设计用于在多台便宜的计算机上分布复杂查询的不同部分(对于基于云的BI系统而言,这是一个不错的选择),有些设计用于利用21世纪的硬件(多核体系结构,升级的CPU缓存大小,等)从现成的计算机中提取更多果汁

概要

带有内存数据库的业务分析为公司提供了一种更快,更灵活,成本更低的访问和处理信息的方式,使用户可以在几秒钟而不是几小时内获得业务问题的答案。凭借其高性能的架构,内存可以帮助中型企业变得更加明智,敏捷并能对不断变化的市场状况做出更快的响应。

此外,技术的进步以及较低的内存和CPU成本使此类技术比以往更具吸引力。将适当的架构方法与中型公司所需的业务分析解决方案相匹配,有可能带来诸多好处,例如减少洞察时间,提高敏捷性,增加自助服务以及降低总体IT需求。

参考文献:

  1. 开源内存分析-YellowFin
  2. 传统商业智能的消亡:Elasticube编年史
  3. Plattner / Zeier的内存中数据管理

不要忘记在下面留下您的评论。


斯里坎特·金塔马尼尼(Srikanth Chintamaneni) 是Deloitte Consulting India Pvt信息管理服务线的经理。在提供咨询服务方面,他拥有超过13年的经验,涉及医疗保健,商业领域的数据仓库和内容管理解决方案&消费金融和工业产品行业细分。他的能力支持服务,涉及数据概要分析,数据建模,报告设计和端到端数据仓库实施.
斯里坎特·金塔马尼尼(Srikanth Chintamaneni)

斯里坎特·金塔马尼尼(Srikanth Chintamaneni)是Deloitte Consulting India Pvt信息管理服务线的经理。在提供咨询服务方面,他拥有超过13年的经验,涉及医疗保健,商业领域的数据仓库和内容管理解决方案&消费金融和工业产品行业细分。他的能力支持服务,涉及数据概要分析,数据建模,报告设计和端到端数据仓库实施

斯里坎特·金塔马尼尼(Srikanth Chintamaneni)的最新作品

©BA Times.com 2020

麦格雷戈徽标白色网站