实时数据处理和分析指南
上QQ阅读APP看书,第一时间看更新

1.1 大数据的定义

简单来说,大数据有助于处理“3V”问题——体量、速度和多样性。最近,又增加了“2V”——真实性与价值,这就构成了一个五维的范式。

体量:数据的数量。环顾四周,每时每刻都有大量的数据产生,比如电子邮件、推特(Twitter)、脸书(Facebook)或者其他社交媒体中的信息,又如视频、图片、短信、电话记录以及各种设备和传感器产生的数据。数据的计量单位从TB级到ZB级,甚至到YB级这样趋近天文数字的量级。在Facebook上,每天大约产生100亿条消息,点赞50亿次,上传4亿张照片。统计结果令人惊讶,2008年前产生的所有数据量与今天一天生成的数据量相当,相信在不远的将来,这个时间很快就会缩短为一小时。仅从数据体量这一维度来看,传统数据库已经无法在合理的时间范围内存储和处理大规模数据,于是大数据栈脱颖而出,它以低成本、分布式且可靠有效的方式处理这些惊人的海量数据。

速度:数据产生的速度。如今的时代,各种各样的数据都在激增。正是因为数据产生的速度足够快,才积累了如此海量的数据。社交媒体上的事件通常在数秒内就开始流传,接着就开始病毒式地传播。股票交易员在短短数毫秒内就能从社交媒体的热门事件中分析出一些有用信息,并由此触发大量的买入/卖出操作。大数据赋予人们以惊人的速度分析数据的能力:在零售业柜台的终端设备上,短短数秒内信用卡刷卡、欺诈交易的辨别、支付、记账和确认回执等一系列操作就都完成了。

多样性:该维度呈现这样一个事实——大数据很可能是非结构化的。在传统数据库时代甚至更早以前,大部分人习惯于处理类似于表格这样非常结构化的数据。如今超过80%的数据是非结构化的,如照片、短视频、社交媒体更新、传感器采集的数据和通话录音等。大数据技术让你以结构化方式存储和处理非结构化数据,实际上这在一定程度上消除了多样性。

真实性:该维度关乎数据的有效性和准确性。应该如何判断数据是否准确和有效呢?海量的数据记录并非都是经过修正的、准确的且可作为参考的。真实性的内涵在于数据的可信度和质量是怎么样的。数据真实性的例子包括Facebook和Twitter上的帖子使用了不标准的缩写且有拼写错误。大数据已将对数据进行分析的功能用于数据表中。决定数据量究竟有多大的主要因素就是真实性。

价值:顾名思义,就是数据实际拥有的价值。毫无疑问,这是大数据中最重要的维度。从超大型数据集中获取一些有价值的信息或许是人们处理它们的唯一动机,因为所有这些都关乎成本和效益。

当前,几乎所有企业都十分关注大数据技术。众多行业都深信它的实用价值,但实现如上目标的关键主要是面向应用程序,而不是面向基础设施。下一节会详细介绍这部分内容。