专家视点 首页 > 学术信息中心 > 专家视点

许伟:大数据的类型――认识大数据的方法


发布人:    审批人:    点击数:0    发布时间:2015-01-05


大数据不是来临,而是已经在我们身边。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。大数据时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。认识和了解一个事物最简单的就是对其进行分类。
    1.按照大数据的产权划分,可以分为组织内和组织外大数据。
    大数据可以从组织内外进行划分,组织内的产品服务大数据,组织外的互联网大数据。
    组织内的大数据,随着工业互联网化,企业在生产和服务当中,会产生海量的大数据。其中用户大数据是其中最关键的大数据,能够有效降低企业交易成本,并有助于满足用户个性化需求,关系到企业商业价值的未来。除此之外,物流大数据有助于提高用户体验,生产大数据有助于大规模个性化定制并减少管理成本。
    组织外的互联网大数据,随着移动互联网和物联网等下一代网络的普及,智能设备伴随泛在互联网进入千千万万人们的生活和工作当中,无时无刻地产生了海量大数据。“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量。我们现在还处于所谓“物联网”的最初级阶段,而随着技术成熟,我们的设备、交通工具和迅速发展的“可穿戴”科技将能互相连接与沟通。2012年,科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一。
    2. 按照商业成熟度来分。
    借用冰山模型的概念,大数据可以分为看得见的“冰山以上部分”和深藏的“冰山以下部分”。按照商业成熟度来分,比较成熟的大数据可以简单分为交易大数据、搜索大数据和社交大数据、安全大数据。
看得见的“冰山以上部分”大数据是少数,国内当前真正具备大数据能力的只有360、百度、阿里以及腾讯等少数几家企业。百度搜索的数据可以构成“语义链”,阿里购物记录可以构成“购买链”,腾讯的通讯记录可以构成“社交链”,360的安全(木马、病毒)大数据,但这些链条都相对封闭,只能显示用户某一方面特征,无法准确勾勒出用户全貌。
    看不见的“冰山以下部分”的大数据是大多数。很多组织和机构的大数据还是没有数字化或互联网化,成为沉默在大海中的数据孤岛;也有些数据因为保密和产权的原因,看得见摸不着。
    3.按照大数据产业链划分。
    大数据也可以从大数据产业链,可以分为数据生成、数据存储、数据处理、数据分享、数据检索和数据可视化六类。大数据是一个处于爆发式增长阶段的新技术概念,由于这个领域的技术创新和投资火热,其产业生态地图处于快速变动之中,Bloomberg Venture发布了大数据产业地图2.0版本,其中将数百个大数据创业公司和IT厂商根据产品和商业模式划分为38种,大数据产业可划分为六大类:
    (1)大数据基础设施类(NoSQL数据库、Hadoop相关产品、NewSQL数据库、MPP数据库、管理监控等)。(2)大数据分析类(分析解决方案、数据可视化、统计计算、社交媒体、舆情分析、分析服务、IT分析等)。(3)大数据应用类(广告优化、出版工具、市场营销、行业应用、大数据应用服务提供商)。(3)大数据数据源类(数据市场、数据源)。(5)跨基础设施分析(主要为传统IT巨头业务延伸)。(6)开源项目(框架、查询/数据流、数据访问、协作/工作流、实时、统计工具、机器学习、云部署)。
    4.按照数据分析的实时性划分。
    按照数据分析的实时性划分,可以分为实时数据分析和离线数据分析两种。
实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,这些无疑都需要比较高的软硬件成本。目前海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。
    离线数据分析适用于对于反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。互联网企业的海量数据采集工具,有淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
    5.按照大数据的数据量来划分,分为内存级别、BI级别、海量级别三种。
    内存级别大数据。这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容量,Facebook缓存在内存的Memcached中的数据高达320TB,而目前的PC服务器,内存也可以超过百GB。因此可以采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案,利用内存+SSD,也可以轻易达到内存分析的性能。
    BI级别大数据。BI级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。
    海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapReduce进行分析。
    6.按照大数据的数据结构化程度来分。
    非结构化数据是大数据数据多样化的的一个特点。非结构化化数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。依托强大的网站分析工具,可以得到最细粒度的原始数据(Raw Data)通常情况下,非结构化的数据可以跟结构化的数据一样,作为分析的维度应用到各种报表或OLAP中;如果这些原始数据仅仅用来看看报表,那意义太小,原因是只靠固定维度的常规分析难以挖掘非结构化数据中隐含的知识点,因此我们需要借用数据挖掘的相关技术。
    非结构化数据的特点决定了,大数据更加重视相关关系挖掘而不是因果关系实现。以非结构化文本数据的挖掘实现为例,主要依靠基于关联规则的文本挖掘、序列    模式挖掘、文本聚类和文本特征提取等方法和技术,其中最大的挑战在于文本段落的挖掘和关键字的提取,特别在考虑上下文情景的情况下如何有效识别语义是最大的难点。







首页 | 期刊简介 | 本刊导读 | 新闻公告 | 电子版期刊 | 期刊订阅 | 英文期刊 | 推荐文献 | 我要投稿 | 联系我们