开云

    咨询(xún)热线:021-80392549

    开云 QQ在线 开云 企业微信
    开云
    开云 资(zī)讯 > 大数据 > 正(zhèng)文

    四个(gè)特征带你了解(jiě)大数据的定义

    2020/05/18智品会425

    四个特征带你了解(jiě)大数据的定义


    大数据(jù)是当前较为火爆的一个词(cí)汇,究竟什(shí)么是大数据、大数(shù)据(jù)的概念是怎样的?大数据有哪(nǎ)些(xiē)特质(zhì),大数据有哪些(xiē)技术方面的(de)要求,大数(shù)据对当(dāng)前社会(huì)产生了哪些重要的影响?

    国内知名大数据专家、中科院计算所博士、职品汇创始人龚才春博士对此做了详尽的(de)分析,他指出(chū):“从常规(guī)定义来讲,大(dà)数据就是(shì)大(dà)小超出常规数据库工具获取、存储、管理和分析能力(lì)的数据库,并且也强调,不(bú)是说一定(dìng)要超过(guò)特定(dìng)TB的数据集才是大(dà)数据。这个定(dìng)义并没有(yǒu)诠释什么是(shì)常规的数据(jù)库工具,也没(méi)有诠释大数据与数据量的关(guān)系,是一(yī)个(gè)比较原(yuán)始的大数(shù)据定义。”

    而国际数据公司(International Data CorporaTIon,简(jiǎn)称IDC)则从四个特(tè)征定义大数据:数据规模庞(páng)大(Volume)、数据更新频繁(Velocity)、数据(jù)类型多(duō)样(Variety)和数据(jù)价值(zhí)巨大(Value)。

    龚博士(shì)认为(wéi),在上述四大(dà)定义的基础上,一般偏向于再加上(shàng)数据(jù)处理复杂(Complexity),构成(chéng)相对完整的大数(shù)据的定义,这就是(shì)大家耳熟能详的4V+1C。

    1.数据规模庞大(Volume)

    当(dāng)数据规(guī)模很小时,属于传统的“小数据”时代的问(wèn)题,已有非常成熟的数据存储、计算、分析、呈(chéng)现方案,数据模型也有非常(cháng)多的研究。大数据必须是规模异常(cháng)庞大的数据,只有当规模(mó)庞大时(shí)候,才有新的研究价值。

    前面(miàn)已经提到,大数据的大,不是说(shuō)一定要超过特定TB的数据集才是大数据。由于计算能(néng)力(lì)、存储能力、分(fèn)析(xī)能力的有限,现在看起来很(hěn)简单的问题,在(zài)历史上可能都(dōu)是大(dà)数据的问题。辽沈战(zhàn)役中(zhōng),司令员林彪对战报要(yào)求很细,包括每支部队歼敌多少、俘虏多少;缴获的火炮(pào)、车(chē)辆多少;枪支(zhī)、物资多少(shǎo)……一天深夜,值班参谋正读着一份某师上报的战斗缴获(huò)报告,那是该师的下(xià)属部队偶然碰上(shàng)的一(yī)个不大的遭遇(yù)战,他们(men)歼灭(miè)了(le)一部分(fèn)敌人,缴获了(le)一些战(zhàn)利品,敌人余部逃(táo)走。林彪听(tīng)了汇报后,立即口授命令,全力追(zhuī)击从胡家窝棚逃走的(de)那股敌人,一定要把它彻底打掉。果然(rán)活捉(zhuō)了(le)国民党新(xīn)编第六军军长廖耀湘(xiāng)。这些数据在今天(tiān)看来(lái),规模非(fēi)常非常小(xiǎo)。但在当(dāng)时这已(yǐ)经是“大数据”了,林彪(biāo)懂得(dé)分析数据,从(cóng)缴(jiǎo)获中(zhōng)手枪(qiāng)和冲锋枪的比例(lì)准确判断出敌方的(de)指挥部在胡家窝棚,这也(yě)算是大数(shù)据(jù)分析的魅力(lì)。

    2.数(shù)据更新频繁(fán)(Velocity)

    我们知道摩尔定律揭示了(le)处理器分析能力与(yǔ)时间的关系(xì),也就是说(shuō),每(měi)隔18个月左右处理器的分(fèn)析能(néng)力翻一(yī)番。对于一个静止的数(shù)据集,哪怕(pà)今天我们(men)的处理器(qì)无(wú)法(fǎ)处理,存储(chǔ)器不好(hǎo)存储。随着技术的(de)进步,未来(lái)可能变成(chéng)非常容易处(chù)理,就(jiù)像我(wǒ)们现在看着(zhe)当年林彪分析战(zhàn)报一样,这些战报数据的处(chù)理(lǐ)今(jīn)天已经变得非常非(fēi)常(cháng)容易(yì)了,在今天(tiān)已经(jīng)不(bú)算“大数据”了。

    大数(shù)据技术,要求我(wǒ)们更多地(dì)想(xiǎng)出“巧妙”的分析办(bàn)法(fǎ),提成更(gèng)“优秀”的处理模型,而不能只依赖(lài)存储能力(lì)、处理水(shuǐ)平、网(wǎng)络带宽等硬件设备的(de)性能改进(jìn)。所以大数据(jù)技术,对分析对(duì)象要求是频繁更新的数据集。

    3.数据(jù)类型多样(Variety)

    传统(tǒng)的(de)关(guān)系型数据库,无(wú)论从理论上,还是在应用上都(dōu)非常成熟了。关系(xì)型数据库一般保存(cún)格式固定、类型(xíng)单一的数据,几十年的(de)数据库理论、数据挖掘、数(shù)据仓库的研(yán)究(jiū),已经有相当多的研究成果。

    大数据要求我们的分析对象(xiàng)是异(yì)构、异(yì)质的数据集(jí),可能包括文本、音频、视频等(děng)多种形式,也可能是结构(gòu)化(huà)、半结构(gòu)化的或无结(jié)构的。

    4.数据价值巨(jù)大(Value)

    如果数据没有价值(zhí),我们就(jiù)没有分析的必要。因此,大数据要求我们处(chù)理的数据集是有巨大商业价值或社会价值的。阿里巴巴愿意(yì)花(huā)巨大代价提高推荐系(xì)统的准确性,就是在(zài)于其推荐系统(tǒng)的准确率(lǜ)的(de)提高,能大大提(tí)高平台的(de)交易量,从(cóng)而具有非常巨大的商业价值(zhí)。我们(men)在全国部署“天眼”系(xì)统,提高大(dà)数据技术在天眼(yǎn)系统的分量,就是因(yīn)为天眼系统分析(xī)能力的一小步提升,都能在降低犯罪率、打击犯罪、保障(zhàng)人民群众安(ān)全、信(xìn)用取证等(děng)方(fāng)面都(dōu)有巨大的社会价值。

    在Value这个层面,我们(men)除了要求价值巨大外,我(wǒ)们一般会增加一点要求(qiú),那(nà)就是价值密度极低。我们常说,大数据是一个“金矿”,金矿就(jiù)包(bāo)含两(liǎng)个(gè)方面(miàn)的含义:一方(fāng)面,黄金很值(zhí)钱(qián),金矿很(hěn)有(yǒu)价值;另(lìng)一方面,金(jīn)矿不是金库(kù),几万顿的矿砂(shā),也许只(zhī)有几十公斤黄金,也就是说(shuō)金库的价值密(mì)度是非常低(dī)的。大数据的价值方面的含义,也(yě)要(yào)求价(jià)值密度非常低。如果数据集中每一条数据都是非常有价值的,那也就(jiù)无所(suǒ)谓“挖掘”了,没有挖(wā)掘,大数据的(de)意(yì)义也荡然(rán)无存了。

    5.数(shù)据处(chù)理复杂(Complexity)

    IDC公司的大数据只有4V的(de)特征,我们一般偏向于增加另一个维度的要(yào)求:数据处理复杂。例(lì)如,统(tǒng)计中国人口的平(píng)均年龄(líng),这个数据量是非常庞大的,有接近14亿条记录;这(zhè)个数据也是动态更(gèng)新的,每年都有(yǒu)几(jǐ)千万人出生,几千万死亡;这个数据集也可以是(shì)多(duō)样的(de),湖南(nán)的数据可以放在mysql中,湖北(běi)的数(shù)据(jù)可以在oracle中(zhōng),北京(jīng)的(de)数(shù)据(jù)可能在Txt文(wén)件中,上海(hǎi)的数据可(kě)能(néng)在Word文档中;这个数据(jù)集和这个(gè)分析都是有价值的,但(dàn)是平均到每(měi)一条数据,价值(zhí)又非常(cháng)有限。也就是说,这个问题是符合4V特(tè)征的(de),但是这个问题(tí)怎么(me)看都(dōu)“太简单”了,年龄加起来求平均即可,不(bú)能成为真正意义上的“大数据问题”。

    大数据要求数据处理复杂,不能脑袋一拍就可以想出办(bàn)法(fǎ),不能(néng)套用现(xiàn)有(yǒu)的、成熟的数(shù)据库工具简单(dān)得(dé)到答案。

    【其他定义(yì)】

    除了上述(shù)主流的定义,还有(yǒu)人使用3S或(huò)者3I描述大数据的特征(zhēng)。

    3S指的是:大小(Size)、速度(Speed)和结构(Structure)。

    3I指的是:

    (1)、定义不(bú)明确的(Ill-de.ned):多个主(zhǔ)流的(de)大数据定义(yì)都强调了数据规模需要超过传统方法处理数据的规模,而随着技术的进步,数据(jù)分析的(de)效率不断提高(gāo),符合大数据定义的数据规模也会相应不断变大,因而(ér)并没有一(yī)个明确(què)的标准。

    (2)、令(lìng)人生畏的(InTImidaTIng):从管理大数据到使用正确的工具获取它的价值,利用大(dà)数据的(de)过程中充(chōng)满了各种挑战。

    (3)、即时的(Immediate):数(shù)据的价值会随着时间(jiān)快速衰减(jiǎn),因(yīn)此为了保证大数据的可控性,需要缩短数据搜集到获得数据(jù)洞察之间(jiān)的时(shí)间(jiān),使得大数据成为真正的即时大数据(jù),这(zhè)意味着能尽快地分析数据对获得(dé)竞争优势(shì)至关(guān)重要。

    大数据就是互联(lián)网发展到现今阶(jiē)段的一(yī)种表象或特征而已,没有必要神话它或对它保持敬畏之(zhī)心,在(zài)以云计算为代表的技(jì)术创新大幕的(de)衬托下,这(zhè)些原本很难(nán)收集和使用的数据开(kāi)始容(róng)易被利用起来了,通过各行各业的不断创新,大数(shù)据会逐(zhú)步为人类创(chuàng)造(zào)更多的价值(zhí)。

    关键词: 大数(shù)据




    AI人工智能网声明:

    凡资讯(xùn)来源注(zhù)明(míng)为其(qí)他媒体来源的信息,均为转载自其他媒(méi)体,并不代表本网站赞同其(qí)观点,也不代(dài)表本网(wǎng)站(zhàn)对其真实(shí)性负(fù)责。您若对该文章内容有任何疑问或(huò)质疑,请(qǐng)立即与网站(www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速(sù)给您回应并做(zuò)处理。


    联系电话:021-31666777   新闻(wén)、技术文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精(jīng)选资讯(xùn)更(gèng)多

    相关(guān)资(zī)讯更(gèng)多

    热门搜(sōu)索(suǒ)

    工博士人工智(zhì)能(néng)网(wǎng)
    开云
    扫描二维码关(guān)注(zhù)微信
    扫码反馈

    扫一扫,反馈当前页面

    咨询反馈
    扫码关注

    微(wēi)信(xìn)公众号

    返(fǎn)回顶部

    开云

    开云

    相关信息

    "开云 开云咨询为企业提供一站式企业咨询服务。

    更新时间:2025-07-14 18:57 来源:zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com