【上海天元稳定回报论证】为什么会产生大数据?大数据如何惠及大众?
上海天元项目数据分析师事务所有限公司
地址:上海市徐汇区天钥桥路329号B栋707室
王经理:02124193019
本文摘自36大数据4月6日携手腾讯云分析在腾讯大厦举办的“大数据应用与实践”的演讲速记。
前言:
在以往的演讲过程中,我总是在强调一件事——“大数据的群主基础不好”,换句话说,普通大众用户接受大数据这个概念和事实是需要很大的成本的,我们不要和他们讲大数据有多高大上,也不要为了显得自己牛X用大量的专业术语,把复杂的事情简单化,把复杂的事务用简单通俗的语言说出来,本身就是一种能力。所以这篇文章中,我将用简单的话语来和大家介绍大数据和大数据的行业现状。希望给那些对大数据感兴趣的朋友能有所帮助。
一、为什么会产生大数据?
为什么会产生大数据呢?大数据之前难道我们都处于“暗黑时代”?
如果你去搜索“为什么会产生大数据?”这个问题,专家、学者都会给出不同的答案。面对大量的答案,大众该如何去理解?所以我用简单的方式进行了一个归纳,我认为,产生大数据大的三个因素是“计算”,“存储”和“智慧”,下面逐一来讲解。
产生大数据的个因素:存储成本的下降
在云计算出现之前,数据存储的成本是非常高的。比如说,我之前供职的是客户端网络游戏公司,那时候游戏每次要开新服,都需要去购置和部署新的服务器,还需要安排几个人去维护服务器的安全,保证数据存储的安全性和数据传输的畅通性。而且,机房还会定期进行数据清理,把部分历史数据清理出去,以便存储新的数据。在那个时代里,互联网公司各自为政,机房部署的人力和管理都是非常高的。
云计算出现后,数据存储服务衍生出了新的商业模式,集中建设数据中心大大的降低了单位计算和存储成本,比如说36大数据,我们要建设网站,现在根本不用去买服务器硬件,也不需要在雇佣人员来管理,使用阿里云的就解决了我们的问题。而且存储成本的下降,也改变了大家对数据的看法,因为存储成本不高,所以我们愿意把3个月、6个月甚至更久远的历史数据保存下来,有了历史数据的沉淀,才会想着如何把这些数据利用起来,通过不同时间的对比,来发现数据之间的关联和价值。
存储成本的下降,为大数据搭建好了基础设施。
产生大数据的第二个因素:运行、计算速度越来越快
这一点可能从98年开始上网的朋友就能明显的感觉到。随着互联网的普及及网络技术的发展,加上硬件性价比的提高以及软件技术的进步 ,数据的运行、计算速度越来越快。98年你要传个10MB的文件给我,可能需要一天,放到现在,可能也就是几分钟的事情。分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了并行计算,从而大大提高了计算效率。现在还有在计算方面比Hadoop更快的框架Spark、Storm等等。
海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等多个环节,如果计算速度不够快,那么很多事情是无法实现的。所以,在大数据的发展过程中,计算速度是非常关键的因素。
产生大数据的第三个因素:智慧,我们渴望解放脑劳动力
18世纪-19世纪,次工业革命开创了以机器代替手工劳动的时代,从而解放了部分劳动力。
19世纪七十年代,电力的发明和广泛应用,从而进入第二次工业革命,推动人类进入了电气时代。电气时代的大影响就是增强了人们的生产能力,使交通更加便利快捷,进而改变了人们的生活方式。
那么在21世纪,我们渴望的是什么?我们渴望解放脑劳动力,实现信息对等,让机器拥有人的智慧。
大数据带来的大价值就是“智慧”。今天我们能看到的AlphaGo围棋人工智能程序战胜李世石,阿里云小Ai成功预测出《我是歌手》总决赛歌王,iPhone上智能化语音机器人Siri、微博上大家常年调戏的微软小冰等等,背后都是由海量数据来进行支撑的。换句话说,大数据让机器变得有智慧,大数据为机器灌输了人类的潜意识,大数据是变形金刚的Matrix和Cube。
美国CNN商业市场分析师Ben Rooney曾开玩笑说:“The data scientist was called, only half-jokingly, a caped superhero 数据科学家曾经被誉为戴着披风的超级英雄”。
我觉得一点都不夸张,大数据的确是我们这个时代的超级英雄。
所以,存储成本的下降,计算速度的提高和我们对智慧的渴望,是产生大数据的三个重要因素。
当然,要问大数据为什么一下子在全球风靡起来,维克托·迈尔·舍恩伯格的那本《大数据时代》确实起到了很大的推动作用,但并不是因为那本书才有大数据,这个逻辑一定要缕清楚。
二、谁在关注大数据?
我们一定要去问这个问题,谁在关注大数据吗?是和总理?是马云还是李彦宏?又或者是整天高谈阔论的专家学者?
错!
大数据的其中功能之一就是可以进行用户画像,我们完全可以用用户画像来画出大数据的关注人群图谱。
下面是36大数据根据百度指数、微博微指数、36大数据3年来沉淀的用户做得一个简单画像。
事实上,在关注大数据的人群中,有62%的人群为年龄30-49岁、本科以上学历的传统行业人员,他们来自房产、生活服务、建材家居、商务服务、金融财经、旅游酒店、餐饮美食、教育培训、医疗健康、大众消费、航天、政府公共服务等多个领域;
关注大数据的人群中,25%的用户为年龄20-29、大专以上学历、IT科技、互联网相关从业者 ;
9%的用户为垂直数据行业从业人员,这群人大的标签是高文凭、高技术、高收入、宅、技术控、少社交、不爱传播 ,理性、理工男。
剩下还有4%是19岁以下,50岁以上这一部分人群。他们绝大部分是通过宣传后,怀着对大数据的好奇心才来关注的。
所以,基于大数据关注人群的画像,可以更好的指导大数据未来的发展方向。我认为大数据未来要实现爆发式的增长,拥抱传统行业,渗透人们生活是必经之路。
三、大数据如何惠及大众?
我承认,大数据近年来是被炒得有些过头了,但不代表它是一个“炒作词”。大数据的背后,的确有着实实在在的数据,实实在在的技术和是实实在在的应用。大数据确实能够产生商业价值。
下面基于我个人对大数据的理解画出的一个示意图。
对于大数据企业来说,大数据涵盖了公司内部数据和外部数据两大方面。
公司内部数据包括:
1、公司使用BI(Business Intelligence)、CRM系统、ERP系统、邮件系统等产生的数据;
2、财务数据。其中包括公司的支出、采购、收入等多项与公司日常运作有关的数据;
3、注册用户数据。无论是网站、APP还是游戏,用户注册都会填写邮箱、电话、身份证号码等数据,这些数据其实非常有价值,此外还要加上用户使用公司产品留下的行为数据。
4、历史数据。公司沉淀下来的其他各种数据,这些数据一定要整合起来。
外部数据包括:
1、社交网站数据。包括微信、微博、人人网、Twitter、、LinkedIn等社交媒体上的数据。社交数据部分是可以爬取的,另外一部分是需要运营方授权的。
2、线下采集数据。这一块目前做的公司比较少,但同时也比较有价值,比如说Wifi热点数据、地图数据等;
3、政府开放数据。目前在中国,已有多个省市不同程度的开放了部分数据,如果你想要找的话,可到相关政府网站下载。
4、智能设备、传感器数据。典型的案例就是智能手机了,我们使用手机留下的行为数据,传感器数据,都可以整合到外部数据中来。你知道吗?一部智能手机,至少拥有8个传感设备。
5、网络可爬回的数据。除了文字之外,视频和图片也是可以爬回来的。视频和图片其实也是数据,而且是非结构化数据。
6、交易数据。这一块就比较难的,比如说商家流水数据、支付宝交易数据、信用卡消费数据等等,目前这一部分数据是难获取的。
7、数据接口API数据。这个就不做细说了,据我所知,微博开放了商业数据API,腾讯开放了腾讯云分析SDK上报的应用数据,高德地图开放了LBS数据等等。如果你想找更多的数据API,我推荐你去数据堂、聚合数据这两家网站上看一下,上面有大量的API接口。
8、其他。其他范围就更大了,天气数据、交通数据、人口流动数据、位置数据等等。我们可以整合的外部数据种类很多很多。
整合完公司内部外部数据进行大数据存储,然后通过清洗,标注、去重、去噪、关联等过程可以将数据进行结构化,也可以进行大数据挖掘和数据分析,再以数据可视化呈现结果,打通数据孤岛形成数据闭环,将数据转换成“石油”和“生产资料”,后应用到我们日常的生活、学习和工作中去。
当然,大数据应用到日常生活、学习和工作中,往往不是以“大数据产品”自居的,普通人能够使用到的大数据,已经是大数据加上业务场景的产品化应用和服务了。比如,百度搜索引擎、高德地图其实就是基于大数据和业务场景产生的大数据产品化应用。
【上海天元稳定回报论证】为什么会产生大数据?大数
上海其他商务服务相关信息
5小时前
5小时前
6小时前
11小时前
1天前
1天前
1天前
1天前