其实大数据这个话题挺不好写的,因为它很大、包含的东西很多,所以想解释清楚大数据到底是个啥?说实在的比较难,包括平时大家聊天,很多时候都是似懂非懂、懵懵懂懂。
当然还是有很多业内人士、专家学者还是可以讲清楚某个方向、或某个行业的大数据的,但不见得是整个大数据本身,
原因是大数据目前是处于高速发展的阶段,而不是成熟阶段。
不知大家有没有感觉,现在和朋友聊天,不提上一些像“赋能”、“大数据”、“智人”、“人工智能”、“超脑”等词,自己都会觉得自己特别low。聊天的时候,对方一说大数据,瞬间偶像崇拜的感觉就上来了,双方热火朝天的聊着大数据的话题,热情高涨的聊天结束后,回想一下刚才:
聊啥了? 大数据
啥内容? 不记得了
理解没? 不知道
反正就是觉得好牛X
没事普通人都这样,小编也一样。
国内大数据行业经过了快十年的快速发展,普遍认为2014年是中国的大数据元年,2014年,《政府工作报告》首次提出“大数据”,毕竟企业是要早一些的。再加上各家传统企业也蹭大数据这个标签的热度,媒体也在不断地炒作,国家也在大力的支持,所以大数据的概念早已耳熟能详。
很多人都觉得大数据就是拥有大量的数据,这种说法有些片面。例如:有1PB的文字稿件,这只能称之为数据,而不是大数据。真实的大数据不仅仅只是拥有大量的数据,而是不同类型的数据、多种的数据,并且加以某些分析、建模的技术来达到不同的场景应用和使用目的,整个环节流程方可称之为大数据。
大数据,首先要有数据
按照数据来源分类:内部数据、外部数据
1、内部数据:就是归属于企业或机构自能身所有的数据,可以使自身创造的数据,也可以是自身所属的用户所产生的数据。
2、外部数据:很简单啦,就不是自身的数据。比如公开的资讯数据,或者别人家的数据。
按照数据结构分类:结构化数据、非结构化数据、半结构化数据。
1、结构化数据:结构化数据由明确定义的数据类型组成,其模式可以使其易于搜索。如文本资讯数据、EXCEL。
2、非结构化数据:非结构化数据通常由不容易搜索的数据组成,其中包括音频、视频和社交媒体发布等格式。照片、音频、视频。
3、半结构化数据:半结构化数据维护用于识别单独数据元素的内部标记和标签,从而实现信息分组和层次结构。如:标记语言XML、NoSQL半结构化数据、电子邮件。
数据文本属性分类:文本数据、非分文本数据。
1、文本数据:是TXT等文本型的数据。
2、非分文本数据:视频、音频等。
大数据,其次要有大数据技术
简单点概括就是
“采集--处理--存储”。详细点的包括:数据收集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型搭建、结果呈现。
1、数据收集:在大数据的生命周期中,数据采集处于第一个环节。根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。
2、数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化数据。第2类主要面对的是半结构化和非结构化数据。第3类面对的是结构化和非结构化混合的大数据。
3、基础架构:云存储、分布式文件存储等。
4、数据处理:对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。
5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
6、数据挖掘:目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
7、模型搭建:预测模型、机器学习、建模仿真、各种模型的应用来进行数据建模分析。
8、结果呈现:标签云、关系图谱、可视化展示等,将复杂的数据的处理结果以一种简洁、好看、直观、易懂的方式来呈现给我们。
大数据,最后要有应用方向
这里我们不以行业划分,行业大家就都习以为常了。我们以功能划分:效率提升、精准营销和决策支持。
1、效率提升:例如大型集团式,集团下属几十家分公司、不同的业务系统、不同的数据格式、不统一的数据字段、不同的数据存储等等,对这些数据进行利用效非常低下,分公司间的数据调取利用更是难上加难,同时又存在数据安全隐患等。
应用大数据技术就可以打通数据,以及数据清洗与数据治理,从而提升整个集团的大数据应用能力,提升内部数据应用的效率和办事效率。
2、精准营销:营销大数据是我们接触最多的、也是最常见的场景、更是大数据的价值体现的最明显的、更是领导最愿意看到的。
这个就不多说了,就比如每天手机推送的新闻资讯、线上购物时的商品推荐、短信推送的营销内容等等。一定都是我们最喜欢的内容,就是外界环境都比我们自己更了解自己,这才是大数据应用的最高境界。
3、决策支持:通过大数据及大数据技术来进行辅助决策支持,应用最多的是政府、公安、企业集团等。政府通过大数据进行数据治国、数据辅政,政府本身数据庞大、数据结构复杂、数据应用方向众多。
民生、教育、医疗等等,所以大数据在各国政府方面应用甚广,只是目前各国大数据在政府落地的速度和应用场景还需要与时俱进一些。公安应用大数据进行判案、维稳等应用,公安的应用场景同样非常的多。集团通过大数据进行战略布局、市场规划,辅以领导人最真实的市场行情、现状、自身情况,从而更好地进行决策,而不再是凭借经验主义。
最后,了结一下
那到底什么是大数据???其实以上说的都是大数据的内容,下面我们简单概括总结一下。
真正的大数据可以概括为以下几个方面:
1、大数据量。TB、PB、甚至是是EB等数据量级的数据需要我们用技术来处理。
2、大多样性。不同的数据源、非结构化数据越多、处理难度越大、越能体现大数据价值。
3、大处理速度。数据响应速度要匹配快速多变的市场环境,性能上要更加的完善。
4、大综合应用。数据价值密度低,由于采集的不全面、数据缺失、数据不联系等,但通过大数据技术,可以进行综合性的分析和利用。