
1、什么是大数据?
数据是对客观事实进行记录的一种符号,可以是数字、文字,也可以是图片、音频、视频。大数据是指无法在一定时间范围内用常规软件进行捕捉、管理和数据的数据集合。大数据具有“5V”特点,即数据量大(Volume)、数据多样性(Variety)、价值密度低(Value)、增长速度快(Velocity)、数据质量低(Veracity)。
大数据时代强调数据的全部,而不是局部的样本数据。由于大数据的价值密度低,我们要接受这种模糊和不精确性。通过对数据的研究,发现以前不曾发现的联系,而不是像小数据时代,先通过假设,然后再用数据来验证。也就是说,在大数据时代,对相关性的重视程度要强于因果性。
2、什么是结构化数据和非结构化数据?
结构化数据是适合用二维表格展现的数据。每一行是一条记录,每一列是不同的字段。以电商网站为例,用户信息就可以用结构化数据来存储。每位用户就是一条记录,而每位用户又有姓名、性别、地址、手机、邮箱等字段,这样就形成了一个二维表格。

非结构化数据不适合用二维表格来展现,比如文档、图片、音频、视频等。非结构化数据的格式多样,难以标准化和理解,因此在存储、检索、利用上都需要更加有效的方法和技术。
3、什么是数据库?
数据库从字面意思来看就是存储数据的地方,但数据的存储不是杂乱无章的,而是按照一定的规则来存储的,具有可共享和便于管理的特点。数据库被视为电子化的文件柜。用户可以对数据库中的数据进行增、删、改、查等操作。数据库可分为关系型数据库、非关系型数据库、数据仓库等类型。
4、什么是关系型数据库?
关系型数据库是指使用关系模型来组织数据的数据库。关系模型可以简单理解为二维表格模型,以行和列的形式存储数据,因此适合存储结构化数据。关系型数据库就是由多个二维表格及其之间的关系组成的数据库。常见的关系型数据库有MySQL、SQL Server、PostgreSQL、Oracle等。
还是以电商网站为例,除了用户信息之外,还要记录产品信息和订单信息。为简化起见,每个订单只包含一种产品。产品包括名称、价格、图片、介绍等字段,订单包括所属用户、相关产品、订购数量、订单价格、下单时间等字段。一个用户拥有一个或多个订单,而一个产品也会属于一个或多个订单,这样就建立了用户、订单和产品之间的关系。

5、什么是非关系型数据库?
相对关系型数据库而言,非关系型数据库抛弃了固定的二维表格结构,存储机制灵活,比如键值对、文档、图形等格式都可以进行存储。常见的非关系型数据库有Redis、MongoDB、Cassandra等。
性能是非关系型数据库最大的优势。由于关系型数据库中的关系模型会占用掉90%的硬件资源及计算时间,对于有大量不需要关系功能的数据处理,非关系型数据库的性能是非常高的。另一方面,正是由于缺少数据表之间的关系,非关系型数据库很难在多个表之间做非常复杂的数据查询。
6、什么是时序数据库?
时序数据库是一类特殊的非关系型数据库,全称是时间序列数据库。经研究发现,机器设备、传感器、系统日志等产生的数据有如下明显的特征:
数据是时序的,即按照一定时间顺序生成;数据极少有更新或删除操作;数据产生频率快、数据信息量大;数据往往带有位置信息。传统的关系型数据库或非关系型数据库对于这类数据,在性能提升上极为有限,只能依靠集群技术,投入更多的计算资源和存储资源来处理,造成企业运营成本急剧上升。而时序数据库可以有效地处理庞大的数据,通过创新的列式存储和先进的压缩算法,使用的计算资源不到传统方案的1/5,存储空间不到通用数据库的1/10。常见的时序数据库有InfluxDB等。
7、什么是分布式存储?
分布式存储是相对于集中式存储而言的。分布式存储是由标准服务器(硬件)和分布式文件系统(软件)组成的,可扩展至千台硬件节点,支持块存储、对象存储、文件存储等多种类型统一管理。常见的分布式文件系统有HDFS、Ceph、GFS、GPFS、Swift等。
举个通俗易懂的例子,如果把存储比喻成车厢,数据比喻成货物。集中式存储方案下,如果要想拉更多的货物,只能更换更大的车厢。而分布式存储方案,直接增加车厢就可以了。有了分布式存储技术,存储EB级别(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量数据库都不成问题。

8、什么是数据集成?
由于开发部门或开发时间的不同,企业中往往有多个异构的、运行在不同的软硬件平台上的数据库,这些数据库彼此独立、相互封闭,使得数据难以在系统之间交流和共享,从而形成了”信息孤岛”。随着信息化应用的不断深入,企业内部之间、企业与外部的信息交互的需求日益强烈,急切需要对已有的数据进行整合,打通“信息孤岛”,这就是数据集成的意义。
数据集成是把不同来源、不同种类、不同格式的数据在物理上或逻辑上进行集中,为企业提供全面的数据共享。数据集成主要解决的问题是各个数据源的异构性,包括数据库的异构性、通信协议的异构性、数据类型的异构性、数据取值的异构性等。
9、什么是数据清洗?
数据清洗是一种清除错误数据、去掉重复数据的技术。数据经过清洗之后,可以还保存到原来的数据库中,也可以和数据集成联系在一起,最终保存到集成后的数据库里。
举几个数据清洗的实例:
在用户信息表中,规定有姓名、性别、地址、手机、邮箱五个字段是必填的。而某些用户缺少某些字段的值,因此需要补充这些数据。英文的姓名之间规定要有空格,而某些姓名没有空格,比如“JohnSmith”,就需要修正这类错误。有些数据表的金额单位是元,有些数据表的金额单位是万元,数据集成时就需要统一单位。两条用户记录完全重复,需要进行去重处理。10、什么是ETL?
ETL是Extraction、Transformation、Loading三个单词的首字母缩写,指的是数据抽取、转换、加载的过程。数据抽取是从不同的数据源中获取我们需要的数据的过程,和数据集成的概念类似,这个过程往往会做一些数据清洗和数据转换。数据转换的任务主要是进行数据格式的转换和一些业务规则的计算。数据加载通常是指在数据清洗和数据转换完成后,写入到目标数据库中去。

11、什么是数据分析?
数据分析是基于商业需要,有目的的对数据进行收集、整理、加工、分析,最终提炼有价值的信息的过程。
数据分析的四个步骤是:
需求分析、明确目标;数据收集、加工处理;数据挖掘、数据展现;分析报告、提炼价值。
12、什么是数据埋点?
所谓数据埋点就是从应用的特定流程中收集一些信息,跟踪用户使用的状况,用来提供运营的数据支撑,进一步优化产品。常见的信息包括独立访客数(UV)、页面浏览量(PV)、页面停留时长、页面跳出率、交互元素的点击事件等。
数据埋点通常有两种方式:第一种是研发团队在产品中注入代码,并搭建响应的查询平台;第二种是借助第三方数据埋点工具,如神策数据、百度统计等。
13、什么是数据仓库?
数据库的主要应用是日常的事务和交易处理,比如电子商务、在线银行等,即联机事务处理(OLTP,On-Line Transaction Processing)。数据库大多是读写优化的,即又要读(如查看商品信息),也要写(如创建订单),因此对于海量数据的查询是支持不足的。
数据仓库的主要应用是联机分析处理(OLAP,On-Line Analytical Processing),支持复杂的分析操作,用于决策支持,并且提供直观的查询结果。数据仓库是只读优化的数据库,数据的修改和删除操作很少,通常只需要定期的加载新数据。数据仓库不需要写入速度有多快,只要对于海量数据的复杂查询的速度够快就可以了。
数据仓库就像宜家家居的一楼仓库,数据就是家具。在这里,家居按照特定的规则,如货架和位置组织起来,集中存放、排列整齐,因此查询(提货)的效率更高。但是这种存储规则对于用户并不友好,面对海量的数据,用户不容易找到有用的数据,因此就产生了数据集市。

14、什么是数据集市?
数据仓库是面向整个企业的,而数据集市是面向部门的,因此规模更小,由业务部门设计、开发、管理、维护,可以理解为是数据库的子集。
数据集市就像宜家楼上的家居展厅,正如其名字“集市”一样,是一个面向最终顾客的数据市场。在这里,数据(家具)以一种更加容易被顾客接受的方式组合在一起。顾客的需求是分场景的,比如客厅、书房、卧室、厨房等,因此我们需要创建多个数据集市(展厅)。

15、什么是数据湖?
数据湖至今仍然没有一个特别标准的概念,比较统一的是数据湖存储的是未经加工的原始数据,包含结构化和非结构化的各类数据。数据湖就是一个存储了企业所有原始数据的存储,对于这些原始数据的管理则更加复杂。还是以宜家家居为例,数据湖的原始数据就相当于拆散的零部件,顾客可以根据实际需要挑选零部件后自行组装。
16、什么是数据挖掘?
数据挖掘就是从大量的实际应用数据中,提取隐藏在其中的有价值的信息的过程。一般而言,数据挖掘分为两类:一类是监督学习,另一类是无监督学习。监督学习是对目标需求的概念进行学习,通过建立模型来实现从观察变量到目标需求的有效解释。无监督学习没有明确的标识变量来表达目标需求,主要任务是探索数据之间的内在联系和结构。
数据挖掘融合了多学科领域的知识,常用的算法有分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析等。
17、什么是数据可视化?
数据可视化就是借助图形化的手段,清晰有效地传达与沟通信息。利用人类对形状、颜色的敏感,有效地传递信息,帮助用户从数据中发现关系、规律和趋势。常用的数据可视化图表有柱状图、条形图、饼图、雷达图、折线图、堆积图、散点图等。

18、什么是商业智能?
商业智能(BI,Business Intelligence)是对商业信息的搜集、管理和分析过程,目的是使企业决策者获得洞察力,做出对企业更有利的决策。从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、联机分析处理、数据挖掘、数据备份和恢复等技术的综合应用。
附:主流云厂商大数据产品矩阵
数据仓库大数据平台数据可视化阿里云AnalyticDBE-MapReduceQuick BI、DataV腾讯云云数据仓库 PostgreSQL弹性 MapReduce商业智能分析、腾讯云图百度云数据仓库 PaloMapReduce数据可视化Sugar华为云数据仓库服务 GaussDBMapReduce服务数据可视化 DLVAWSAmazon RedshiftAmazon EMRAmazon QuickSight免责声明:文章内容来自互联网,本站仅提供信息存储空间服务,真实性请自行鉴别,本站不承担任何责任,如有侵权等情况,请与本站联系删除。
转载请注明出处:大数据时代必须了解的18个概念(数据仓库、数据清洗、数据可视化……)-大数据时代数据是最核心的 https://www.bxbdf.com/a/112341.shtml