导航菜单

大数据采集,大数据分析,大数据存储就该这样学

日本α片祼毛

01

-

概述

f4ecf498b08c4e8681b50dbbd0d5720b

02

-

相关扩展

系统日志数据收集

Scribe是Facebook的开源日志收集系统,已在Facebook中广泛使用。它从各种日志源收集日志并将其存储在中央存储系统上,以进行集中统计分析处理。 Scribe为日志的“分布式收集,统一处理”提供了可扩展,高度容错的解决方案。 (教师收到学生信息表,需要班长收集的例子。)

a9bab3f6b1e04b22acbabc9b92bd2af6

Chukwa为大数据日志的数据收集,存储,分析和呈现提供了完整的解决方案和框架,可用于监控大规模Hadoop集群的整体运行并分析其日志(相当于学校中没有)死角监视相机)。

bf7387aa6d614afcad22d92e6af7dfec

注意:现在还不太了解上面两个架构图。当你完成第四章并回顾过去时,它会容易得多。

大数据预处理

数据清理通过填写缺失值,平滑噪声数据,识别或删除异常值以及解决不一致性来“清理”数据。数据清理过程主要包括数据预处理,确定清理方法,验证清理方法,执行清理工具和数据存档。同时,每个阶段可以分为几个任务。

数据集成是来自多个数据源的数据集的集成,但集成将不可避免地导致数据冗余,主要是因为:表示相同概念的属性在不同的数据库中可能具有不同的名称;某些属性可能来自其他属性。数据集成后,数据集可以冗余地清理,检测和删除数据。

数据减少的目的是获得数据集的简化表示。虽然数据集的简化表示比原始数据集小得多,但它仍然可以产生几乎相同的分析结果。

数据转换使用规范化,数据离散化和概念分层等方法,使数据玩具在多个抽象层上工作。数据转换操作是一个额外的预处理过程,可指导数据挖掘过程的成功。

01

-

概述数据分析

数据分析是大数据价值链的最终和最重要的阶段,其目标是挖掘数据中的潜在价值以提供建议或决策。

数据分析是一个检查,清理,转换和建模数据的过程,以发现有用的信息,得出结论并推动决策制定。

数据挖掘是指使用人工智能,机器学习,统计和数据库的交集在相对大的数据集中发现模式的过程。

数据分析过程(下)(两句话,1个数据分析是从业务到业务; 2个业务的数据分析是流氓)。

c7975cef148b4407ba9fa41073b8c519

02

-

传统的数据分析方法

更具代表性的传统数据分析方法:

统计分析,相关分析,回归分析,聚类分析,因子分析,A/B测试;

1统计分析

64c3b3417ed9428ebc069ef0e57d798e

2相关分析:用于确定观察到的预测和控制现象之间相关性的分析方法。相关分析是使用现有统计学来研究关系强度的过程(例如身高和年龄)。同时,相关性不等于因果(睡眠和收入)。

3回归分析:一种数学工具,揭示变量与其他几个变量之间的相关性。

回归分析可以识别随机隐藏变量之间的依赖关系(一元线性回归)。

4聚类分析:用于对对象进行分组的统计方法。聚类分析用于区分具有某些特征的对象,并根据这些特征将它们分类为不同的类别。同一类别中的对象高度同质,不同类别的对象具有高异质性。

5因素分析:主要通过几个因素,来描述大量指标或要素之间的关系(例如找对象,用自己的几个典型维度来描绘另一半。如白福美,地区,教育,性格,性格等)。

6A/B测试,也称为桶测试。它比较测试组并制定改进目标变量的计划(更多关于产品或网页设计,基于用户体验和反馈的产品改进)。

03

-

大数据分析方法

这部分更像是一种大数据分析方法,可以优化大数据存储效率和读取速度。

1 Bloom过滤器:由位数组和一系列散列函数组成。 Bloom过滤器的原理是使用位数组将数据的哈希值存储在数据本身之外。位数组实质上使用散列函数来执行数据的有损压缩,从而存储其位图索引。 Bloom过滤算法的核心思想:使用多个不同的哈希函数来解决“冲突”。 (例如,同学们开了一个房间,门口会有一排灯,有些灯指示同学。为了避免冲突,灯光按颜色区分。灯亮,灯亮灯亮,0灯灭。)

5f5da822d59a4479a02108b6c5a1eeca

2哈希方法:将数据转换为较短的固定长度值或索引值的基本方法。特点:快速读取,快速写入和高查询速度。难点:如何找到健康的哈希函数。优点:空间效率高,查询速度快。缺点:具有一定的错误识别率,删除难度等。例如在间谍电影中传播情报场景,最重要的是找到密码簿(哈希困难)。

3索引方法:降低磁盘读写成本的有效方法。索引可以提高插入,删除,修改和查询的速度。索引通常分为两类:聚簇索引和非聚簇索引。一个示例是具有类似于书籍的索引的目录。

39820939029b44d89109d25bad95191f

4字典树:也称为字搜索树,是哈希树的变体。它主要用于快速检索和字频统计。主要思想是使用字符串的公共前缀来最小化字符串的比较,从而提高查询效率。

c050ddc6eb3f40aab084d8f21cf32515

5并行计算:并行计算是指使用多个计算资源来完成计算任务。基本思想是分解问题并将其分配给几个独立的过程,以便独立完成,从而实现协同处理。

04

-

大数据分析架构

大数据分析可根据实时要求分为实时分析(金融领域:超市支付,哈罗自行车)和离线分析(淘宝产品推荐)。

大数据分析可根据不同层次分为内存级分析,BI分析(数据层,业务层和应用层)和海量分析(数据采集模块,数据冗余模块,维度定义模块,并行分析模块)。

05

-

大数据分析应用工具(略)

通过R语言演示,该课程旨在让学生直观地了解大数据分析的功能。

从本章开始,涉及的数据名词越来越多。一开始,每个人都感到痴迷。随着课程的进展,一些技术和名词将相互熟悉。我希望每个人都耐心等待。坚持下去,不要让东哥唱一个独角戏!

01

-

概述

44bf790f2ae74e028110d40c5cc1c909

02

-

云存储

云存储没有行业权限的定义。云存储是一种在云计算概念中扩展和发展的新概念。它是一种新兴的网络存储技术,涉及集群应用程序,网络技术或分布式文件系统等功能。大量不同类型的存储设备通过应用软件一起工作,以共同提供用于数据存储和服务访问功能的系统。云存储不仅是存储设备或技术,也是服务创新。

特点:可靠性,可用性,安全性,标准化和低成本。

架构(Zoo):访问层,应用程序界面层,基本管理层。

技术:存储虚拟化(Qi Tian Da Sheng),分布式存储,数据缩减,负载均衡。

1云存储虚拟化将存储资源虚拟化为全局命名空间(动物园的名称),并通过多租户技术(遵循旅行社导游)为用户提供存储资源。

2分布式存储分为分布式块存储,分布式对象存储和分布式文件系统。

3数据减少在一定程度上节省了企业存储成本并提高了效率。包括精简配置(欺骗),自动存储分层(超市放置)和重复数据删除(自生成数据)。

4负载均衡技术,节点的负载均衡可以更好地实现系统的动态扩展,也就是说,如果系统收到的请求均匀分布到每个节点并超过节点的处理能力,系统可以通过简单地扩展节点数来减少。所有节点上的压力都没有任何内部负载平衡机制的处理。 (4x1接力比赛,体育委员会根据每个人的速度和耐力分配接力顺序)。

03

-

大数据存储

大数据存储系统架构分为DAS,NAS和SAN。

a4763e3bda094c6597791cb69d6e44bf

DAS

适用环境:1服务器的地理分布非常分散,很难通过SAN或NAS连接。 2存储系统必须直接连接到应用程序服务器。 3个小型网络。

缺点:1可扩展性差。 2资源利用率低。 3可管理性差。 DAS的数据分布在应用服务器的存储设备上,数据以集中的方式进行管理,分析和使用。 4异构化是严重的。

0d009da0009d4c4093b38849b0d54210

NAS

优点:1即插即用,您可以根据现有的企业网络轻松连接到应用服务器。 2专用操作系统支持不同的文件系统,可以支持应用程序服务器的不同操作系统之间的文件共享。 3专用服务器上的优化文件系统可提高文件访问效率。 4独立于应用程序服务器,即使应用程序服务器出现故障或停止工作,也可以读取数据。

缺点:1共享网络的方式使网络带宽成为存储性能的瓶颈。 2NAS访问受文件系统格式转换的影响,因此只能在文件级别访问,而不能在块级应用程序中访问。

SAN

2286ab9fd7d64451a7f486e90d497766

04

-

数据仓库

从决策支持的角度来看,数据仓库可以简单地定义为:为决策支持服务设计的数据库系统。它不是原始业务系统的替代品,而是所有业务系统之上的统一且一致的企业级别。数据视图。

特点:数据仓库中的数据面向主题组织;数据仓库中的数据是继承的。数据仓库中的数据是稳定的。数据随着时间的推移不断变化。

数据仓库和数据库之间的区别

09f3ad0c856d4bbc8e9122fe398fbd3a

在物理实现中,数据仓库与传统数据库本质上没有区别,主要以关系表的形式实现。更常见的是,我们将数据仓库视为数据库应用程序。

数据仓库架构:数据仓库从多个信息源获取原始数据,并在完成处理后将它们存储在数据仓库的内部数据库中。通过数据仓库访问工具,为数据仓库用户提供统一,协调,集成的信息环境,支持企业的全球决策过程和企业管理的深入综合分析。整个数据仓库系统是一个四级系统。

07744c543dc54ea5ab914e67b0c0cf4c

fb265d629877403ab3c046167d37936e