大数据培训–大纲

新闻中心 wuhanyi 3年前 (2022-12-01) 586次浏览 已收录 0个评论 扫描二维码

课程一

一、特性

1volumn容量大

2variety多样性

3velocity高速

4veracity真实

5valence链接

6value价值

二、大数据表现形式

结构化数据

半结构化数据

非结构化

三、处理方式

交互式

批处理(input processing output)

流处理(低延迟、高并发、高可用)

四、分布式

distributed

并发行、高容错、横向扩展

ACID到base(ba基本可用s软状态e最终一致性)cap(一致性、可用性、分区容错性)

五、数据单位

b-kb-mb-gb-tb

pb-eb-zb-yb-bb-nb-db

六、发展方向

规模大 多样性 高速性 价值型 

离线计算 实时计算 机器学习深度学习 批流融合 abc融合

七、解决存-算

map-s-sort-=reduce

数据采集 kafka flume 

数据存储 hdfs hbase 

数据计算 strom spark flink

数据分析 pig hive

数据应用出口应用

八、案例

双十一大屏

课程二

道法术

1、爆款商品单开发+数据可视化看板展示

2、数据仓库定义及演进史

生产工厂-物流公司-商品仓库-时尚潮流店

盘库表-聚数据-数仓建模-数据产品

数据库-ETl-数据仓库(原始表ods+维度建模dwd+汇总数据层dws+应用数据层ads)-可视化看板

数据分层:操作数据层-明细数据层-汇总数据层-应用数据层。 database到bigdata

3、数据仓库架构(ipo)

数据(登陆、点击、操作、交易等等)-数据平台(自动加工+实时数据采集+离线数据采集+hive+hdfs+用户画像)-用户看板

模型:概念模型(商家+商品+订单)+逻辑模型(字段含义类型)+物理模型(表)clp

分层:清晰+有序+高效(操作数据层-明细数据层-汇总数据层-应用数据层)

事实:商品交易(销售量+购买用户+订单交易金额)

维度:(who+what+where+when)

4、数据仓库建模(春风到春天+慢就是快)

第一步:数据调研

需求调研:排行数据+双十一销售额+财务数据+多少商家+平台的用户量

业务调研:商家

数据调研:商家平台+促销活动+广发哦+交易系统+商家购买流程+线上活动+客服售后流程+数据现有表

第二步:数仓规划

分析主题+数据分层+数据事实+数据为度

商品+商家+交易+用户+流量+客服等

数据分层规划:操作数据层-明细数据层-汇总数据层-应用数据层

时间+年龄+商家+商品+地域等

第三步:模型设计

事实表(数据架构表图:商家表+日期表+用户表+订单表+商品维度表)星型模型

第四步:模型开发

真实表构建 (落地各种真实表结构)

5、大厂案例

爆款商品分析-双十一看版

Mc+datawork+quickbi+pai

6、数据运维+离线数仓+用户画像+实时流式计算+机器学习+数据中台

课程三

道法术

实时爆款商品实时销售分析+实时大数据看版

1、实时计算技术原理知识讲解

实时广告媒体+实时即未来

实时计算实现方式:

微批处理:(水流)水库-取水口-反应堆-过滤-活性炭-清水-配水泵-用户(直饮机)

流式计算:(车流)定点数车流量(红绿灯)

数据处理四大概念

实时计算:快

流式计算(微批):

批处理计算:

离线计算:昨天慢

核心价值:随着时间的延长数据价值成指数级下降

场景:实时数仓+无人+实时机器学习

2、三大实时数据计算框架

storm+spark+flink

storm:(流处理)

实时分析+在线机器学习+持续学习+分布式rpc+etl

缺陷:吞吐能力不强(TB)+准确性不强

特点:绝对快

阿里java重写jstrom

应用 twitter +微博 吞吐量和准确性不高,但是最快

业务和技术:技术不能限制业务,业务倒逼技术前进。

spark:(微批处理-慢)

吞吐能力+准确

慢一点,但吞吐能力+准确性提升

scala语言

kafka+flume+hdfs+kinesis+twitter到hdfs+database

flink:(流处理)-最强

吞吐能力+准确+低延迟+有状态计算+支持状态管理+支持时间乱序

快速+灵动+支持延迟数据

logs+iot+clicks

性能:低延迟(strom)+高吞吐+准确性+操作简单 —-flink(all in)

3、flink技术原理及特性讲解

四大根技术

flinksql

Streaming

ML(机器学习)

Gelly(图计算)

技术栈:local+cluster+cloud

sql-table-dataStream-StreamProcessing

1、容错机制:错误不用重新计算

2、状态管理:传数据带状态故障可排查(原生状态+托管状态)

3、时间窗口:每隔多久或数量间隔处理

4、时间语义:水印标签,解决乱序到达(事件时间+摄入时间+处理时间)

无界数据流中的有界数据集

 

培训大纲

1、数据仓库设计方案

2、hive理论知识

3、hivesql学习

4、数据治理,数据质量讲解

5、DWD层物理模型开发

6、dws层物理模型开发

7、dim层维度表开发

8、ads应用层指标报表开发

9、hive-udf讲解

10、用户画像学习

11、spark分布式计算框架

12、clickhouse理论知识

13、sparkrdd编程

14、kafka理论知识讲解

15、flink理论知识

16、ELK理论知识讲解

17、python机器学习

18、numpy学习

19、pandas使用

20、sklearn学习

21、算法模型训练

22、阿里云数据中台maxcompute

23、dataworks讲解

24、可视化quickbi

25、pai学习

26、hadoop详解

27、sqoop数据迁移工具

28、flume使用

29、strom使用

 

喜欢 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
X

截屏,微信识别二维码

微信号:18986010416

(点击微信号复制,添加好友)

  打开微信