课程一
一、特性
1volumn容量大
2variety多样性
3velocity高速
4veracity真实
5valence链接
6value价值
二、大数据表现形式
结构化数据
半结构化数据
非结构化
三、处理方式
交互式
批处理(input processing output)
流处理(低延迟、高并发、高可用)
四、分布式
distributed
并发行、高容错、横向扩展
ACID到base(ba基本可用s软状态e最终一致性)cap(一致性、可用性、分区容错性)
五、数据单位
b-kb-mb-gb-tb
pb-eb-zb-yb-bb-nb-db
六、发展方向
规模大 多样性 高速性 价值型
离线计算 实时计算 机器学习深度学习 批流融合 abc融合
七、解决存-算
map-s-sort-=reduce
数据采集 kafka flume
数据存储 hdfs hbase
数据计算 strom spark flink
数据分析 pig hive
数据应用出口应用
八、案例
双十一大屏
课程二
道法术
1、爆款商品单开发+数据可视化看板展示
2、数据仓库定义及演进史
生产工厂-物流公司-商品仓库-时尚潮流店
盘库表-聚数据-数仓建模-数据产品
数据库-ETl-数据仓库(原始表ods+维度建模dwd+汇总数据层dws+应用数据层ads)-可视化看板
数据分层:操作数据层-明细数据层-汇总数据层-应用数据层。 database到bigdata
3、数据仓库架构(ipo)
数据(登陆、点击、操作、交易等等)-数据平台(自动加工+实时数据采集+离线数据采集+hive+hdfs+用户画像)-用户看板
模型:概念模型(商家+商品+订单)+逻辑模型(字段含义类型)+物理模型(表)clp
分层:清晰+有序+高效(操作数据层-明细数据层-汇总数据层-应用数据层)
事实:商品交易(销售量+购买用户+订单交易金额)
维度:(who+what+where+when)
4、数据仓库建模(春风到春天+慢就是快)
第一步:数据调研
需求调研:排行数据+双十一销售额+财务数据+多少商家+平台的用户量
业务调研:商家
数据调研:商家平台+促销活动+广发哦+交易系统+商家购买流程+线上活动+客服售后流程+数据现有表
第二步:数仓规划
分析主题+数据分层+数据事实+数据为度
商品+商家+交易+用户+流量+客服等
数据分层规划:操作数据层-明细数据层-汇总数据层-应用数据层
时间+年龄+商家+商品+地域等
第三步:模型设计
事实表(数据架构表图:商家表+日期表+用户表+订单表+商品维度表)星型模型
第四步:模型开发
真实表构建 (落地各种真实表结构)
5、大厂案例
爆款商品分析-双十一看版
Mc+datawork+quickbi+pai
6、数据运维+离线数仓+用户画像+实时流式计算+机器学习+数据中台
课程三
道法术
实时爆款商品实时销售分析+实时大数据看版
1、实时计算技术原理知识讲解
实时广告媒体+实时即未来
实时计算实现方式:
微批处理:(水流)水库-取水口-反应堆-过滤-活性炭-清水-配水泵-用户(直饮机)
流式计算:(车流)定点数车流量(红绿灯)
数据处理四大概念
实时计算:快
流式计算(微批):
批处理计算:
离线计算:昨天慢
核心价值:随着时间的延长数据价值成指数级下降
场景:实时数仓+无人+实时机器学习
2、三大实时数据计算框架
storm+spark+flink
storm:(流处理)
实时分析+在线机器学习+持续学习+分布式rpc+etl
缺陷:吞吐能力不强(TB)+准确性不强
特点:绝对快
阿里java重写jstrom
应用 twitter +微博 吞吐量和准确性不高,但是最快
业务和技术:技术不能限制业务,业务倒逼技术前进。
spark:(微批处理-慢)
吞吐能力+准确
慢一点,但吞吐能力+准确性提升
scala语言
kafka+flume+hdfs+kinesis+twitter到hdfs+database
flink:(流处理)-最强
吞吐能力+准确+低延迟+有状态计算+支持状态管理+支持时间乱序
快速+灵动+支持延迟数据
logs+iot+clicks
性能:低延迟(strom)+高吞吐+准确性+操作简单 —-flink(all in)
3、flink技术原理及特性讲解
四大根技术
flinksql
Streaming
ML(机器学习)
Gelly(图计算)
技术栈:local+cluster+cloud
sql-table-dataStream-StreamProcessing
1、容错机制:错误不用重新计算
2、状态管理:传数据带状态故障可排查(原生状态+托管状态)
3、时间窗口:每隔多久或数量间隔处理
4、时间语义:水印标签,解决乱序到达(事件时间+摄入时间+处理时间)
无界数据流中的有界数据集
培训大纲
1、数据仓库设计方案
2、hive理论知识
3、hivesql学习
4、数据治理,数据质量讲解
5、DWD层物理模型开发
6、dws层物理模型开发
7、dim层维度表开发
8、ads应用层指标报表开发
9、hive-udf讲解
10、用户画像学习
11、spark分布式计算框架
12、clickhouse理论知识
13、sparkrdd编程
14、kafka理论知识讲解
15、flink理论知识
16、ELK理论知识讲解
17、python机器学习
18、numpy学习
19、pandas使用
20、sklearn学习
21、算法模型训练
22、阿里云数据中台maxcompute
23、dataworks讲解
24、可视化quickbi
25、pai学习
26、hadoop详解
27、sqoop数据迁移工具
28、flume使用
29、strom使用