大数据入门记录_2024
本文为大数据Overview,基于网上收集的视频和资料。
参考资料:数据分析_报告,今天也有好好学习的博客-CSDN博客
BASE
数据链路定义:将各种来源的数据转换处理后送入在线服务中(海量数据批次/实时计算结合)
大数据:⼤数据是如何产生的?什么是埋点?
100TB/5PB时就需要考虑存储、计算速度了,即使是数据库集群MPP架构,也存在拓展性、热点问题
定义:超出传统数据库工具收集、存储、管理和分析能力的数据集
4V特征:规模巨大、生成处理速度快、数据类型多样、价值巨大但密度低
处理场景、数据类型
离线(T + N)
跑全量数据:批处理(数据被收集在一起,形成一个完整的数据集,然后作为一个整体进行处理
架构:考虑冯诺依曼到哈佛架构:运算器为中心到存储为中心 -> 计算节点为中心,移动计算(比如多节点计算再merge)而不是移动数据【前提:数据够多 调度时间<<计算时间】
实时(秒级)
增量数据:流式计算(连续流,数据一旦到达立即分析处理,不需要等待所有数据)
概念 & Hadoop生态圈
Hadoop 分布式计算平台:一文搞懂什么是Hadoop?
ETL(提取、转换、加载)
获取数据(结构化/非结构化),对其进行处理转换为对业务目的有用的数据。
数据存储
HDFS:Hadoop 下的分布式文件系统,主从节点,支持超大文件存储、流式数据访问、高容错
HBase:分布式 NOSQL
通用计算
- Mapreduce:Map+Reduce
- Spark:14年代替Mapreduce成为Hadoop的缺省计算引擎(减少磁盘交互,用内存提高效率)
调度
- 计算资源:Yarn -> 调度计算资源紧贴HDFS数据做运算
- 任务流管理调度:Oozie/Azkaban(执行顺序/定时)
数仓(离线场景):通俗易懂:什么是数仓
Hive:Hive与传统数据库有什么区别?
数据分析/开发:结构化数据用SQL,非结构化用api,都需要迁移到spark和MR上,hive就是帮忙把sql/api转成spark和MR上
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Xxxxic's Blog!