大数据入门记录_2024

本文为大数据Overview，基于网上收集的视频和资料。

参考视频：从编年史角度看大数据兴起_bilibili

参考资料：数据分析_报告，今天也有好好学习的博客-CSDN博客

BASE

数据链路定义：将各种来源的数据转换处理后送入在线服务中（海量数据批次/实时计算结合）

大数据：⼤数据是如何产生的？什么是埋点？

100TB/5PB时就需要考虑存储、计算速度了，即使是数据库集群MPP架构，也存在拓展性、热点问题

定义：超出传统数据库工具收集、存储、管理和分析能力的数据集

4V特征：规模巨大、生成处理速度快、数据类型多样、价值巨大但密度低
处理场景、数据类型

一文搞懂：离线数据、实时数据究竟该如何选择

什么是全量数据、增量数据？
- 离线（T + N)
  
  跑全量数据：批处理（数据被收集在一起，形成一个完整的数据集，然后作为一个整体进行处理
  
  架构：考虑冯诺依曼到哈佛架构：运算器为中心到存储为中心 -> 计算节点为中心，移动计算（比如多节点计算再merge）而不是移动数据【前提：数据够多调度时间<<计算时间】
- 实时（秒级）
  
  增量数据：流式计算（连续流，数据一旦到达立即分析处理，不需要等待所有数据）
概念 & Hadoop生态圈

Hadoop 分布式计算平台：一文搞懂什么是Hadoop？
- ETL（提取、转换、加载）
  
  获取数据（结构化/非结构化），对其进行处理转换为对业务目的有用的数据。
- 数据存储
  - HDFS：Hadoop 下的分布式文件系统，主从节点，支持超大文件存储、流式数据访问、高容错
    
    HDFS究竟是什么？HDFS是怎样储存数据的？
  - HBase：分布式 NOSQL
- 通用计算
  - Mapreduce：Map+Reduce
  - Spark：14年代替Mapreduce成为Hadoop的缺省计算引擎（减少磁盘交互，用内存提高效率）
- 调度
  - 计算资源：Yarn -> 调度计算资源紧贴HDFS数据做运算
  - 任务流管理调度：Oozie/Azkaban（执行顺序/定时）
- 数仓（离线场景）：通俗易懂：什么是数仓
  
  Hive：Hive与传统数据库有什么区别？
  
  数据分析/开发：结构化数据用SQL，非结构化用api，都需要迁移到spark和MR上，hive就是帮忙把sql/api转成spark和MR上