本文为大数据Overview,基于网上收集的视频和资料。

参考视频:从编年史角度看大数据兴起_bilibili

参考资料:数据分析_报告,今天也有好好学习的博客-CSDN博客

BASE

数据链路定义:将各种来源的数据转换处理后送入在线服务中(海量数据批次/实时计算结合)

  • 大数据:⼤数据是如何产生的?什么是埋点?

    100TB/5PB时就需要考虑存储、计算速度了,即使是数据库集群MPP架构,也存在拓展性、热点问题

    定义:超出传统数据库工具收集、存储、管理和分析能力的数据集

    4V特征:规模巨大、生成处理速度快、数据类型多样、价值巨大但密度低

  • 处理场景、数据类型

    一文搞懂:离线数据、实时数据究竟该如何选择

    什么是全量数据、增量数据?

    • 离线(T + N)

      跑全量数据:批处理(数据被收集在一起,形成一个完整的数据集,然后作为一个整体进行处理

      架构:考虑冯诺依曼到哈佛架构:运算器为中心到存储为中心 -> 计算节点为中心,移动计算(比如多节点计算再merge)而不是移动数据【前提:数据够多 调度时间<<计算时间】

    • 实时(秒级)

      增量数据:流式计算(连续流,数据一旦到达立即分析处理,不需要等待所有数据)

  • 概念 & Hadoop生态圈

    Hadoop 分布式计算平台:一文搞懂什么是Hadoop?

    • ETL(提取、转换、加载)

      获取数据(结构化/非结构化),对其进行处理转换为对业务目的有用的数据。

    • 数据存储

    • 通用计算

      • Mapreduce:Map+Reduce
      • Spark:14年代替Mapreduce成为Hadoop的缺省计算引擎(减少磁盘交互,用内存提高效率)
    • 调度

      • 计算资源:Yarn -> 调度计算资源紧贴HDFS数据做运算
      • 任务流管理调度:Oozie/Azkaban(执行顺序/定时)
    • 数仓(离线场景):通俗易懂:什么是数仓

      Hive:Hive与传统数据库有什么区别?

      数据分析/开发:结构化数据用SQL,非结构化用api,都需要迁移到spark和MR上,hive就是帮忙把sql/api转成spark和MR上