> 文章列表 > Spark应用程序集群资源评估公式

Spark应用程序集群资源评估公式

Spark应用程序集群资源评估公式

评估依据:企业SaaS环境,实际数据使用情况。

  • 存储
    数据以parquet格式,gzip压缩存储,1亿数据量所需的最低物理存储空间为10G(HDFS存储一个文件默认有3个副本)。

  • SparkSql查询计算

  1. 未命中缓存的情况下,1亿数据量的常规查询,支撑1个并发(1个计算任务在1s内完成计算),所需的最低计算资源为100G内存,200核CPU(约5~10个计算节点
  2. 任意数据量级的查询计算任务,命中缓存的情况下,支撑100个并发(100个计算任务在1s内完成计算),所需的计算资源为10G内存,20核CPU(约1个计算节点)
  • SparkSql大数据计算
    能够良好处理合表排队的情况下,每处理1亿数据需要2.5核,5G内存。

示例:某客户要求,每天更新的合表数据量为100亿,不出现异常排队的情况,则需要250核,500G的集群计算资源(约6个计算节点,假设每个节点最多可配置40核)
依据,SaaS:基于某天合表更新的数据量为800亿,资源:2000核,4.1TB内存,60个节点。CPU使用率在50%左右。

  • 流式计算
    每秒处理1亿条数据,所需的最低计算资源为100G内存,200核CPU(约5~10个计算节点)