Hive数据倾斜以及解决方案 1、什么是数据倾斜 数据倾斜主要表现在,map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几...
文章目录 一、CDC 入湖 1.1、[开启binlog](https://blog.csdn.net/wuxintdrh/article/details/130142601) 1.2、创建测试表 1.2.1、创建mysql表 1.2.2...
大数据-学习实践-5企业级解决方案 (大数据系列) 文章目录 大数据-学习实践-5企业级解决方案 1知识点 2具体内容 2.1小文件问题 2.1.1 SequenceFile ...
前言 通常情况下,作业会通过input目录产生一个或多个任务。 主要决定因素: input的文件总个数 input的文件大小 集群设置的文件块大小 1. 是...
hadoop调优(二) 1 HDFS故障排除 1.1 NameNode故障处理 NameNode进程挂了并且存储数据丢失了,如何恢复NameNode? 如果NameNode进程挂掉并且数据...
一、MapReduce 跑的慢的原因 MapReduce程序效率的瓶颈在于两点: 1、计算机性能 CPU、内存、磁盘、网络 2、IO操作优化 数据倾斜 Map和Reduce数设置不...