> 作者“hi”的文章 - 第6页
  • Hive 拉链表的两种实现方式

    Hive 拉链表的两种实现方式

    目录 1.什么是拉链表 2.拉链表的产生背景 2.1数据同步 2.1.1全量同步 2.1.2增量同步 2.2增量同步和拉链表 3.拉链表的实现方式 3.1数据准备 3.2思路1 3.3思...

    03-21 0 796 文章列表
  • Hive 作业中Reduce个数设置多少合适呢?

    Hive 作业中Reduce个数设置多少合适呢?

    前言 在上一篇文章《Hive 作业产生的map数越多越好还是越少越好?》中介绍了map个数设置多少合适的问题,那么Reduce个数设置多少合适呢?...

    03-21 0 596 文章列表
  • hive:创建自定义函数 UDF

    hive:创建自定义函数 UDF

    编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个相对复杂点: 简单API: org.apache.hadoop.hive.ql.exec.UDF 复杂API: &nbs...

    03-21 0 804 文章列表
  • Hive查询语句

    Hive查询语句

    目录 1.1 基础语法 1.2 基本查询(Select…From) 1.2.1 数据准备 1.2.2 全表和特定列查询 1.2.3 列别名 1.2.4 Limit语句 1.2.5 Where语句 1.2....

    03-21 0 266 文章列表
  • Hive 浅谈DDL语法

    Hive 浅谈DDL语法

    前言 Hive 不存储数据,是表到HDFS文件的映射关系。在HQL开发中,我们主要关注语法,今天就带着小伙伴们来了解一下每个 DDL 语句的语义。...

    03-21 0 805 文章列表
  • Hive3.1.3安装及部署

    Hive3.1.3安装及部署

    目录 1 下载地址 2 安装部署 2.1 安装Hive 2.2 启动并使用Hive 2.3 MySQL安装 2.3.1 安装MySQL 2.3.2 配置MySQL 2.3.3 卸载MySQL说明 2.4 配置Hive元数据存...

    03-21 0 101 文章列表
  • Hive 作业产生的map数越多越好还是越少越好?

    Hive 作业产生的map数越多越好还是越少越好?

    前言 通常情况下,作业会通过input目录产生一个或多个任务。 主要决定因素: input的文件总个数 input的文件大小 集群设置的文件块大小 1. 是...

    03-21 0 978 文章列表
  • Hive了解

    Hive了解

    目录 1.1 什么是Hive 1.2 Hive发展历程 1.3 Hive架构原理 1.1 什么是Hive 1)Hive简介 Hive是由Facebook开源,基于Hadoop的一个数据仓库工具&...

    03-21 0 974 文章列表
  • Hive小文件问题

    Hive小文件问题

    1、小文件产生的原因 数据源本身有很多小文件: reduce数量多导致生成的小文件增多: 使用动态分区导致小文件增多: 2、小文件危害 HD...

    03-21 0 374 文章列表
  • Hive 事务和锁的功能测试

    Hive 事务和锁的功能测试

    Hive 事务和锁的功能测试 Hive 的事务和锁,可以在会话级别设置。 1. 无事务、无锁的方式 各云厂商,如阿里云,百度云默认都采用此方案。...

    03-21 0 548 文章列表