> 文章列表 > hive实战开发-1

hive实战开发-1

hive实战开发-1

hive实战开发-1

  • 1、文件生成
  • 2、建表:
  • 3、关于初始化和更新
  • 4、开发工具:
  • 5、上线前的注意事项
  • 6、如何按照原数据表的分区同步数据或者补数

1、文件生成

生成task文件:转到目标目录,用hddt -t >工程名.task
生成flow文件:转到目标目录,用hddt -f >工程名.flow
生成zip文件:转到目标目录,添加hive文件夹和脚本后,用hddt -z 工程名.flow,生成zip压缩包 ,压缩包内自动包含.job。

2、建表:

生产:使用external外部表;注释用comment;一定要分区;采用默认的分隔符不用额外写语句;压缩格式:orc;分号后边不要加注释,否则会有问题。
开发:尽量使用内部表

3、关于初始化和更新

初始化和更新不同,定时任务运行的是更新,初始化脚本单独写。

4、开发工具:

在大数据测试环境开发,http://10.199.127.176:8889/hue/editor/?type=hive,在测试环境的azkaban进行测试

5、上线前的注意事项

上线前注意检查ddl(external、comment、表名),是初始化还是更新(表名、字段)。

6、如何按照原数据表的分区同步数据或者补数

因为数据同步时分区无法同步,利用临时表进行全量数据(包含分区数据)的导出,若存在记录条数加倍的情况,到hive中定位到该数据库,删除临时文件的副本即可。