hive实战开发-1

文章列表

hive实战开发-1

1、文件生成

生成task文件：转到目标目录，用hddt -t >工程名.task
生成flow文件：转到目标目录，用hddt -f >工程名.flow
生成zip文件：转到目标目录，添加hive文件夹和脚本后，用hddt -z 工程名.flow，生成zip压缩包，压缩包内自动包含.job。

生产：使用external外部表；注释用comment；一定要分区；采用默认的分隔符不用额外写语句；压缩格式：orc；分号后边不要加注释，否则会有问题。
开发：尽量使用内部表

初始化和更新不同，定时任务运行的是更新，初始化脚本单独写。

在大数据测试环境开发，http://10.199.127.176:8889/hue/editor/?type=hive，在测试环境的azkaban进行测试

上线前注意检查ddl（external、comment、表名），是初始化还是更新（表名、字段）。

因为数据同步时分区无法同步，利用临时表进行全量数据（包含分区数据）的导出，若存在记录条数加倍的情况，到hive中定位到该数据库，删除临时文件的副本即可。