> 文章列表 > 【推荐系统】model 落地(样本/特征/预测服务)

【推荐系统】model 落地(样本/特征/预测服务)

【推荐系统】model 落地(样本/特征/预测服务)

兜率宫小道童的个人空间-兜率宫小道童个人主页-哔哩哔哩视频(如下是该视频课系列的笔记)

1-深度学习在搜索、广告、推荐系统中的应用-业务问题建模_哔哩哔哩_bilibili

其他章节

目录

二、深度学习落地

模型训练服务流程

1-样本生成-标签拼接

 1-样本生成-转化延迟

2-特征处理-整体流程

2-特征处理-特征中台

2-特征处理-原始特征拼接 

 2-特征处理-特征分类与抽取算子

 2-特征处理-特征重要性

  2-特征处理-特征体系示例

3-模型训练平台-模型构建

3-模型训练平台-模型构建-模型结构

 3-模型训练平台-模型构建-损失函数

 3-模型训练平台-模型构建-优化器

3-模型训练-训练流程

4-模型预测服务

三、深度学习算法进阶

检索算法分类

 1-匹配算法分类

1-匹配算法-有表示匹配

1- 匹配算法-双塔模型-训练

1-匹配算法-双塔模型-预测

1-匹配算法-双塔模型-ANN 检索

 2-匹配流程 

2-匹配流程-召回发展

2-匹配流程-粗排发展

2-匹配流程-精排发展-1

2-匹配流程-精排发展-2

 四、深度学习进阶

分布式机器学习 GitHub - dmlc/ps-lite: A lightweight parameter server interface

一天访问量会有百亿级别,单机是无法满足服务,做分布式模型服务
分布式模型服务-> 无状态,机器间不会被依赖


一些结论

  • 增量训练

用历史上一个训练好的模型做初始化,
用过去一个月,或者是三个月的样本做全量训练。 但此时,训练量是很大的,
比如,今天用前30天的样本进行训练,
明天用新增数据做增量训练,极大加快了模型的训练速度。有利于把最新的样本反应到 model 里面去,
对用户、商品冷启都有好的效果。

  • 线上实时特征落盘

为什么在线特征定期同步给离线平台?——节约性能
当我们在线上发起一次预估请求,会将 model所需的成百上千特征都收集好,送给 model去预测。
我们希望将这成百上千特征都存下来,直接离线做明文特征抽取。
因为特征很多,会导致用来存储特征的线上包很大,会影响线上的性能+从在线到离线的存储过程中,会产生大量的时间开销。
由此产生:
只将线上的实时特征落盘过来,将时间不敏感的特征用离线特征平台拼接给样本。一方面节省线上开销,离线可以并行提高处理速度。 

  • 交叉熵 衡量两个部分的差异。
  • NHSW的损失是比较小的,检索效率高。
  • 特征方差比较大,会造成 model梯度颠簸,会影响模型收敛速度和效果,所以要做归一化/log 等。
  • 近线系统:model 是天级别更新的,但是特征是天级别、小时级别更新的。???

二、深度学习落地

如何在检索匹配中使用深度学习?

2.1-深度学习在搜索、广告、推荐系统中的应用-样本和特征处理_哔哩哔哩_bilibili

模型训练服务流程

1-样本生成-标签拼接

 1-样本生成-转化延迟

2-特征处理-整体流程

2-特征处理-特征中台

2-特征处理-原始特征拼接 

 2-特征处理-特征分类与抽取算子

 2-特征处理-特征重要性

  2-特征处理-特征体系示例

2.2-深度学习在搜索、广告、推荐系统中的应用-模型训练和预测_哔哩哔哩_bilibili

3-模型训练平台-模型构建

3-模型训练平台-模型构建-模型结构

 3-模型训练平台-模型构建-损失函数

 3-模型训练平台-模型构建-优化器

3-模型训练-训练流程

4-模型预测服务

模型文件:1、emb词表;2、model 的网络参数;

网络参数是可以加载到内存里的,但是 emb 不行。 

实际预测时,model 后台会将这次预测用到的所有特征收集好,进行特征处理之后,将处理之后的稀疏特征的 emb 读取回来,再将 emb 和dense特征一起送给 model 预估的机器做预测。

考虑线上的流量比较大,一天会有百亿级别,单机无法满足,往往会做一个分布式的模型服务。

服务是无状态的,各个机器之间不依赖。不用写,只读,会比较简单。

三、深度学习算法进阶

复杂深度学习模型在检索匹配中的应用? 

3.1-深度学习在搜索、广告、推荐系统中的应用-算法进阶-匹配算法分类_哔哩哔哩_bilibili

检索算法分类

 1-匹配算法分类

1-匹配算法-有表示匹配

1- 匹配算法-双塔模型-训练

1-匹配算法-双塔模型-预测

1-匹配算法-双塔模型-ANN 检索

 3.2-深度学习在搜索、广告、推荐系统中的应用-算法进阶-分阶段演进_哔哩哔哩_bilibili

 2-匹配流程 

2-匹配流程-召回发展

2-匹配流程-粗排发展

2-匹配流程-精排发展-1

2-匹配流程-精排发展-2

 四、深度学习进阶

分布式机器学习

4-深度学习在搜索、广告、推荐系统中的应用-分布式机器学习_哔哩哔哩_bilibili