> 文章列表 > 读书笔记//《数据科学工程实践》

读书笔记//《数据科学工程实践》

读书笔记//《数据科学工程实践》

出版时间:2021年11月
副标题:用户行为分析、A/B实验、SQLFlow
作者们是一线互联网企业的数据科学家、数据分析师和算法工程师,主要就职于滴滴、部分就职于腾讯、快手等。
点评:神仙下凡布道。感谢大佬们的分享。本书让我领略了大厂如何运用最新数据技术解决商业问题。有点小瑕疵就是,有部分章节的引用案例不是大厂实战,缺少说服力。

再次感叹,平台和机会多么重要啊!

文章目录

    • 一、数据科学是什么
    • 二、观测数据的分析技术
      • (一)如何分析用户的选择
      • (二)与时间相关的行为分析
      • (三)洞察用户长期价值:基于神经网络的LTV模型
      • (四)使用体系化分析方法进行场景挖掘
      • (五)行为规律的发现与挖掘
      • (六)对观测到的事件进行因果推断

一、数据科学是什么

数据科学包括三要素,商业理解是方向,量化模型是起点,数据技术是道路。

二、观测数据的分析技术

(一)如何分析用户的选择

场景:
家庭旅游时,选择哪种交通方式出行?自驾还是非自驾?飞机、火车、长途汽车、自驾?

DCM的功能:
用来分析”从有限互斥选项集中进行单项选择“的计量模型。选择结果=F(决策者,备选项集合,备选项属性)。

DCM的任务:
1.预测一组决策者的决策行为
2.决策者在做出决策时,衡量不同选项属性的影响
3.了解不同群体如何评价一个备选项的不同属性,以便通过精心设计的策略,修改对个体决策者有重要影响的选项的属性,以主动的方式去改变用户行为。

常用的DCM模型:
读书笔记//《数据科学工程实践》

附IIA假设:选择两个备选项的概率之比与其他备选项的存在无关。这条假设一般很难达到。因此,NL比MNL更科学、严谨,应用更广。

python实现:

pip install statsmodels
pip install pylogitfrom collections import OrderedDict #记录模型的声明specification
import scipy # Hausman卡方检验
import statsmodels.stats.outliers_influence import variance_inflation_factor #多重共线性检验。因LR是广义线性模型。import statsmodels.api as sm # 引入逻辑回归
import pylogit

(二)与时间相关的行为分析

场景:

二手车定价(本章案例)。通过建模分析找到最优定价策略并实现自动化定价。
其他应用如用户留存分析、病人的治愈情况、 婚姻持续情况、产品出现故障的情况。

  • 问题
    价格越高存放时间越长,则仓储及维护成本越高。

  • 两个核心点
    1.求解在不同价格水平下,具备不同信息参数的二手车随时间连续变化的留存(未被出售)概率曲线,进而得出随时间推移车辆消耗的成本。
    2.基于毛利最大化原则寻找最优价格。

解决方案排除:
回归模型(如线性回归、决策树回归等)处理的是截面数据。模型输出结果是特定时间截面下的事件发生概率。有两个不足:1.它无法处理连续时间信息,即车辆留存概率与时间的关系。2.难以分析调价对出售概率的影响。

生存分析:
同时关注事件结果、事件发生时间。

  • 关键词:
    生存曲线、半衰期(中位生存时间)

python实现:

from lifelines import KaplanMeierFitter #引入生存分析包 KM生存曲线
from lifelines.statistics import logrank_test #引入生存分析包 logrank检验
from lifelines import NelsonAalenFitter #引入生存分析包 风险曲线
from lifelines import CoxPHFitter #引入生存分析包 Cox模型

(三)洞察用户长期价值:基于神经网络的LTV模型

LTV (lift time value)
用户长期价值,是基于用户行为的公司估值法。该方法有5大要素:用户获取、用户留存、用户下单、用户消费、边际利润。

行业应用:零售、金融服务、媒体、制药等。

特点:
1.长期性
2.变化性。初创公司,重视获客规模;稳定发展的公司,重视留存、用户平台价值。好的产品和运营策略,可以增强用户黏性,延长LTV。

LTV能解决的问题:
1.如何找出最优价值的用户?
2.企业怎么才能产生让用户长期喜爱和依赖的产品?
3.影响用户购买行为的因素有哪些?如何更好地满足不同用户的需求?
4.如何制定获客预算?

python实现:

pip install Kerasfrom sklearn.preprocessing import MinMaxScaler
from Keras.layers import Input,ConvID,Dropout,LSTM,TimeDistributed,Bidirectional,Dense
from Keras.models import model
from Keras.callbacks import EarlyStopping

(四)使用体系化分析方法进行场景挖掘

(待补充)

(五)行为规律的发现与挖掘

(待补充)

(六)对观测到的事件进行因果推断

(待补充)