建模过程中基础重要步骤详解

时间：2024-09-12　来源：朝夕友人　点击：

part1 模型好坏标签定义

part2 确定建模集测试集、验证集OOT

part3 建模技术华山论剑

1、机器学习对比LR应用

2、LR的KS提升方法汇总

3、新技术算法的运用场景介绍

part4 模型验证

part5 灰客户研究

一、模型好坏标签定义

为了应对信贷环境波动的不稳定性，我们每月更新模型。首先取数，假如今天是8月1日，我们取订单就取到6月30日前到期的，因为表现期在1个月内（具体根据观察期内滚动率）。由于疫情发生时，2月1日收紧了部分硬规则，比如近三个月信用卡逾期次数等且大环境变差，故此次模型需要重建。选取2月1至3月1申请授信发生的客户，计算历史全部客户授信后动支率订单数与时间的关系，得出40天基本稳定。参考好友求是汪知乎，定义模型观察期表现期，订单选取方法。样本观察期2月1至3月1授信客户，同时单个授信客户取授信后40天内发生的订单，用作好坏定义。如果客户3月1日授信，那么取4月10前发生的所有订单，作为定义来源，如果模型观察期3个月（3个账龄期），那么就是取7月10前到期的订单，由于需要30天表现期，故截止观测点是8月10日。

（上图引用好友“求是汪在路上”知乎）

上文详细描述了，定义是根据用户维度而非订单维度。那么我们在滚动率确定表现期时候也是根据期间发生授信用款客户的滚动率变化确定的，一般都在20天至30天左右，把历史所有客户有超过逾期20天的定义为坏，未逾期定义为好，逾期1至5天定义hui1，6至10天hui2，11至20天hui3。

上文确定了前三期好坏定义，但未区分是信用风险客户还是欺诈客户，那么我们将全部订单前三期总还款金额低于全部借款本金10%的定义为欺诈（同时根据催收反馈，去除有还款意愿的客户）。建立反欺诈模型。了，或反欺诈规则。信用风险客户建立信用评分模型。

二、确定建模集测试集、验证集OOT

有很多同学有个错误，喜欢用历史很久前的样本做建模集测试集，喜欢用最近样本做OOT 。但往往做出来自己都无法接受，因为PSI偏高，主要因为在今年和去年行情一直在下滑，加上疫情，OOT不堪入目。实际过程中，我们是选取近期样本做建模，历史样本做OOT，以及建模集后几个月未满观察期的样本做OOT。

比如上文中选2月1至3月1授信样本，截止观测点8月10日，做建模集测试集。选12月1至1月1、1月1至2月1做OOT，发现偏差较大。再选取3月1至4月1日授信样本（观察期2个月）做OOT，但必须先把2月1至3月1重建2个月观察期模型，我们可以认为2个月观察期模型PSI没有问题，3个月也不会有问题，原因是近2个月未有

上一篇：数据建模必知六大步骤下一篇：经验总结 | 17步教你用真正的实战思维设计建模！

13122402111