数据建模必知六大步骤

时间：2024-09-12　来源：朝夕友人　点击：

数据建模，通俗地说，就是通过建立数据科学模型的手段解决现实问题的过程。数据建模也可以称为数据科学项目的过程，并且这个过程是周期性循环的。

数据建模的具体过程可分为六大步骤，如下图所示：

一、制订目标

制订目标的前提是理解业务，明确要解决的商业现实问题是什么？

如：在社交平台KOL中，存在假粉丝的情况，如何识别假粉就是一个要解决的现实问题。

二、数据理解与准备

基于要解决的现实问题，理解和准备数据，一般需要解决以下问题：

需要哪些数据指标（即特征提取）？（如：哪些指标能区别真粉和假粉？）数据指标的含义是什么？数据的质量如何？（如：是否存在缺失值？）数据能否满足需求？数据还需要如何加工？（如：转换数据指标，将类别型变量转化为0-1哑变量，或将连续型数据转化为有序变量）探索数据中的规律和模式，进而形成假设。

需要注意的是，数据准备工作可能需要尝试多次。因为在复杂的大型数据中，较难发现数据中存在的模式，初步形成的假设可能会被很快推翻，这时一定要静心钻研，不断试错。

数据建模后需要评估模型的效果，因此一般需要将数据分为训练集和测试集。

三、建立模型

在准备好的数据基础上，建立数据模型，这种模型可能是机器学习模型，也可能不需要机器学习等高深的算法。选择什么样的模型，是根据要解决的问题（目标）确定的。

当然可以选择两个或以上的模型对比，并适当调整参数，使模型效果不断优化。

四、模型评估

模型效果的评估有两个方面：一是模型是否解决了需要解决的问题（是否还有没有注意和考虑到的潜在问题需要解决）；二是模型的精确性（误差率或者残差是否符合正态分布等）。

如：在识别KOL假粉的问题中，需要评估的是：

模型能否识别出假粉？识别的误差率是多少？粉丝识别误差率=（假粉误认为真粉的数量+真粉误认为假粉的数量）/总粉丝数

五、结果呈现

结果呈现主要关注以下三个方面：

模型解决了哪些问题？解决效果如何？如何解决问题？具体操作步骤是什么？

六、模型部署

通过大量数据解决了一个或多个重要的现实问题，需要将方案落实下去，一般情况下需要通过线上技术环境部署落实，从而为后面不断优化模型、更好地解决问题打下基础。

交由工程人员部署技术环境，需要数据建模团队撰写需求文档，并确保工程人员理解需求文档的内容，才能达到较好的模型部署效果。

公众号“数据科技社”专注数据分析、数据科学技能传播。后期会陆续推出数据分析模型系列文章，敬请关注！

往期回顾

13122402111