您现在的位置是:课程

数据预处理主要做“三值四化”这点事(50个系列小视频之11)

2023-09-20 23:14课程 人已围观

我们知道在做数据分析之前、中期都需要做数据预处理,也知道数据预处理不好的话,会严重影响后期模型的分析结果。但不同人口里说的数据预处理,包含的内容往往不一样,甚至把模型结果不好的一切原因都归属于数据预处理没做好,他们经常说:你的数据没做好预处理,所以才。。。。

 

不同书籍、课程、网站、人在介绍数据预处理的内容上,会有差异,这很正常。不同学科、行业背景的人,拿到不同的数据,做预处理的内容不一样完全正常。

 

我在这里,将不同学科、行业的数据分析需要做的预处理内容,归纳整理出四个字“三值四化”,这四个字代表的内容,是大多数场景里需要做的预处理。

 

三值,是错误值、异常值、缺失值。

 

四化,是数据离散化、数据一般化、数据标准化、数据归一化。

 

这里面有些特别容易处理,比如错误值,要么修改过来要么删除;再比如数据一般化,通常根据研究者主观经验来处理。

 

但异常值、缺失值、离散化、标准化的处理稍微有点复杂,对于刚入门的初学者会有不好疑惑的地方,这些内容将在以后的视频里逐个给大家分享。

-->

站点信息

  • 文章统计篇文章