面向非平衡数据的过采样方法研究
文章目录
1.绪论
1.1研究背景及意义
随着科学技术的发展,数据量呈爆炸性增长。为了使这些数据更好地服务于各行各业,数据挖掘与机器学习应运而生。顾名思义,数据挖掘就是要从海量数据中发现有用的信息,从而指导决策。机器学习是数据挖掘的支撑技术,主要算法有分类、回归、聚类、关联规则等。其中,分类问题是很多领域中常见的任务,分为训练阶段和预测阶段。首先对已知的样本进行训练,得到一个分类器,然后利用这个分类器对新
样本进行预测。
然而,对于许多现实世界中的问题,学习出一个准确的分类器仍然存在困难,尤其是从非平衡数据中学习。非平衡数据就是其中至少一个目标类别包含的样本数量要比