数据集分层抽样算法

张一极

date:20220825-22:42

关键词:分层抽样

本质:放置问题

实现关于数据集分层抽样算法,从初始样本开始,设置len(类别)个篮子,每次假设数据放入某个篮子中,计算放置后的数据分布,放置完成以后,进入下一个样本尝试。

直到某一个类别达到样本比例,即可停止放置,再次循环到下一个样本,开始下一个类别的放置。

 

最后可以得到一个较为均衡的数据分布数据集。