机器学习数据顺序随机打乱：Python实现

采编：hyt15 来源：博客园发布时间：2023-05-22 12:26:50

(资料图)

本文介绍基于Python语言，实现机器学习、深度学习等模型训练时，数据集打乱的具体操作。

1 为什么要打乱数据集

在机器学习中，如果不进行数据集的打乱，则可能导致模型在训练过程中出现具有“偏见”的情况，降低其泛化能力，从而降低训练精度。例如，如果我们做深度学习的分类，其中初始数据的前80%都是第一类，后20%都是第二类，那么如果我们不打乱数据，模型按照数据顺序依次加以训练，则在前面大部分数据中训练出来的结果都是第一类（即形成了惯性，模型认为这些数据只对应着第一类）；而到后20%数据进行训练时，所得结果也往往全都为第一类；所以要打乱。

2 如何打乱

首先引入random。

import random

2.1 数据特征与标签均为一维

DataIndex=[i for i in range(len(TrainX))]random.shuffle(DataIndex)TrainX=TrainX[DataIndex]TrainY=TrainY[DataIndex]

其中，TrainX为一维的训练数据特征，TrainY为一维的训练数据标签。

2.2 数据特征为多维而标签为一维

Datasets=tf.data.Dataset.from_tensor_slices((dict(TrainX),TrainY))Datasets=Datasets.shuffle(1000)

其中，TrainX需要为多维DataFrame格式的训练数据特征，TrainY为一维Series格式的训练数据标签。但是经过这种方法，我们得到的Datasets为Dataset类的数据，若是接下来需要带入input_fn还可以，如果想单独取出TrainX和TrainY的话就比较麻烦。

因此，我们还可以直接在初始数据划分训练集与测试集时直接将数据打乱：

TrainData=MyData.sample(frac=TrainFrac,random_state=RandomSeed)TestData=MyData.drop(TrainData.index)

其中，MyData为初始全部数据，TrainData与TestData分别为划分后的训练集与测试集数据。

经过.sample()这一步骤，与原始数据的Index相比，实际上已经实现了TrainData与TestData的随机排列。

至此，大功告成。

关键词：

关闭

机器学习数据顺序随机打乱：Python实现

【环球新视野】香港最长寿组合温拿乐队宣布将解散携手走过半个世纪！

焦点热讯:细节见人品，刘昊然90度鞠躬与前辈握手，周冬雨手足无措

全球快看点丨5.20票房创纪录，爱情片不敌“家人侠”

天上天下漫画总共有画_天上天下漫画

A股异动丨香飘飘大涨近9% 1-4月营业收入8.74亿元同比增长43.4%

周冬雨刘昊然屈楚萧主演电影《燃冬》戛纳首映名导是枝裕和现身捧场

高叶回复网友吐槽矛盾升级，被高叶回复的网友，觉得自己很委屈资讯

当前报道:《浪姐4》金主力捧的4人浮出水面，人设和故事线出彩，美依礼芽不在其中

焦点快播：西安东站TOD助力！浐河岸边崛起“高铁东城”，未来趋势如何？

【天天时快讯】《人生之路》女性给命运的答卷

百事通！范丞丞的“尴尬”，让《跑男》节目组彻底被打脸

每日速递：华表奖阵容官宣，张译、吴京、沈腾、刘德华等数百位影人出席

葡萄酒甜的好还是不甜的好?-每日观点

陈志朋老婆是谁？陈志朋一家三口视频

每体：巴萨认为梅西回归每年可带来2.3亿欧营收，净利达1亿欧全球热文

王菲与李亚鹏离婚的原因是什么？李亚鹏给王菲写的情书

李易峰PC是什么意思？李易峰bug什么意思？

5.15-5.21内地一周票房9.09亿环比大涨65.87% 《速度与激情10》5.42亿强势夺冠

罗志祥结婚了吗？罗志祥复出成功了吗？

世界短讯！LPR连续9个月不变！1年期为3.65%，5年期以上为4.3%

何猷君为什么会选择奚梦瑶？何猷君妈妈评价奚梦瑶

蓝天野子女家人介绍蓝天野几个儿子几个女儿？

领略自然之美!电影频道5.22-5.29播出3部法国电影_当前讯息

于月仙有几任丈夫？于月仙的遗产分配

于月仙有几任丈夫？于月仙的遗产分配

于月仙有几任丈夫?根据了解，丈夫是张学松，两人已经结婚将近20年了...

赵本山和于月仙什么关系？于月仙资产多少亿？

赵本山和于月仙什么关系?于月仙是赵本山妻子的表妹。赵本山有两个妻...

侠盗无双怎么安装_侠盗无双怎么用天天资讯

1、你去看看你下载的那个文件，，里面是不是用一个记事本。2、，那...

董卿第一个丈夫是谁？董卿比丈夫小几岁？

董卿第一个丈夫是谁?据小编所了解到的，董卿的第一个丈夫就是宓春雷...

李晨范冰冰为什分手？谁帮范冰冰还了8亿？

李晨范冰冰为什分手?第一，因为当时税务问题牵连的实在太多，不仅范...

探访刘慈欣的工作室和炼钢炉里的“元宇宙”

文、图羊城晚报驻京全媒体记者王莉视频羊城晚报驻京全媒体记者...

俞灏明和selina怎么烧伤的？任家萱烧伤前后照片

俞灏明和selina怎么烧伤的?俞灏明烧伤是因为在2010年的时候，他和se...

【天天时快讯】第11代雅阁正式上市：两种动力可选，售价17.98万元起

在国内B级轿车市场，本田雅阁一直是一款比较有影响力的车型，其在国...

张柏芝为什么离婚？张柏芝三胎爸爸是谁？

张柏芝为什么离婚?1、不雅照事件还记得当年陈冠希的不雅照事件吗?其...

张惠妹的老公是谁？张雨生张惠妹什么关系？

张惠妹的老公是谁?据了解，张惠妹并没有官宣结婚，所以也没有老公。...

微资讯！生长迟缓的孩子，该怎么食养？｜中国学生营养日

生长迟缓不仅会降低儿童的疾病抵抗力，而且会增加成年后发生超重肥...

华晨宇家境如何？王思聪怎样评价华晨宇？

华晨宇家境如何?据悉，的确华晨宇是一个富二代。观察华晨宇父亲做的...

百事通！范丞丞的“尴尬”，让《跑男》节目组彻底被打脸

在刚过完年的时候，那段时间对喜欢看综艺的观众来说是真的不太友好...

当前报道:《浪姐4》金主力捧的4人浮出水面，人设和故事线出彩，美依礼芽不在其中

文|烤娱芒果女性励志成长音乐节目《浪姐4》仅上线3期节目，整个社交...

每日速递：华表奖阵容官宣，张译、吴京、沈腾、刘德华等数百位影人出席

第十八届十九届华表奖颁奖典礼将于5月23日在北京举行，两届奖项一起...

高叶回复网友吐槽矛盾升级，被高叶回复的网友，觉得自己很委屈资讯

5月17日，高叶身穿绿色的礼服亮相戛纳红毯，当大部分网友都表示自己...

滚动：把忏读千、写错游，娱乐圈的文盲有点多啊……

近日，新晋小花周也同新剧《护心》男主侯明昊一起直播连麦。周也在...

当她死后，全世界都开始爱她_全球速递

一早起来看到一条热搜：雪莉的电影要播了。其实，不常用微博、不关...

新闻图集

机器学习数据顺序随机打乱：Python实现

天上天下漫画总共有画_天上天下漫画

【环球新视野】香港最长寿组合温拿乐队宣布将解散携手走过半个世纪！

A股异动丨香飘飘大涨近9% 1-4月营业收入8.74亿元同比增长43.4%

全球快看点丨5.20票房创纪录，爱情片不敌“家人侠”

周冬雨刘昊然屈楚萧主演电影《燃冬》戛纳首映名导是枝裕和现身捧场

焦点热讯:细节见人品，刘昊然90度鞠躬与前辈握手，周冬雨手足无措

焦点快播：西安东站TOD助力！浐河岸边崛起“高铁东城”，未来趋势如何？

【天天时快讯】《人生之路》女性给命运的答卷

百事通！范丞丞的“尴尬”，让《跑男》节目组彻底被打脸

当前报道:《浪姐4》金主力捧的4人浮出水面，人设和故事线出彩，美依礼芽不在其中

每日速递：华表奖阵容官宣，张译、吴京、沈腾、刘德华等数百位影人出席