机器学习实验报告

机器学习实验报告第一部分：实验综述研究生机器学习与数据挖掘第一部分：实验综述实验目的： 1.发掘数据集大小和C4.5的关系 2.属性个数对该关系的影响实验思路：要求比较数据集大小和C4.5精度的关系，以及属性个数对此关系的影响。本实验中采用了两种思路，思路一是：使用同类实例的训练集和测试集，当分析训练集大小与C4.5精度的关系时，对训练集进行多次随机采样，并建立基于采样得到的新的训练集的模型，采用固定的测试集测试模型精度。记录并比较得出结论；分析测试集与C4.5精度的关系时；基于相同的训练集，对测试集多次采样，以不同...

第一部分：实验综述研究生机器学习与数据挖掘第一部分：实验综述实验目的： 1.发掘数据集大小和C4.5的关系 2.属性个数对该关系的影响实验思路：要求比较数据集大小和C4.5精度的关系，以及属性个数对此关系的影响。本实验中采用了两种思路，思路一是：使用同类实例的训练集和测试集，当分析训练集大小与C4.5精度的关系时，对训练集进行多次随机采样，并建立基于采样得到的新的训练集的模型，采用固定的测试集测试模型精度。记录并比较得出结论；分析测试集与C4.5精度的关系时；基于相同的训练集，对测试集多次采样，以不同大小的测试集测试模型精度，记录比较得出结论。思路二是：使用一个数据集，采用带筛选器的分类器，对处理后的数据进行10重交叉验证，记录所得精度，修改筛选器的抽样比率，得到不同的数据集，重复实验，比较得最后的结论。采用多组数据集进行重复实验，归纳得出概括性结论。本实验中第一二实验采用思路一，第三个实验采用思路二（重复实践了实验一）。使用数据记录如下： hayes-roth_train.arff hayes-roth_test.arff kdd_JapaneseVowels_train.arff kdd_JapaneseVowels_test.arff segment-challenge.arff segment-test.arff monks-problems-3_test.arff monks-problems-3 spectf_test.arff spectf_train.arff dermatology.arff splice.arff spectrometer.arff arrhythmia.arff hypothyroid.arff 使用分类器：实验一二使用：weka.classifiers.trees.J48 -C 0.25 -M 2 实验三使用：weka.classifiers.meta.FilteredClassifier -F "weka.filters.unsupervised.attribute.RandomSubset -N * -S 1" -W weka.classifiers.trees.J48 -- -C 0.25 -M 2 注：*为可修改值 5.实验参考原理：模型精度的影响因素模型的表现出了与学习算法有关，还与类的分布，误分类代价以及训练集和测试集的大小有关。为了比较某一因素对模型精度的影响，固定其他影响因素，来得出较为准确的结论。关于模型精度的测试：举例选用数据集hayes-roth_train.arff，包含132个实例，5个属性，分别为：属性名 Hobby Age educational_level marital_status class 类型数值型数值型数值型数值型名词性取值数 3 4 4 4 3 有无缺值无无无无无若测试集选用hayes-roth_test.arff，包含28个实例，使用训练集建立模型。决策树如下：使用测试集对该模型评估，统计数据如图所示：结论：该模型的精度为89.2857%。或直接对数据集进行交叉验证，也可得精度。第二部分：实验过程（以一组数据为例，给出具体的操作处理过程，其余各组数据的实验只给出数据记录。）（一）训练数据集大小与模型精度的关系 1.选用训练集为kdd_JapaneseVowels_train.arff，包含4274个实例，15个属性，无缺值情况。 2.选用筛选器对原训练集进行处理，对原训练数据集进行无监督的随机抽样，抽取50个数据作为新的训练数据集，如图所示，即，此刻训练数据集的实例数为50：进入分类界面，该实验选用的测试方法为： 4.选用分类器： C为置信系数，置信系数用于修剪(值越小修剪越多)。 M为每个叶节点的最小实例数。 5.设置测试数据集为：kdd_JapaneseVowels_test.arff。该测试数据集有5687个实例。在本类数据建模过程中，使用使用该数据集作为测试数据集。 6.系统默认最后一个属性为分类属性，如有必要，进行修改。 7.到此为止，设置均已完成，点击开始按钮，得到50个实例为训练数据集情况下的模型精度为53.6838，记录数据。 8.重新加载原训练数据集kdd_JapaneseVowels_train.arff，修改抽样数，重复整个试验，记录模型精度与训练数据实例数。测试集抽样数 30 50 100 200 500 1000 2000 3000 4000 4257 模型精度% 33.5326 53.6838 56.9545 60.8581 66.1685 73.8351 76.0331 76.4375 76.8771 76.9298 到此为止，我们可以得到一组模型精度与训练数据集实例数的关系数据，由于选用的分类器始终为weka.classifiers.trees.J48 -C 0.25 -M 2 ，未对实例的属性做任何处理，因此可粗略的认为该次实验的数据表明了测试数据集大小与模型精度的关系。（二）测试数据集大小与模型精度的关系基本测试过程同上，但是训练集始终不变，而每次加载的测试集变化。在此过程中需要对测试集进行抽样并生成新的大小各异的测试集，具体操作如下：在预处理界面，打开kdd_JapaneseVowels_test.arff文件，选择如下筛选器：确定选择实例数后，应用，并保存生成新的测试集重复如上操作，生成该原测试集的一系列大小不一致的测试集。重新加载kdd_JapaneseVowels_train.arff ，不必进行筛选，确定分类器，将刚生成的新的测试集加载如有必要调整分类属性，建模并测试精度，记录数据。加载新的测试集，重复建模并测试精度。得到数据如下：训练集为：kdd_JapaneseVowels_train.arff ，包含4274个实例，15个属性。测试集抽样数 30 100 500 1000 3000 5687 模型精度% 73.3333 78 78.6 77 77.2667 76.9298 使用另一种方法计算数据集大小与模型精度的关系，并抽样属性值，分析属性个数对数据集大小与模型精度的关系的影响。（三）属性个数对数据集大小与模型精度的关系的影响 1.对数据集不做预处理，直接打开。进入分类器界面。 2.分类器选择如下图： 3.对原数据集直接做一次交叉验证，如有必要，调整分类目标属性，测试并记录模型精度。 4.设置筛选器的参数，调整抽样的百分比，改变数据集，用交叉验证测试模型精度。多选用几个数据集，概括属性个数对数据集大小与模型精度的关系的影响第三部分：实验数据记录训练数据集大小与模型精度的关系 1.训练集为：kdd_JapaneseVowels_train.arff ，包含4274个实例，15个属性。测试集为：kdd_JapaneseVowels_test.arff，包含5687个实例。模型对整个训练数据的拟合度：97.9878 % 训练集抽样数 30 50 100 200 500 1000 2000 3000 4000 4257 模型精度% 33.5326 53.6838 56.9545 60.8581 66.1685 73.8351 76.0331 76.4375 76.8771 76.9298 2.训练集为：segment-challenge.arff，实例数为1500，20个属性。测试集为：segment-test.arff，实例数为810。模型对整个训练数据的拟合度：97.9878 % 训练集抽样数 30 50 100 200 300 500 800 1000 1200 1500 模型精度% 67.284 82.716 85.8025 88.3951 90.6173 91.358 93.4568 93.3333 94.1975 96.1728 3.训练集为：monks-problems-3_test.arff，实例数为432，属性数为7。测试集为：monks-problems-3_train.arff，实例数为122。模型对整个训练数据的拟合度：100 % 训练集抽样数 10 20 30 50 100 150 200 300 400 432 模型精度% 50.8197 84.4262 77.0492 93.4426 93.4426 95.082 95.082 95.082 95.082 95.082 4.训练集为：spectf_test.arff，实例数为269，属性数为45。测试集为：spectf_train.arff，实例数为80。模型对整个训练数据的拟合度：99 % 训练集抽样数 10 15 30 50 80 120 160 200 230 269 模型精度% 50 61.25 63.75 85 72.5 81.25 81.25 91.25 92.5 96.25 测试数据集大小与模型精度的关系 1.训练集为：kdd_JapaneseVowels_train.arff ，包含4274个实例，15个属性。测试集为：kdd_JapaneseVowels_test.arff，包含5687个实例。测试集抽样数 30 100 500 1000 3000 5687 模型精度% 73.3333 78 78.6 77 77.2667 76.9298 2.训练集为：segment-challenge.arff，实例数为1500，20个属性。测试集为：segment-test.arff，实例数为810。测试集抽样数 10 30 100 200 500 810 模型精度% 100 96.6667 96 96.5 96.6 96.1728 3.训练集为：monks-problems-3_test.arff，实例数为432，属性数为7。测试集为：monks-problems-3_train.arff，实例数为122。测试集抽样数 5 10 20 50 100 122 模型精度% 100 100 95 94 95 95.082 4.训练集为：spectf_test.arff，实例数为269，属性数为45。测试集为：spectf_train.arff，实例数为80。测试集抽样数 5 10 20 50 70 80 模型精度% 100 100 90 94 95.7143 96.25 （三）属性个数对数据集大小与模型精度的关系的影响 1.数据集为dermatology.arff，实例数为366，属性数为35。属性抽样%数 10 20 30 40 50 60 70 80 90 原属性模型精度% 63.1148 74.0437 87.9781 85.2459 88.7978 88.7978 91.5301 93.1694 93.9891 93.9891 2.数据集为splice.arff，实例数为3190，属性数为62。属性抽样%数 10 20 30 40 50 60 70 80 90 原属性模型精度% 63.3229 70.7837 74.9216 74.2633 76.6771 80.6583 87.3668 87.4922 91.9436 94.0752 3.数据集为spectrometer.arff，实例数为531，属性数为103。属性抽样%数 10 20 30 40 50 60 70 80 90 原属性模型精度% 51.2241 53.2957 56.8738 59.1337 56.3089 59.1337 58.7571 57.4388 63.4652 63.6535 4.数据集为arrhythmia.arff，实例数为452，属性数为280。属性抽样%数 10 20 30 40 50 60 70 80 90 原属性模型精度% 55.0885 55.9735 58.6283 65.4867 64.823 64.6018 64.823 65.2655 65.9292 64.3805 5.数据集为hypothyroid.arff，实例数为3772，属性数为30。属性抽样%数 10 20 30 40 50 60 70 80 90 原属性模型精度% 92.2853 92.2853 92.6034 92.6034 92.5239 92.5239 97.9321 98.2238 99.5758 92.7094 第四部分：实验结论（一）训练数据集大小与模型精度的关系结论：在同类数据下（即保持属性），使用J48建立模型的精度与训练数据集大小的关系可概括如下：当训练数据集过小时（例如小于30），建立的模型精度过低，不具有参考价值。随训练数据集尺寸增大，建立模型的分类精度也会随之增大。当训练数据集尺寸增大到一定程度时，建立模型的精度不会再持续增大，且最大分类精度不会超过模型对训练数据的拟合度。（二）测试数据集大小与模型精度的关系结论：在同类数据下（即保持属性），使用J48建立模型的精度与测试数据集大小的关系可概括如下：当测试数据集过小时，所测模型精度不具有代表性，没有参考价值。随测试数据集尺寸增大，模型精度也会随之增大。当测试数据集尺寸增大到一定程度时，对模型精度的测量值不会再持续增大，并保持在某一数值上下微小浮动。（三）属性个数对数据集大小与模型精度的关系的影响结论：对某一数据集进行属性操作时，使用J48建立模型的精度与属性个数的关系可概括如下：当实例的属性个数过少时，所建模型精度低，没有参考价值。随实例的属性个数增多，所建立模型的精度也会随之增大。

                    本文档为【机器学习实验报告】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

机器学习实验报告

你可能还喜欢