python中随机森林如何优化

时间：2024-10-13 02:26:45

1、随机森林算法决策树涉及从数据集中(利用)贪婪选择选取最佳分割点过程中的每一步。如果不精简(该算法拘七呷憎)，此算法容易使决策树出现高方差。这种高方差(结果)可以通过创建包含测试数据集中(多个)不同的实例(问题的不同观点)的多重树，接着将实例所有的可能结果结合，这种方法简称为bootstrap聚合或套袋。套袋的局限性在于，它使用相同的贪婪算法来创建每棵树，这意味着在每棵树中可能会选择相同或非常相似的分割点，使得不同的树非常相似(树将被关联)。这反过来又使他们的预测相似，从而缩减了最初寻求的差异。我们可以通过贪婪算法在创建树时在每个分割点评估的特征(行)来限制决策树不同。这被称为随机森林算法。像装袋一样，测试数据集的多个样本在被采集后，接着在每个样本上训练不同的树。不同之处在于在每一点上，拆分是在数据中进行并添加到树中的，且只考虑固定的属性子集。对于分类问题，我们将在本教程中讨论的问题的类型——分割中输入特点数的平方根值对为分割操作考虑的属性个数的限制。num_features_for_split = sqrt(total_input_features)这一小变化的结果是树之间变得更加不同(不关联)，作为结果会有更加多样化的预测，这样的结果往往好于一个单独的树或者单独套袋得到的结果。

2、声纳数据集我们将在本教程中使用的数据集是Sonar数据集。这是一个描述声纳声音从不同曲面反弹后返回(数据)的数据集。输入的60个变量是声呐从不同角度返回的力度值。这是一个二元分类问题，需要一个模型来区分金属圆柱中的岩石。这里有208个观察对象。这是一个很好理解的数据集。所有变量都是连续的且范围一般是0到1。输出变量是“Mine”字符串中的“M”和“rock”中的“R”，需要转换为整数1和0。通过预测在数据集(“M”或“mines”)中观测数最多的类，零规则算法可以达到53%的准确度。您可以在UCI Machine Learning repository了解关于此数据集的更多信息。下载免费的数据集，并将其放置在工作目录中，文件名为sonar.all-data.csv。

3、教程本教程分为2个步骤。计算分割。声纳数据集案例研究。这些步骤为您需要将随机森林算法应用于自己的预测建模问题奠定了基础。

4、计算分割在决策树中，通过利用最低成本找到指定属性和该属性的值方法来确定分割点。对于分类问题，这个成本函数通常是基尼指数，它计算分割点创建的数据组的纯度。基尼指数为0是完美纯度，其中在两类分类问题的情况下，将类别值完全分成两组。在决策树中找到最佳分割点涉及到为每个输入的变量评估训练数据集中每个值的成本。对于装袋和随机森林，这个程序是在测试数据集的样本上执行的，并且是可替换的。更换取样意味着同一行(数据)会不止一次的被选择并将其添加到取样中。我们可以优化随机森林的这个程序。我们可以创建一个输入属性样本来考虑，而不是在搜索中枚举输入属性的所有值。这个输入属性的样本可以随机选择而不需要替换，这意味着每个输入属性在查找具有最低成本的分割点的过程中只被考虑一次。下面是实现此过程的函数名称get_split()。它将数据集和固定数量的输入要素作为输入参数进行评估，此数据集可能是实际测试数据集的一个样本。helper函数test_split()用于通过候选分割点拆分数据集，gini_index()用于根据创建的行组来计算给定拆分的花费。我们可以看到，通过随机选择特征索引并将其添加到列表(称为特征)来创建特征列表，然后枚举该特征列表并且将测试数据集中的特定值评估作为分割点。

5、声省蜞酗涕纳数据集案例研究在本节中，我们将把随机森林算法应用到声纳数据集。该示例假定数据集的CSV副本位于当前工作目录中，文件名为sonar.all-data.csv。首先瑕铆幌约加载数据集，将字符串值转换为数字，并将输出列从字符串转换为0和1的整数值。这可以通过使用帮助器函数load_csv()，str_column_to_float()和str_column_to_int()来加载和预备数据集。我们将使用k-fold交叉验证来估计未知数据的学习模型的性能。这意味着我们将构建和评估k个模型，并将性能估计为平均模型误差。分类准确性将用于评估每个模型。这些工具或是算法在cross_validation_split()，accuracy_metric()和evaluate_algorithm()辅助函数中提供。我们也将使用适合套袋包括辅助功能分类和回归树(CART)算法的实现)test_split(拆分数据集分成组，gini_index()来评估分割点，我们修改get_split()函数中讨论在前一步中，to_terminal()，split()和build_tree()用于创建单个决策树，预测()使用决策树进行预测，subsample()创建训练数据集的子采样，以及bagging_predict()用决策树列表进行预测。开发了一个新的函数名称random_forest()，首先根据训练数据集的子样本创建一个决策树列表，然后使用它们进行预测。正如我们上面所说的，随机森林和袋装决策树之间的关键区别是对树的创建方式中的一个小的改变，这里是在get_split()函数中。