下面为大家带来Clementine数据挖掘方法及应用
clementine决策树分类模型
1、一.基于决策树模型进行分类的基本原理概念 分类就是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。由此生成的类描述用来对未来的测试数据进行分类。
2、数据分类是一个两步过程: 第一步,建立一个模型,描述预定的数据类集或概念集;第二步,使用模型进行分类。
3、优点:在面对数据遗漏和输入字段很多的问题时非常稳健;通常不需要很长的训练次数进行估计;比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;也提供强大的增强技术以提高分类的精度。
4、范例说明:使用clementine建立流程图,如图所示:
5、用C5.0算法建立决策树模型:建立一个C5.0结点(Modeling\C5.0)与Type节点相连,如图所示
6、测试模型:现有新的数据snapshottestN.db,将建好的分类模型(pep)加入到流程中,并利用Analysis节点分析结果,如图11所示