1、打开spss软件。
2、为了方便讲解,我们可以自定义输入一组含有错误值的数据,比如大学生的身高。我们知道正常人的身高在3米以内,如果偏高太多,显然就是我们所说的极端值、错误值。
3、上面只是罗列了一个简单的数据组,但在spss中,无论数据的多少,查找极端值、错误值的处理方法都是一样,数据越多越能体现spss的优势。明白这一点之后,在上方的工具栏依次点击“Analyze”(分析)——“Descriptive Statistics”(描述统计)——“Descriptive ”(描述)。
4、选中左侧方框的变量,点击中间的箭头按钮,将变量移动到右边的方框。
5、点击右上角的“options”(选择)按钮,勾选如图所示的选项,分别代表:均值、标准差、最小值、最大值、变量列表。
6、勾选“Save standardized values as variables”(将标准化数据保存为变量),点击“ok”。
7、从生成的统计分析结果表格中,我们可以看到数据组中的极值,即极小值和极大值,其中极小值是135,很明显,这样的身高属于正常值,但是420显然大大超出了大学生的正常身高范围,所以可以认定,这是一个极端值、错误值。
8、当然,仅仅从极小值和极大值来处理数据表中的极端值、错误值是远远不够的,因为有些数据表包含的极端值、错误值往藻焐瞬赧往不止一个。那么这是就要返回到数据窗口,由于经过了上一个步骤的操作,这时候数据表中新生成了一组标准化数据“Z大学生身高cm”。
9、“Z大学生身高cm”实际上是衡量正态分布的一个标准化数据,服从正态分布的数据,应该分布在正负三个标准差以内,这时候,我们就可以通过观察“Z大学生身高cm”变量中,有哪些数字是小于-3或者大于3的,同样指向了“420”这一行,这就是我们要找的极端值、错误值。