对任何数据分析而言,数据绘图(或可视化)都很重要,应该总是在使用统计检验或构建模型之前完成。要举例说明为何数据可视化是数据分析过程中的首要步骤,请考虑以下示例:
1. 选择帮助 > 样本数据库,然后打开 Anscombe.jmp (F. J. Anscombe (1973), American Statistician, 27, 17-21)。
该数据由四对 X 和 Y 变量组成。
2. 在“表”面板中,点击四次方脚本旁边的绿色小三角。
该脚本使用以 X 拟合 Y 为每对变量创建一个简单的线性回归。显示点选项关闭,因此散点图中看不到任何数据。四个模型 显示了每个回归的模型拟合和其他汇总信息。
四个模型
注意:所有四个模型和 R 方值基本相同。每种情况下的拟合模型基本上为 Y = 3 + 0.5X,并且每种情况下的 R 方值基本上为 0.66。若数据分析仅考虑上述汇总信息,您可能会推断出每种情况下 X 和 Y 之间的关系是相同的。但是,这时您还没有可视化数据, 您的推断可能是错误的。
1. 按住 Ctrl 键。
2. 点击任何一个“二元拟合”旁边的红色小三角,然后选择显示点。
添加了点的散点图
散点图显示尽管描述关系的直线相同,但四组配对 X 和 Y 之间的关系不相同:
• 图形 1 表示线性关系。
• 图形 2 表示非线性关系。
• 图形 3 表示线性关系,但一个离群值除外。
• 图形 4 除一个点以外,所有数据的 x 值均为 8。
本示例说明仅根据统计量进行推断是不充分的。直观的数据探索应该是任何数据分析的首要工作。