本笔记只做复习以及巩固知识点使用,初次学习请下载练习工作簿,跟随网络课程的讲解同步操作,结果参考解法工作簿。
添加趋势线
趋势可以提供重要的分析见解,例如在这里回答“风速增加时,我们的发电量会提高多少”?我们理解这里的关系,当风速增加时,发电量也会增加。但具体如何增加呢?在视图中添加趋势线非常简单。
- 单击“分析”窗格,然后将“趋势线”拖至所要的模型类型。


- 移除趋势线也一样简单 – 只需将其拖出视图。但我们需要趋势线,因此要撤销刚才的操作。
趋势线选项
默认情况下,趋势线是按区和按颜色的。
- 回到“数据”标签,如果将另一个维度放入视图,如“地点”,我们会得到按区或按散点图生成的趋势线。

- 同样,如果我们要将“地点”移到“颜色”,趋势线将分成三根。

- 如果我们希望在颜色上看到“地点”,但是只有一个总体趋势,我们可以修改趋势线。编辑趋势线只需要轻松单击右键,选择“趋势线”,再选择“编辑趋势线”。

- 取消选中“允许按颜色绘制趋势线”将恢复为一根总体趋势线。

- 我们还可以取消选中“显示置信区间”来简化视图

在此对话框中还可以进行多项其他操作。
- 首先是模型类型。
- 这些选项与我们最初从“分析”窗格调出趋势线时出现的选项相同。
- 这些选项告诉 Tableau 根据一个或两个变量的这种转换,构建线性回归模型。
- 线性是指系数,而不是变量的关系。
- 关于模型类型和转换,关于趋势线模型类型的在线帮助文章提供了一些很有用的信息。
- “显示置信区间”显示模型 95% 的置信区间。
- 我们还可以选择强制让 y 截点位于 0 处
趋势线显著性
评估趋势线是否提供了有价值的信息,这一点很重要。
- 悬停在趋势线上会显示工具提示,上面有趋势线等式、 p 值和 R 平方值

- 在统计学中,p 值是表示显著性概念的数字。
- 如果 p 值小于截断值(通常是 0.05),即表示结果解释为显著。
- 较大的 p 值(范围在 0-1 之间)可能表示数据中的明显趋势纯属偶然,而不是模型中的因数造成的。
- 在本示例中,趋势线的 p 值很小,这是理想的。然而,要正确评估模型是否有很好的拟合度,我们需要知道的不仅仅是 p 值。
- 我们还有 R 平方值,该值实际上告诉我们模型与数据的拟合程度有多高。 R 平方值的变化范围是 0-1,值越高越好。
- 我们看到,示例中的 R 平方值很高,达到了 0.956
- 这表示我们的模型与数据有良好的拟合度 —— R 平方值为 1 表示完美拟合。但是请注意,如果您的 R 平方值高得不可思议,例如 0.999,您的模型可能具有误导性。人为的高 R 平方值的一个常见标志是低自由度,或者具有过多的观测点。
趋势线残差
为了确定趋势线是否准确表示了数据,只有一个很小的 p 值或很大的 R 平方值还不够。我们的数据点不会全部落在预测的趋势线上。从给定点到其预测值的距离就是误差,或者说残差。在正确的模型中,如果对照解释变量进行绘制,这些残差应该是围绕零线随机正态分布的。如果此残差图不是正态分布,那就表示存在数据与预测值不符的趋势,这意味着模型不是最佳模型。若要获得带趋势线视图的残差值:
- 转至“工作表”>“导出”>“数据”

- 此时系统将提示我们保存文件(唯一的格式选项是 Microsoft Access),我们将其命名为“趋势线残差”,然后单击“保存”。

- 我们选择“导出后连接”

- 此数据源包含来自我们散点图的原始数据,以及预测值(来自趋势线)和残差。

残差图构造为,解释变量在横轴(“风速”在“列”上),残差在纵轴(在“行”上)。
我们要将“风车”移至“详细级别”。
请记住,好的模型在零周围呈正态分布。
很明显,我们目前的模型在根据风速值预测发电量方面不是很好。虽然趋势线有不错的 p 值和 R平方值,残差图却很糟糕。

网友评论