它们不拒绝真正错误的原假

sohanuzzaman566 · 發表於 2025-1-2 12:17:05

II 类错误是假阴性：设。换句话说，测试并没有看到其中一个选项有显着的改进，尽管实际上有这种改进。

犯第二类错误或 beta 错误 (β) 的概率与统计功效 (1 - β) 成反比。如果发生 II 类错误 (β) 的风险为 20%，则功率水平将为 80% (1.0 - 0.2 = 0.8)。您可以将假阴性结果的风险降低至 5-10%，然后功效水平变为 90-95%。

所选功率级别控制 II 类错误：功率级别越高，发生 II 类错误的可能性越低。由于 alpha 和 beta 误差成反比，因此当您运行具有极低 alpha 误差值（例如 0.001%）的测试时，会大大增加出现 II 类错误的风险。

统计功效与 II 类错误呈反比关系。多亏了它，可以控印度号码制可能的假阴性结果。您努力将 I 类错误的风险降低到可接受的水平，同时保持检测改进的强大能力。

找到正确的平衡是一门完整的科学。如果您的其中一种选择更有利可图，则可以通过适当组织的测试来检测到这一点。如果测试能力不足，您就有可能错误地拒绝一个好的选择。

就统计功效而言，哪些变量会影响这种平衡？我们来看一下。

影响统计功效的变量
当您考虑影响统计功效的每个变量时，请记住主要目标是控制错误率。有四个因素可以调整：

样本大小。
最小可检测效应（MDE）。
显着性水平 (α)。
所需的功率级别（隐含的 II 类错误级别）。
1. 样本量
样本必须足够大，才能进行高质量的分割测试。重要的是要确定它的大小，以便它为测试提供足够的功率，但又不会太大，这样测试持续时间就不会大大增加（较长的测试成本更高，并且会减慢测试速度）。

分析的每个选项和细分市场都必须拥有大量用户。为了确保检验始终具有良好的统计功效，您需要提前规划样本量。否则，您可能不会注意到有太多的变体和片段。如果您在后期看到这种情况，那么在测试后您将得到许多用户数量较少的组。

期望在合理的时间内（至少一周或一个商业周期）获得具有统计意义的结果。大多数情况下，建议在 2 到 4 周内进行测试。如果做得更久，可能会遇到样本被污染、cookie被删除的问题。

应确定最小样本量并提前指定时间范围。然后，您将避免“盲目”运行拆分测试并在获得统计显着差异之前结束它的常见错误。

		自動登錄	找回密碼
密碼			立即註冊