踏浪論壇

標題: 它们不拒绝真正错误的原假 [打印本頁]

作者: sohanuzzaman566    時間: 2025-1-2 12:17
標題: 它们不拒绝真正错误的原假

II 类错误是假阴性:设。换句话说,测试并没有看到其中一个选项有显着的改进,尽管实际上有这种改进。

犯第二类错误或 beta 错误 (β) 的概率与统计功效 (1 - β) 成反比。如果发生 II 类错误 (β) 的风险为 20%,则功率水平将为 80% (1.0 - 0.2 = 0.8)。您可以将假阴性结果的风险降低至 5-10%,然后功效水平变为 90-95%。

所选功率级别控​​制 II 类错误:功率级别越高,发生 II 类错误的可能性越低。由于 alpha 和 beta 误差成反比,因此当您运行具有极低 alpha 误差值(例如 0.001%)的测试时,会大大增加出现 II 类错误的风险。

统计功效与 II 类错误呈反比关系。多亏了它,可以控 印度号码 制可能的假阴性结果。您努力将 I 类错误的风险降低到可接受的水平,同时保持检测改进的强大能力。

找到正确的平衡是一门完整的科学。如果您的其中一种选择更有利可图,则可以通过适当组织的测试来检测到这一点。如果测试能力不足,您就有可能错误地拒绝一个好的选择。

就统计功效而言,哪些变量会影响这种平衡?我们来看一下。

影响统计功效的变量
当您考虑影响统计功效的每个变量时,请记住主要目标是控制错误率。有四个因素可以调整:

样本大小。
最小可检测效应(MDE)。
显着性水平 (α)。
所需的功率级别(隐含的 II 类错误级别)。
1. 样本量
样本必须足够大,才能进行高质量的分割测试。重要的是要确定它的大小,以便它为测试提供足够的功率,但又不会太大,这样测试持续时间就不会大大增加(较长的测试成本更高,并且会减慢测试速度)。

分析的每个选项和细分市场都必须拥有大量用户。为了确保检验始终具有良好的统计功效,您需要提前规划样本量。否则,您可能不会注意到有太多的变体和片段。如果您在后期看到这种情况,那么在测试后您将得到许多用户数量较少的组。

期望在合理的时间内(至少一周或一个商业周期)获得具有统计意义的结果。大多数情况下,建议在 2 到 4 周内进行测试。如果做得更久,可能会遇到样本被污染、cookie被删除的问题。

应确定最小样本量并提前指定时间范围。然后,您将避免“盲目”运行拆分测试并在获得统计显着差异之前结束它的常见错误。




歡迎光臨 踏浪論壇 (http://5566.7788.tw/) Powered by Discuz! X3.2
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |