Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 3|回復: 0
打印 上一主題 下一主題

它们不拒绝真正错误的原假

[複製鏈接]

27

主題

27

帖子

85

積分

註冊會員

Rank: 2

積分
85
跳轉到指定樓層
樓主
發表於 2025-1-2 12:17:05 | 只看該作者 回帖獎勵 |正序瀏覽 |閱讀模式

II 类错误是假阴性:设。换句话说,测试并没有看到其中一个选项有显着的改进,尽管实际上有这种改进。

犯第二类错误或 beta 错误 (β) 的概率与统计功效 (1 - β) 成反比。如果发生 II 类错误 (β) 的风险为 20%,则功率水平将为 80% (1.0 - 0.2 = 0.8)。您可以将假阴性结果的风险降低至 5-10%,然后功效水平变为 90-95%。

所选功率级别控​​制 II 类错误:功率级别越高,发生 II 类错误的可能性越低。由于 alpha 和 beta 误差成反比,因此当您运行具有极低 alpha 误差值(例如 0.001%)的测试时,会大大增加出现 II 类错误的风险。

统计功效与 II 类错误呈反比关系。多亏了它,可以控 印度号码 制可能的假阴性结果。您努力将 I 类错误的风险降低到可接受的水平,同时保持检测改进的强大能力。

找到正确的平衡是一门完整的科学。如果您的其中一种选择更有利可图,则可以通过适当组织的测试来检测到这一点。如果测试能力不足,您就有可能错误地拒绝一个好的选择。

就统计功效而言,哪些变量会影响这种平衡?我们来看一下。

影响统计功效的变量
当您考虑影响统计功效的每个变量时,请记住主要目标是控制错误率。有四个因素可以调整:

样本大小。
最小可检测效应(MDE)。
显着性水平 (α)。
所需的功率级别(隐含的 II 类错误级别)。
1. 样本量
样本必须足够大,才能进行高质量的分割测试。重要的是要确定它的大小,以便它为测试提供足够的功率,但又不会太大,这样测试持续时间就不会大大增加(较长的测试成本更高,并且会减慢测试速度)。

分析的每个选项和细分市场都必须拥有大量用户。为了确保检验始终具有良好的统计功效,您需要提前规划样本量。否则,您可能不会注意到有太多的变体和片段。如果您在后期看到这种情况,那么在测试后您将得到许多用户数量较少的组。

期望在合理的时间内(至少一周或一个商业周期)获得具有统计意义的结果。大多数情况下,建议在 2 到 4 周内进行测试。如果做得更久,可能会遇到样本被污染、cookie被删除的问题。

应确定最小样本量并提前指定时间范围。然后,您将避免“盲目”运行拆分测试并在获得统计显着差异之前结束它的常见错误。
回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|踏浪論壇  

GMT+8, 2025-2-7 15:37 , Processed in 0.066282 second(s), 25 queries .

抗攻擊 by GameHost X3.2

© 2001-2013 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |