优化方式:底层稀疏很容易受到各个多目标梯度反传的影响,造成梯度冲突,针对重要的表征增加参数量或新增任务特定表征,并对重要表征控制梯度反传,时长或交互目标不更新底层部分或更新时设置较小学习率最后是模型输出层,为促进新内容、长尾内容分发,并保证模型输出的预估分的稳定性和准确性,我们从探索结构和学习目标上进行了对应优化
探索结构:搜索场景消 科威特手机号码列表 费内容个数比推荐少,马太效应问题也更加严重,对行为积累不够充足的新内容或长尾内容,预估不够准确为此设计全链路冷启和探索通道,并基于不确定性预估范式,在模型中引入基于对抗梯度的探索网络,基于预估的不确定性和对抗梯度在输入侧做扰动和探索学习目标:之前搜索场景采用的学习目标是w的,在排序能力上优于w,但预估准确性上不足,会造成后续链路无法使用预估分
业界有不少研究关于w损失如何做预估校准,例如中阿里巴巴校准工作、中校准工作等参考相关工作并结合场景特点,在原有的基础上增加用于校准的,在梯度更新上控制校准不影响底层的更新,只更新多目标建模层和输出塔的参数,提高预估分数的稳定性和准确性,方便后续融合、混排等环节使用
|