这是对一篇名为 <a href=" A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation</a> 的研究论文的简明英文摘要。如果你喜欢这种分析,加入 <a href=" 或关注我们
HyTRec 框架
HyTRec 在两个专门的注意力机制之间分割长用户行为序列,使得稳定的偏好和最近的意图峰值可以独立处理。
这不是一个小的调整。计算复杂度在序列长度上保持线性,同时处理的序列长度是以前方法可以有效处理的 10 倍。但架构中隐藏着一个陷阱。
让最近的信号变得重要
混合系统的挑战在于线性注意力分支已经看到了数千次交互。softmax 分支只看到了几百次。由于数量,线性分支的信号更响亮。但在推荐中,时效性比数量更重要。今天的一次点击比六个月前的一次点击更能告诉你某人想要什么。
如果你平等对待这两个分支,陈旧的数据会淹没新鲜的数据。你解决了计算问题,但创造了响应性问题。
解决方案称为时间感知增量网络,或 TADN。该机制做了一件简单的事情:动态地提高新行为信号的权重,同时抑制历史噪声。
想象一个门控机制,询问序列的每个部分:“你有多老?”新交互获得更高的权重。旧交互获得较低的权重。这不是在固定的时间表上发生的,而是从数据中学习的。网络发现模式,例如:“对于这个用户,行为模式每几天就会变化,因此一周以上的交互应该以半强度加权。”
没有 TADN,混合系统会随着用户偏好的变化而做出越来越陈旧的推荐。有了它,系统保持对变化的响应性。最近的信号自然对推荐有更大的影响,但网络学习到每个用户和交互类型的影响程度。
现实世界的结果
研究人员在庞大的数据集上测试了 HyTRec,这些数据集包含实际用户行为序列,延伸到每个用户数万次交互。这不是干净的学术数据,而是生产规模的混乱。
在速度方面,结果很重要。HyTRec 维持线性推理复杂度。将序列长度加倍,推理时间大约加倍。它不会像 softmax 注意力那样四倍增加。在 10,000 长度的序列中,这一差异决定了你是否可以在 50 毫秒内推荐或在 5 秒内推荐。在一个服务数百万用户的平台上,这一差异是可行与不可能之间的界限。
...