论文阅读:Meta | HSTU

张开发
2026/5/5 13:04:16 15 分钟阅读
论文阅读:Meta | HSTU
Generative Recommenders, GRs生成式推荐系统生成建模框架中的顺序转换任务sequential transduction taskswithin a generative modeling frameworkscaling law扩展法则生成推荐系统的模型质量随着训练计算的增长而呈幂律扩展1 引言DLRM不足1.扩展性差2.大规模词汇持续变化3.计算成本高核心排序和检索任务可以通过适当的新特征空间重新表述为生成建模问题贡献生成推荐系统GRs排序和检索重新表述为GR中的纯顺序转换任务使得模型训练可以以顺序生成的方式进行顺序转换架构——层次化顺序转换单元HSTU修改了大规模非静态词汇的注意力机制新的算法M-FALCON通过微批处理和缓存优化摊销计算成本2 推荐作为顺序转换任务GR2.1 统一DLRM中的异质特征空间将DLRM中大量的分类和连续特征统一编码为时间序列分类“稀疏”特征将这些特征顺序化为时间序列选择最长的时间序列通常是用户交互物品然后将其余的慢变特征压缩并合并到主时间序列中。e.g. 用户行为如喜欢的物品、关注的创作者等和静态信息如语言、城市等数值“密集”特征由于这些特征变化频繁无法完全顺序化。通过将分类特征的顺序化处理与目标感知公式结合GR能够捕捉这些数值特征并且可以省略直接处理这些数值特征的需要e.g. 计数器、比率、点击率2.2. 将排序和检索问题重新表述为顺序转换任务集合X包括所有属性是个大混杂集合按时间顺序排列的n个token列表x0,x1,…,xn−1(xi∈X)x_0,x_1,…,x_{n-1} (x_i \in X)x0​,x1​,…,xn−1​(xi​∈X)对应token观察时间t0,t1,…,tn−1t_0,t_1,…,t_{n-1}t0​,t1​,…,tn−1​输出yi∈X∪∅y∅y_i \in X ∪{\emptyset}y{\emptyset}yi​∈X∪∅y∅表示未定义系统向用户提供的内容ϕi∈Xc(Xc∈X)\phi_i \in X_c (X_c \in X)ϕi​∈Xc​(Xc​∈X)操作ai∈Xa_i \in Xai​∈X用户交互的内容总数ncn_cnc​XcX_cXc​和XXX是非静态的。用户可以对ϕi\phi_iϕi​图片或视频执行某些操作aia_iai​点赞、跳过、视频完成分享等排序任务输入序列为xiΦ0,a0,Φ1,a1,…,Φnc−1,anc−1x_i \Phi_0, a_0, \Phi_1, a_1, \dots, \Phi_{n_c-1}, a_{n_c-1}xi​Φ0​,a0​,Φ1​,a1​,…,Φnc​−1​,anc​−1​输出序列为yia0,∅,a1,∅,…,anc−1,∅y_i a_0, \emptyset, a_1, \emptyset, \dots, a_{n_c-1}, \emptysetyi​a0​,∅,a1​,∅,…,anc​−1​,∅。通过交替排列物品和操作来解决“目标感知”中交互需要早发生的问题公式化为p(ai1∣Φ0,a0,Φ1,a1,…,Φi1)p(a_i1|\Phi_0,a_0,\Phi_1,a_1,\ldots,\Phi_{i1})p(ai​1∣Φ0​,a0​,Φ1​,a1​,…,Φi1​)(在分类特征之前)。应用一个小型神经网络来将Φi1\Phi_i1Φi​1的输出转换为多任务预测。能够在一次处理过程中对所有ncn_cnc​次交互应用目标感知的交叉注意力。检索任务输入序列为xi(Φ0,a0),(Φ1,a1),…,(Φnc−1,anc−1)x_i (\Phi_0, a_0), (\Phi_1, a_1), \dots, (\Phi_{n_c-1}, a_{n_c-1})xi​(Φ0​,a0​),(Φ1​,a1​),…,(Φnc​−1​,anc​−1​)输出序列为yiΦ1′,Φ2′,…,Φnc−1′,∅y_i \Phi_1, \Phi_2, \dots, \Phi_{n_c-1}, \emptysetyi​Φ1′​,Φ2′​,…,Φnc​−1′​,∅其中Φi′Φi\Phi_i \Phi_iΦi′​Φi​如果aia_iai​是正向操作否则Φi′∅\Phi_i \emptysetΦi′​∅。学习一个分布p(Φi1∣ui)p(\Phi_{i1}|u_i)p(Φi1​∣ui​)其中Φi1∈Xc\Phi_{i1}\in X_cΦi1​∈Xc​,uiu_iui​是用户在时刻iii的表示。典型目标是选择arg⁡max⁡Φ∈Xcp(Φ∣ui)\arg\max_{\Phi\in X_c}p(\Phi|u_i)argmaxΦ∈Xc​​p(Φ∣ui​)来最大化某个奖励。这与标准的自回归设置有两点不同。xi,yix_i,y_ixi​,yi​的监督不一定是Φi1\Phi_i1Φi​1,因为用户可能对Φi1\Phi_{i1}Φi1​做出负面反应。当xi1x_{i1}xi1​代表一个与交互无关的分类特征(如人口统计信息)yiy_iyi​是未定义的。

更多文章