由将门-TechBeat人工智能社区联合阿里巴巴大淘宝技术主办的「搜索算法揭秘」直播专场现已落下帷幕,感谢10000+位观众跟我们一同度过了两个干货满满的下午!⚡
来源: 24直播网
左右滑动查看两场直播回顾
本文包含三个大家最关心的信息:【pdf获取方式】、【回顾视频】、【Q&A文字版】,详情如下:
一、PDF 获取方式
二、回顾视频获取方式
第一场:淘宝搜索召回、个性化搜索排序
演讲嘉宾
技术资深专家 瑞溪、湘生
分享主题:
多模态、多目标模型在电商搜索召回算法的应用
搜索排序算法
观看地址:
https://www.techbeat.net/talk-info?id=624
更多关于Talk及嘉宾的介绍
第二场:电商搜索相关性、电商知识图谱
演讲嘉宾
阿里巴巴大淘宝技术算法专家左枢、久越
分享主题:
电商搜索相关性技术演进
电商知识图谱的构建以及应用
观看地址:
https://www.techbeat.net/talk-info?id=625
更多关于Talk及嘉宾的介绍
三、Q&A 文字版
瑞溪《多模态、多目标模型在电商搜索召回算法的应用》
Q1. 这里面有没有反作弊的模块?
A:搜索整体有反作弊的模型参与排序的
Q2. 多目标召回时,相关性loss是怎么设定的?pv loss的负样本应该是什么样呢?
A:我们搜索有一个独立的相关性模型,相关性的label是这样选的:用我们的相关性模型打分为强相关的作为正样本,随机负采样的作为负样本。
Q3. 这个相似query是不是有点类似“猜你喜欢”?
A:不是,相似query就是指语义上相似的query
Q4. 多目标拔河的问题,GradNorm怎么样?
A:平均的gradnorm没有太剧烈的波动,看不出什么异常
Q5. 多目标loss怎么调的 可以介绍下吗
A:可以调个目标权重,因为用的是sampled softmax,还可以调temperature参数
Q6. item侧的向量是和query相关的吗?要不然cross attention咋做
A:在多模态预训练阶段,是有一个item和query做内积衡量相似度的目标的
Q7. 拔河问题则呢么通过AM-Softmax和Margin解决呢?AM-Softmax和Margin是不是是一种“更好啦开差距,某些情况下更合理”的loss,并不是为解决这类“矛盾”设计的?
A:是这样的,因为拔河问题主要是由随机采样的负样本引起的,因此我们主要是抑制与点击目标梯度差别太大的负样本梯度。当相关负例梯度与点击正例差别超过一定程度时,就不使用该负例梯度了
湘生《电商搜索排序算法》
Q1. 请问下,加曝光序列的出发点是什么?有什么作用?
A:对比其他商品序列,曝光商品有一个非常重要的性质,它是当前user + query + context 下,所能实际搜出的最准确的商品。从某种程度上来说,曝光商品综合了此次搜索丰富的信息,能够有效的对user / query进行强有力的表达。
Q2. 这是18年的工作了,有更新的嘛(“商品的多模态表示学习- Learning Universal Item Representationa…”这一页slides)
A:多模态方面的工作我们一直在持续投入探索, 近两年的工作后续也会有相关论文整理, 欢迎关注。
Q3. id类序列特征时预训练还是端到端的?
A:id序列是端到端训练。
Q4. 用户首次查询的搜索排序和用户有过此类目行为数据查询排序有什么不同?
A: 对比多次查询,初次查询类目的不之处在于排序模型的用户行为序列中缺乏该类目下的个性化行为作为特征,搜索结果的个性化程度会相对弱一些。
Q5. 剪枝会作用到哪些网络层?比如embedding后的第一层MLP
A: 剪枝会作用在所有的全连接层。
Q6. 需要导出剪枝后的新张量吗,要修改推理吗?
A: 需要导出剪枝后的张量,模型在部署时本来就需要拆图以优化性能,这个过程中会对剪枝结果做适配。
Q7. 批更新是用过去一天的数据训练吗?
A: 用过去一天的数据,在前一天的ckpt上热启动训练。
Q8. 端上模型size是多大?
A: 约500K, embedding参数部分需要拆出来部署在云侧。
左枢《电商搜索相关性技术演进》
Q1. “用户相关性的反馈”建立相关性的方法有哪些呢?
A:会有多种用户反馈渠道,比如搜索结果页右下角可以对页面结果反馈,长按商品可以对单个商品的相关性做反馈
Q2. 在哪些阶段做的过滤呢?
A:召回、粗排、精排阶段都会做,每个阶段通过的商品都会有一定的数量限制,过滤条件之一就是相关性
Q3. 相关性和精排有什么区别?
A:精排是决定每个商品的展示顺序,相关性逻辑上是决定商品是否应该展示,不去影响展示的顺序
久越《电商知识图谱的构建以及应用》
Q1. 底层的数据库是什么?
A:用的是阿里云的大数据存储系统
Q2. 跟Alicoco是什么关系?
A:Alicoco是我们整个知识图谱底层数据的统一名称
Q3. 四元组和三元组是什么关系?
A:四元组是在三元组的结构上做了一层扩展,比如面向底层数据加入了同义词扩展,面向业务应用加了营销改写的扩展
加入活动交流
第一时间获取最新活动预告,跟讲师及观众进行在线交流,参与互动抽奖,尽在【活动交流群】
还未入群的同学可添加“将门小将”(thexiaojiang)微信!
添加小将微信
备注“淘宝-姓名-title”,title可以是“公司-职位”或者“高校-专业”
期待下期直播间相见!
关于大淘宝技术
大淘宝技术是阿里巴巴新零售技术的王牌军,支撑淘宝、天猫核心电商以及闲鱼、每平每屋等创新业务,服务9亿用户,赋能各行业1000万商家。
大淘宝技术打造了全球领先的线上新零售技术平台,并作为核心技术团队保障了12次双十一购物狂欢节的成功。通过不断探索和衍生颠覆型互联网新技术,打造了业内领先的淘宝直播、用户增长、智能营销等技术体系,并且通过技术驱动商业,在家装家居赛道中成功开创了每平每屋新业务,以更加智能、友好、普惠的科技深度重塑产业和用户体验。
同时,我们积极参与开源社区的建设,不断贡献优秀项目,开源了前端研发体系(ICE)、客户端语言协程框架(coobjc)、深度学习框架(MNN)、测试Sandbox体系重要模块(Sandbox-Repeater)等10多个项目,与全球开发者共享最佳技术实践。
大淘宝技术的愿景是致力于成为全球最懂商业的技术创新团队,打造消费者和商家一体化的新零售智能商业平台,创新商业赛道。随着新零售业务的持续探索与快速发展,我们不断吸引用户增长、机器学习、视觉算法、音视频通信、数字媒体、端侧智能等领域全球顶尖专业人才加入,让科技引领面向未来的商业创新和进步。
如果你也够有好奇心、有恒心、有思考力,希望一起创造时代传奇!欢迎加入我们,招聘邮箱:ruoqi.zlj@taobao.com
关于TechBeat人工智能社区
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>
送你进入Talk专题【回顾视频】页面!

更多
-
比赛时间: 2025-02-01 03:00:00
-
北京时间3月15日,NBA常规赛展开10场对决,里夫斯复制詹姆斯壮举;克内克特创一项队史新秀纪录;莫兰特40+5+5场次刷新队史纪录;哈登一壮举并列历史第三,以下是今日数据汇总——
-
做抖音短视频时,我们制作短视频需要拍摄设备、剪辑设备。现在全面开始做直播,我们做直播也需要准备优质的抖音直播设备。那么抖音的直播需要一些什么样的设备,需要准备多少钱购买设备?
-
马龙表态,胜局次要,威少关键!掘金114-105勇士。
-
贾巴里·帕克:百万富翁,助家庭脱贫
-
雷迪克:末节初失利,全场进攻仍精彩。
-
44+6,46+13!独行侠赠76人大礼,格莱姆斯签约稳。
-
山东男篮战广州,两旧将对决,克里斯复出,减少失误,连胜在望!
-
祝贺丁伟!浙江队大胜对手,吴前赵睿表现亮眼。
-
布朗尼新秀进展:符合预期,NBA挑战发展联盟亮点