抖音推荐算法解析
来源:用户投稿
我要投稿
作者:龙成创业
时间:2022-01-21 18:54
内容分析和用户标签是推荐系统的两大基石。内容分析涉及到机器学习的内容多一些,相比而言,用户标签工程挑战更大。
抖音常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征(旅行、美女、美食等)。还有性别、年龄、地点等信息。
当然最简单的用户标签是浏览过的内容标签。但这里涉及到一些数据处理策略。
01、用户标签主要包括:
1、过滤噪声:通过停留时间短的点击,过滤标题党。
2、热点惩罚:对用户在一些热门文章(如前段时间PG One的新闻)上的动作做降权处理。理论上,传播范围较大的内容,置信度会下降。
3、时间衰减:用户兴趣会发生偏移,因此策略更偏向新的用户行为。因此,随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大。
4、惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。当然同时,也要考虑全局背景,是不是相关内容推送比较多,以及相关的关闭和dislike信号等。
用户标签挖掘总体比较简单,主要还是刚刚提到的工程挑战。抖音用户标签第一版是批量计算框架,流程比较简单,每天抽取昨天的日活用户过去两个月的动作数据,在Hadoop集群上批量计算结果。但问题在于,随着用户高速增长,兴趣模型种类和其他批量处理任务都在增加,涉及到的计算量太大。
02、抖音推荐算法的流程,基本上可以用下面几步来概括:
第一步:审核
上传视频后,第一步会机器审核。
然后审核包括视频画面、标题关键词、视频文案;例如有没有出现广告、有没有带水印或者LOGO、内容是否裸露、不雅、血腥等,如果出现平台禁止的内容,我们的视频就会被打回或者被限流(只有你自己可以看见你发布的内容)。
如果有违规,可能会提前进入人工审核人员阶段。
第二步:智能分发
如果没有关键词违规或者画面问题,系统会结合关键词匹配200~300左右的用户,也就是我们所说的初始流量池。
视频发布之后,系统会根据视频内容给你的视频加上标签(如旅行、美女、美食、重庆、西安、海岛…..),再由机器小范围的推荐给可能会对你视频标签感兴趣的人群,计算在单位时间之内观众的评论、点赞和分享数。
第三步:扩大推荐
如果你的视频经过第一次推荐得到了比较好的观众反馈,那么这时你的视频将会被推荐给更多的潜在观众,我们叫扩大推荐。
机制跟第一次推荐一样,这次触达的观众人数大概是1000-5000人。
第二次推荐的反馈较好平台将推荐第三次,第三次就是上万或者几十万的流量,一直以此类推。要是反馈依然较好平台就会以大数据算法结合人工审核的机制,衡量你的内容可不可以上热门。
根据我们的实操经验,一般一个视频发布1个小时内,视频播放量达到5000以上,并且点赞数高于100,评论数高于10基本上就能上热门了。
所以,请大家牢记以下这串数字:1-5000-100-10;
什么意思呢?就是说你发布的视频,最好能在1小时之内,播放量突破5000,而点赞量能大于100,评论数大于10;那么,得到系统推荐的机率就大很多了,基本上离热门也不远了。
爆款视频潜质
相信大家在运营账号的时候,经常都会有一种期待甚至忐忑不安的情绪在里面。那就是在视频发布之后,会时不时的去看看播放量,看这个视频会不会大火。
其实我们比较看重发作品之后的第一个小时。一般情况下,前面一个小时系统给的流量超过5000,点赞超过50,播赞比为100:1,90%的概率会进入下一个更大的流量池。
如果在下一个流量池,用户的互动也超过100:1;可能也会一直爆,一般到1000w播放会是一个瓶颈(视频火了之后,人工会进行再次审核,如果人工觉得内容有任何打擦边球的会直接收回流量)。
这就是为什么很多人都有困惑,为什么明明流量跑得好好的,系统突然就停止推荐了。
其实有时候内容做得好,也不一定会被系统喜欢,决定权还是在平台方。尤其是涉政、隐私、暴露,还有互粉等敏感因素,都是有可能被叫停甚至直接封号的。
但是如果要进入百万池,小爆一下,前1个小时必须要保持在10%播赞率左右。否则,没戏。进1000万池,需要更高的播赞率。