今日头条算法高管公开“今日头条”算法逻辑,内容创作者懂点算法-挺好
今日头条所有人应该不陌生,淘宝达人中不少来自于今日头条的自媒体,当然也有很多淘宝达人认证大V去今日头条做了自媒体。今日头条的算法一直是业内比较认可和被认为很牛*的团队,我在微信的群内听取了杨震原对于算法的分析和解读,我把我听到的和想到的分享给亲们
今日头条在整个的数据存储和运算过程中,依据现在的体谅,每天数据达到100T,每天日志100亿行,以及包含很多的特征组合数
在如此庞大的背后,有8000台服务器作为支撑
1介质的变化今日头条从诞生整个角度来说,是基于介质的变化,媒体一直是跟着介质的变化而不断变化的。从贴墙广告到电台,到互联网以及现在的移动互联网。
用户稳定性变化:PC能获取的信息有很多风险,首先就是用户稳定性不如移动设备好,所以PC页面一般获取用户信息需要用户登录的。
用户使用场景变化:PC上流量高峰在商务和下午4点的高峰,大概是办公场景,而移动设备是随身携带的, 用户是随时随地的,所以今日头条的阅读高峰是在中午和晚上10点钟的时间
这个条件是比较基础的变化,随着基础介质变化了,所以让个性化成为可能。人们在整片时间的时候,你可能有明确的需求和意向去决定自己看什么,但是在碎片化时间内,阅读的目的性是不强的,所以个性化的诉求就会重要了
2机器学习的发展以前是基本上以发布内容,存储,读取,按照时间排序来进行。但是现在平台需要把所有候选的资源,在用户在每次打开和刷新你的产品的时候,根据用户的行为,向下,向上点击等行为的实时计算,哪些是用户喜欢的和不喜欢的。
传统对于内容的删选通过编辑进行,但是一个编辑每天可以看的内容也就是几百条,最多上千,但是一个机器每天可以浏览几百万条甚至几十亿条“见多识广”,这个是互联网效率问题。而机器就是在这里不断的积累和学习用户的行为,如同大脑的发展
互联网的发展,让人的阅读行为发生了变化
3需求的变化人们在阅读中不仅仅是只考虑到过程,也会考虑到内容生态的问题创作一个能激励内容创作者生产内容的生态系统才能持续发展。分发好的分发效率会可以刺激创作,偏门的领域可能文章比较难创作,但是写出来之后依然可以得到推荐互动有了内容,会有读者互动,读者的互动会不断的刺激创作
高效率的分发可以刺激互动,可能会发给那些更容易产生互动的人,从而引发进一步刺激创作,所以三者是相辅相成的,一个好的算法引擎会让整个循环跑的更快一点,生态会朝着良性的方向发展
(以上这个图比较复杂,他说了一堆技术词我听不懂,整体来说分为2个方面来看:
1、内容-特征:抽取文章中的很多特征,降维、相似信息,通过这些特呈进行匹配人
-标签:同时在每篇文章中会打上标签,这个标签来源于运营人员自己打上去的标,甚至内容刚刚发布的时候就打上去了
-实体词:运营会打上“实体词”甚至优质内容的标。同时算法会依据一定的运营标来学习优质内容的特征,再生成一些实体词,实体词有四级的分类体系,对每一篇文章都能实时计算打上标签
对于视频内容推荐来说,引入了一些其他特征,主要思路是:基于 抽帧,然后通过dcnn做图片内容分析,用帧的内容来你和一个视频的内容分析
关键词:协同过滤、contenti-base、embedding、LDA、topic分析
2、用户基于用户计算用的user-profile,及时的刷新信息,进行匹配计算,包含用户阅读过的文章,浏览信息、细化用户行为,包含地点、每天的哪个小时、机型等。对于新用户来说,他的历史信息很少,尽可能有用的信息去做匹配,例如手机型号,城市,如果微博登录就可以拿到一些冷启动的信息来猜测用户的兴趣,等积累了一些行为之后,就形成了用户的profile“ 结语虽然以上的分享和信息对于内容生产者来说,不是很能结合在内容中,但是通过对于内容算法的了解,会让内容生产者更加了解内容产生之后,内容是通过什么样的途径到达用户,从而反推我们如何来满足目标用户对于内容的需求。
虽然说在大数据时代我们不需要知道为什么,只需要知道是什么。但是能知道点为什么,也许会让一些思考的维度变得更加多元化