当前位置:首页 > 营销策划 > 正文内容

0074《内容算法》读书笔记(读后感)

橙子读书小站3年前 (2021-03-30)营销策划401

为阅读而创,为热爱分享,每天早8点,阅读者的橙C早餐。请关注公众号:【橙子读书小站】(或czdsxz)。


伴随着国民总时间概念的兴起,互联网巨头纷纷布局内容行业,以争夺用户时间。作为内容生产者主力的各类自媒体也如雨后春笋般涌现,在内容创作、内容变现等方面做得风生水起。通过算法实现的推荐技术基于用户历史数据和行为,推测用户意图,推荐合适的商品和内容给终端用户,显著提高了用户的点击率和留存率。随着用户的个性价值越来越被重视,内容推荐分发技术势必会得到更普遍的应用。

内容行业资深从业者、今日头条前资深产品经理闫泽华,在《内容算法》一书中,通过大量生动的案例,图文并茂、深入浅出地分析了当下主流的推荐算法及其利弊,介绍了推荐分发系统相关的知识,同时对自媒体如何实现优质作品最大化传播以及自媒体数据分析、运营与变现等进行了深入解读,有内容、有深度、有态度,无难度。


作者简介

闫泽华:简书签约作者。知乎知识市场产品总监,负责内容付费的产品运营工作。曾任今日头条资深产品经理、“凯叔讲故事”技术负责人和百度搜索架构工程师。在今日头条工作期间,曾先后负责头条视频的数据流和策略分发,头条号粉丝变现相关业务和微头条的策略分发业务,历经了头条视频和粉丝业务快速增长的全过程。


载体迭代,比快更快。分发迭代,比快更快。与其焦虑,不如逐浪。


但是,在快速的迭代过程中,我相信一定有可以让我们慢下来的东西——那是内容的核。敬畏内容的价值,尊重它给受众带来的价值。


一、内容算法是什么?


断物识人是一切推荐行为的起点。断物识人可以视为打标签的过程。标签是对高维事物的降维理解,抽象出事物表意性的特点。在不同的业务场景下,我们会选择不同的标签,来对内容和用户进行标注。


在内容层面,以音乐为例,最典型的两种标签:专家系统和UGC(User Generated Content,用户原创内容)系统。潘多拉(Pandora)的音乐基因工程(Music Genome Project)是典型的专家系统标签。在这项工程中,抓住音乐本质在最基本的层面上使用超过450个标签描述歌曲和组织它们复杂的数学算法,歌曲特征细化到主唱性别、电吉他失真程度、背景和声类型等。每一首歌曲有选择性地标注一些标签,每个标签以半整数增量的方式分配一个0到5的数字。豆瓣网音乐在专家系统选择性标签的基础上,转为UGC系统。网络用户群体的力量为豆瓣积累了大量具有语义表意性的标签。当然,由于用户的多样性和编辑的开放性,用户标签系统需要经过特定的清洗和归一化才能投入使用。


一篇文章经过文本分析进行一级和二级分类,并抽取出文章内的关键字、实体词,专家系统的标签体系通过聚类的方式,将这篇文章与其相似的内容聚成一个簇类,从而挖掘出更多的隐含信息。


在用户层面,分为静态和动态两部分。用户中的静态部分,即设备信息、地理位置、注册信息等,这些与业务的相关性不确定。具体到业务场景中,用户行为生成了业务动态信息,利用人的各种显式和隐式行为来对用户的偏好进行猜测。以知乎读书会为例,你的显式行为是点击、收听、评分、评论等;隐式行为则是收听完成度、拖拽快进、页面停留等。通常,由于显式行为不够丰富,往往需要使用隐式行为来扩充对用户的标注。完播率、是否快进、停留时长等指标,都会被系统统计,用来判断你是否真的喜欢某个人的讲解,喜欢某本书的内容。


今日头条算法架构师曹欢欢博士指出,“今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类、各种垂直兴趣特征,以及性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测,通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息,在位置信息的基础上通过传统聚类的方法拿到常驻点。常驻点结合其他信息,可以推测用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。”


内容和用户是一个相互影响的循环系统,可用内容判定用户。在音乐场景下,用户收听、收藏、评分了很多爵士类的音乐,那么系统就会判定用户是喜欢爵士音乐的。在读书场景下,用户阅读、收听了哪些书籍,哪些书籍听完了,哪些书籍重复收听了很多遍,都会影响系统中用户的标签。因此,“你的选择决定你的画像”。反过来,用户也会影响内容。基于用户行为,对内容做出的投票。在视频上传体系里,基本放弃了依赖人工打标签的方式,而利用用户的播放行为来猜测内容属于哪一类。一个典型的案例:死神来了。看标题的文本信息,大概率是一部电影,但事实上观看这个视频的是喜欢猎奇类的视频用户,深挖内容才会知道,这其实是一个车祸视频集锦。


二、内容算法如何运转?


(一)协同过滤:应用群体智慧


标签是对事物的抽象理解,有没有一种方式能够放弃标签呢?以人的行为来标记内容,是协同过滤的基础思想。把用户的消费行为作为特征,进行用户相似性或物品相似性的计算,然后进行信息匹配,这就是协同过滤(Collaborative Filtering)的基础思想。协同过滤分为三类:基于物品(Item-based)的协同、基于用户(User-based )的协同和基于模型(Model-based)的协同。


1. 基于用户的协同。找到那些与你在某一方面口味相似的人群,将这一人群喜欢的新东西推荐给你。


2. 基于物品的协同。先确定你喜欢物品,再找到与之相似的物品推荐给你。物品与物品间的相似度不是从内容属性的角度衡量的,而是从用户反馈的角度来衡量的。对于大规模人群的喜好进行内容推荐,是各家公司应用的主流分发方式。


3. 基于模型的协同。应用用户的喜好信息来训练算法模型,实时预测用户可能的点击率。比如,在Netflix的系统中就将RBM(Restricted Boltzmann Machines,局限型波兹曼模型)神经网络应用于协同过滤。将深度学习应用基于模型的协同,也成为业界广泛使用的方式。


以协同的方式,通过用户行为的聚类,发现许多隐形的联系。


以读书会的场景为例,我们邀请不同的名家来领读书籍。从领读人的角度,更容易直观地将同一领读人的作品视作一个聚类,比如马家辉老师领读的《对照记》《老人与海》两本书,通过人工预判的前置规则,将这两本领读书音频推荐给同一类用户。通过协同的方式,会发现喜欢马家辉老师领读作品的用户,同时也会喜欢杨照老师领读的《刺杀骑士团长》一书。这种联系,是很难通过标签信息发现的,只有通过用户的行为选择,才会建立联系,提升内容和用户之间连接与匹配的效率。


(二)从冷到热:内容和用户在分发中的生命周期


内容和用户在分发中,推荐系统无时无刻不在面对着增量的问题:增量内容,增量用户。


新的内容、新的用户对于推荐系统来说都是没有过往信息量积累的、陌生的,需要累积一定的曝光量和互动量(阅读、分享等)来收集基础数据。这个从0到1积累基础数据的过程就是冷启动,其效果的好坏直接关系到满意度和留存率。


假设新的内容要经过100次阅读才能够得到相对可信的内容标签,新的用户同样需要完成100次阅读之后才能够建立起可用的用户标签。那么一个最直观的问题就是:怎么样达成这100次有效的阅读?这就是冷启动面临的问题。从内容和用户两个维度来分别论述。


在推荐系统中,通过分析标题、关键字来确定要向哪个目标人群进行探索性展示,借由探索性展示完成了从0到1的用户反馈积累过程。在这个冷启动过程中,如果没能得到足够正面的用户反馈(点击行为和阅读体验),系统就会认为这篇内容是不受欢迎的,为了控制负面影响,就会逐步降低这篇内容的推荐量。


反之,如果内容在冷启动过程中找到了目标人群,收获了很高的点击率,就有可能被推荐系统快速放大。因此,冷启动决定内容命运一点都不为过。


(三)三分天下:编辑、算法与社交


内容算法分发将是未来信息分发行业的标准配置。在内容展现和推荐的过程当中,可以参考下述公式:算法分发权重=编辑分发权重+社交分发权重+各种算法产出权重。


引入内容算法一定是有积极意义的。在有限的货架里,围绕用户展示了无限的货品。以知乎读书会为例,将其划分为内容生产、用户触达和反馈改进三个环节。


在内容生产环节,为了保证调性,需要引入编辑、专家去选人、选书。选择的书是否有价值,选择的人是否是行业专家,都是体现产品价值观判断的事情。


在用户触达环节,人工干预的作用就会相对弱化。比如,一本物理学的书籍,由一位物理学大家进行解读。从编辑的角度,领读人是大家,书籍是经典,编辑权重一定非常高。听上去似乎很合理,当进入用户的场景时,就发现问题。用户不是每天都来的,如果用户一周来一次,在用户没来的这一周内同样有文学、互联网、艺术等专业人士的领读,该给他的是今日推荐,还是本周推荐呢?进一步考虑到用户偏好问题。


当我们收集到了足够多用户数据的时候,又可以反过来影响内容的二次迭代,编辑的作用又凸显了出来,结合数据的反馈来对内容进行调整。内容的播放完成率为什么低?是稿件问题,还是领读人的语音问题,是否需要重新录制等。


三、内容算法背后的价值观


内容算法没有价值观,算法背后的人是有价值观的。优化推荐系统,一定会有一个数值目标。这个数值目标的合理性决定了整个推荐系统的合理性。单独以点击为优化目标,一定会导致标题党泛滥;点击加时长目标能够一定程度抑制标题党的产生,也有可能导致定义用户多样性的丧失。


数据分析指导内容生产做到非常极致的是Buzz Feed公司。员工总数逾千人,拥有全球新闻团队、自家视频制作工作室、尖端数据运算中心和内部创意广告机构,每月全网超过50亿次阅读。“数据驱动内容创作”是Buzz Feed给自己贴上的标签。在这家公司的内容创作和分发过程中,反馈闭环(Feedback Loop)是出现频次最高的术语:通过将市场环境和读者反馈数据尽可能地量化和结构化,及时反馈给运营人员、内容编辑,从而构成了辅助创作的闭环。为了更好地理解用户反馈,BuzzFeed追踪收集并汇总了各个平台上的阅读传播和互动数据,比起阅读量、分享量这些结果指标,其更关心内容分发和传播的过程。


通过两个内容场景一窥各个内容分发产品的调性所在。


新用户冷启动。以新用户的身份去尝试各种内容消费服务。比较之下,就知道各家的价值观怎样的了。因为新用户是通过不同渠道获取的,基于马斯洛需求模型,越底层的内容越有更广泛的受众。


推荐多样性。多样性是另一个评估分发产品调性好坏的所在。推荐多样性,深挖用户的局部兴趣点,实现短期收益最大化。比如某用户喜欢科比,把科比的比赛视频推送给他,用户阅读到深夜两点;从一个产品的长线来看,需要长期留存用户,而不是让用户短期沉迷。在短期和长期取舍中,依赖于产品设计者的价值观判断。


四、评估内容算法


(一)阅读体验


阅读体验是否促成最终选择买单。衡量阅读体验,内容的消费比例是一个重要的指标。对于图文来说这个指标是平均阅读进度和阅读速度。平均消费比例越高,代表用户的认可度越高、消费体验越好。此外,内容是否引发了读者互动也是一个考察指标,如评论、点赞、收藏、转发等,这些指标的横向对比通常用于组织内部考核不同编辑的创作能力。其中,需要额外关注的是评论和转发两个指标。


评论扩展了内容的深度,更多的用户评论给正文提供了不同的视角分析和信息补充,可以有效地引发围观用户的阅读兴趣,提升用户在内容页的整体停留时长。


转发扩展了内容的广度,更多的转发能够带来更多面向潜在受众的曝光。对于转发指标,BuzzFeed的病毒传播系数的计算方式:Viral Lift = 1 + 传播阅读量/一次阅读量。


(二)粉丝增长


想要可持续发展,只有精准的粉丝才有价值。粉丝增长引入三个概念:LTV、CAC和ROI。


LTV(Life Time Value):生命周期总价值。即一个粉丝从关注你的那一天开始到脱离平台为止,能够带来的收益。通常按渠道来计算,如果某个渠道或某个平台的用户不精准、付费意愿差,那么这个渠道的用户LTV就相对较低。


CAC(Customer Acquisition Cost):用户获取成本。同样跟渠道有关,自媒体需要持续地发现低价、优质的渠道,抢占红利期。


ROI(Return On Investment):投资回报率。计算公式为(收入-成本)/成本。应用于粉丝增长场景就是(LTV-CAC)/CAC,衡量的是:你从一个粉丝身上挣到的钱,是否能够覆盖获取这个粉丝的成本。通常应该做ROI>1的事情,这样才能够保证业务的可持续发展。


想要提升用户增长的ROI,就必须降低新用户中非精准用户的比例,从而拉升渠道用户的LTV,降低用户获取成本CAC。


通过数据分析的方式,能够让我们更加清醒地审视内容创作的消费性好坏以及粉丝积累的性价比高低,从而以更经济的方式提升自己的增长速度。


需要本书电子版的朋友关注公众号:【橙子读书小站】(czdsxz),在后台回复A055或书名,会自动弹出下载地址,即可一键免费下载电子版学习阅读(提供四种阅读格式,选EPUB或PDF格式即可手机阅读)。


扫描二维码至手机访问

扫描二维码推送至手机访问。

版权声明:本文由橙子读书小站发布,如需转载请注明出处。

转载请注明出处:http://jingjinds.com/post/80.html

分享给朋友:

相关文章

0154《作家之旅源自神话的写作要义》-pdf,txt,mobi,epub电子版书免费下载

0154《作家之旅源自神话的写作要义》-pdf,txt,mobi,epub电子版书免费下载

为阅读而创,为热爱分享,每天早8点,阅读者的橙C早餐。由于链接总是被和谐,需要本书电子版的朋友关注公众号:【橙子读书小站】(czdsxz),首页回复书名或者编号A114, 自动弹出下载地址。【名人推荐...

0096《轻营销---小预算玩转大市场》-pdf,txt,mobi,epub电子版书免费下载

0096《轻营销---小预算玩转大市场》-pdf,txt,mobi,epub电子版书免费下载

为阅读而创,为热爱分享,每天早8点,阅读者的橙C早餐。由于链接总是被和谐,需要本书电子版的朋友关注公众号:【橙子读书小站】(czdsxz),首页回复书名或者编号A025, 自动弹出下载地址。【内容简介...

0068文案大师进阶指南:读书笔记

0068文案大师进阶指南:读书笔记

为阅读而创,为热爱分享,每天早8点,阅读者的橙C早餐。请关注公众号:【橙子读书小站】(或czdsxz)。做了几年的文案工作,越来越了解到文案是一个积累与悟性共存的工作,“世事洞察皆学问,人情练达即文章...

0116《你其实不懂消费心理学》-pdf,txt,mobi,epub电子版书免费下载

0116《你其实不懂消费心理学》-pdf,txt,mobi,epub电子版书免费下载

为阅读而创,为热爱分享,每天早8点,阅读者的橙C早餐。由于链接总是被和谐,需要本书电子版的朋友,关注公众号:【橙子读书小站】(czdsxz),首页回复书名或者编号A056, 自动弹出下载地址。【编辑推...

0052《超级符号就是超级创意》读书笔记(读后感)

0052《超级符号就是超级创意》读书笔记(读后感)

为阅读而创,为热爱分享,每天早8点,阅读者的橙C早餐。请关注公众号:【橙子读书小站】(或czdsxz)。超级符号是啥?原力!就是人类有的文化基础、人们所熟知的、人民一看就知道。超级符号就是创造集体主义...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。