? 作者:江铭欣 今年七月,,,,,,,,起点中文网举行了建站以来最大的新书推荐算法刷新,,,,,,,,免费期新书从牢靠推荐位的四轮“PK模式”改为个性化推荐展示的“流量包模式”。。。这一刷新在作者中引起极大回声和普遍讨论,,,,,,,,由此也引出一系列要害却缺乏讨论的问题:什么是网文的推荐算法????推荐模式的转变为何云云主要????PK模式是什么????流量包模式又是什么???? 推荐算法在网文中的应用,,,,,,,,实现了海量内容与读者的精准毗连,,,,,,,,也有用解决了长尾网文的分发与供应。。。免费平台番茄小说现在日活跃用户近亿,,,,,,,,远超付费阅读平台,,,,,,,,基础就在于以推荐算法为焦点内容的分发模式。。。因此,,,,,,,,原以编辑、运营为主导的,,,,,,,,以分发精选为内容组织逻辑的老牌网文平台,,,,,,,,也纷纷推出个性化推荐功效。。。 与短视频等平台的内容推荐系统一样,,,,,,,,网文平台的推荐系统也主要由数据层、算法层和工程层组成。。。数据层主要剖析用户、网文以及用户与网文的交互数据和特征,,,,,,,,如用户性别、网文类型、阅读时长等数据。。。算法层认真从数据中挖掘纪律,,,,,,,,天生推荐效果。。。网文平台使用较多的两种推荐算法是基于内容的推荐和协同过滤。。。唬唬唬基于内容的推荐依赖对网文自己特征的剖析,,,,,,,,通过付与内容的类型与标签,,,,,,,,连系读者的偏好信息,,,,,,,,推荐与读者兴趣相近的网文。。。例如,,,,,,,,历史数据发明读者喜欢看规则怪谈类型的网文,,,,,,,,算法就将更多和规则怪谈相关的网文推荐给读者。。。协同过滤推荐算规则不剖析内容自己,,,,,,,,主要依赖读者与网文的交互数据,,,,,,,,可分为基于读者的和基于网文的。。。唬唬唬基于读者的协同过滤是找到和读者A相似的读者B,,,,,,,,给读者A推荐读者B看过可是读者A没看过的网文。。。唬唬唬基于网文的协同过滤则是找到寓目两个差别网文的用户群体,,,,,,,,通太过析两个读者群体的重合度,,,,,,,,推算两篇网文的相似度,,,,,,,,相似度高则举行合并推荐。。。一样平常推荐系统都会混淆以上的算法,,,,,,,,凭证用户操作行为选择差别的推荐战略,,,,,,,,无操作时用热门默认推荐,,,,,,,,少量操作时用基于内容的推荐,,,,,,,,交互足够多时用协同过滤推荐。。。工程层则是对上述数据和推荐的处置惩罚、排序、评估与优化。。。 现在主流网文平台所接纳的推荐系统多以“top-N展望使命”为焦点,,,,,,,,以“点击展望使命”为辅助来实现海量作品的个性化推荐。。。即结适用户的阅读时长、留存率等指标展望用户点击某本小说的概率,,,,,,,,凭证推算出的推荐分为用户提供排序好的个性化内容列表。。。网文上传或更新后,,,,,,,,会凭证其差别特征进入差别的内容候选池,,,,,,,,当用户会见推荐feed(即推荐信息流,,,,,,,,如番茄小说的首页推荐和起点中文网的猜你喜欢)时,,,,,,,,效劳端就会请求推荐,,,,,,,,系统便会凭证用户特征从候选池中召回用户可能感兴趣的网文。。。经由粗排、精倾轧的小量级网文,,,,,,,,会凭证算法模子的预估推荐分来排序,,,,,,,,有时也会加上广告或平台力推的内容,,,,,,,,在混排后展示为用户浏览页面的推荐feed,,,,,,,,由此完成一次推荐。。。一样平常来说,,,,,,,,猜你喜欢等个性化推荐feed无数目限制,,,,,,,,一直刷就一直新。。。但榜单类推荐资源位的展示数有限,,,,,,,,排序只能选取top-N。。。起点中文网此前的新书推荐位PK模式,,,,,,,,即由4轮PK以竞争推荐位(一轮“潜力新书”、二轮“新书精选”、三轮“本周强推”、四轮“小编力荐”),,,,,,,,新书需要轮轮晋级才华获得更多推荐。。。起点以外的付费平台虽未明确标注其推荐为PK模式,,,,,,,,但大致原理相同,,,,,,,,面临有限的资源位只能曝光推荐分排序前线的作品。。。 不难发明,,,,,,,,无论是以上哪种推荐算法,,,,,,,,都需建设在一定命据上才华举行推荐。。。新读者、新网文或新类型会因缺乏历史行为数据,,,,,,,,无法准确启动个性化推荐的情形。。。这就是推荐算法中常说的冷启动问题,,,,,,,,主要分为读者冷启动和内容冷启动。。。在读者冷启动阶段,,,,,,,,网文平台会自动约请新注册读者或一段时间未使用的读者提供反。。。,,,,,,,包括性别、年岁、地理位置、喜欢等信息,,,,,,,,以建设读者兴趣画像。。。部分平台也可通过用户的登录账号,,,,,,,,如手机号码、抖音账号等,,,,,,,,获得用户在其他平台的行为数据。。。别的,,,,,,,,通过用户的登录装备、时间、地点IP也可获得部分用户信息和场景偏好。。。新注册读者登录网文平台后,,,,,,,,大部分平台会使用混淆推荐算法,,,,,,,,先是提供公共化、热门、高分的网文内容兜底,,,,,,,,再凭证读者的初启行为(如停留、点击、阅读)数据,,,,,,,,用基于内容的推荐算法给读者推荐他过往寓目过的、相似的内容。。。等用户的基础属性较为完善,,,,,,,,有更多的交互数据后,,,,,,,,配合协同过滤算法为读者提供更多元的网文内容。。。例如,,,,,,,,新用户登录番茄小说平台,,,,,,,,填写用户名和性别为女,,,,,,,,首页推荐就会泛起较多现代言情女频网文热门公共类型文以及《十日终焉》等番茄小说独家高分文,,,,,,,,差别类型的网文也会适度曝光让读者选择。。。若是用户点击犷悍总裁文,,,,,,,,无论阅读时长多长,,,,,,,,番茄平台都会在下一次推荐feed刷新后推荐更多现代言情文和犷悍总裁文。。。后续也会凭证读者相似度和网文相似度,,,,,,,,对海量网文举行协同过滤算法推荐,,,,,,,,为读者推荐更多新鲜且可能感兴趣的网文。。。 这次起点中文网的刷新主要针对网文新书的冷启动。。。从推荐算法角度来说,,,,,,,,只管内容自己有一些要害词标签特征,,,,,,,,但由于新书没有用户表达过行为,,,,,,,,推荐系统无法判断网文的优劣,,,,,,,,也不知道将在候选池中的新书推荐给谁,,,,,,,,且新书的自然推荐分排序由于偏后也难以曝光。。。而得不到用户交互数据,,,,,,,,就容易导致恶性循环,,,,,,,,破损作者体验的同时影响新书内容库的增量。。。因此,,,,,,,,大部分网文平台都是强制推荐系统给新网文一定的流量曝光,,,,,,,,等有了用户针对这篇网文自己的用户行为,,,,,,,,推荐系统再更有针对性地推荐这篇网文。。。这种流量曝光就是流量包,,,,,,,,逻辑即推荐系统中常说的boost。。。它指的是在推荐分上增添或镌汰一个数,,,,,,,,多由运营和编辑在推荐系统中非自然操作,,,,,,,,关于新作、冷门作品和优质作品会举行boost增分,,,,,,,,从而提高推荐量,,,,,,,,关于低质作品也会deboost减分。。。一样平常来说,,,,,,,,推荐系统已经在最优用户体验目的上给到每部作品适当的推荐量,,,,,,,,只有在出于冷启动和作者生态角度等营业需求时会适当boost运营。。。由于新书的前期曝光没有较量精准的个性化推荐,,,,,,,,boost现实上是在损失用户体验的基础上做推荐,,,,,,,,因此新书的曝光周期和总体流量也会被控制在一定额度。。。 在资源位和曝光值牢靠的条件下,,,,,,,,起点中文网做了两种新书推荐机制的实验。。。原有的四轮PK模式,,,,,,,,会包管新书最少有一轮推荐,,,,,,,,即曝光在起点客户端的“潜力新书”中,,,,,,,,一轮最长曝光周期为七天,,,,,,,,晋级第二轮后会推荐曝光在“新书精选”与“同类作品推荐”,,,,,,,,如二轮PK失败则基本再没有曝光可能,,,,,,,,除非联系编辑复生上推。。。晋级第三轮后曝光在“本周强推”,,,,,,,,第四轮晋级则曝光在新书推荐中位置最好、流量最大的“小编力荐”。。。这种模式让差别品级的上推会获得差别水平的曝光,,,,,,,,PK晋级多的作品可获得多次曝光和更优的推荐位,,,,,,,,PK晋级少的作品则可能一轮游,,,,,,,,由于无推荐而苦苦坚持创作或快速切书。。。新的流量包模式则是不牢靠推荐位,,,,,,,,为更多新书提供了长周期的候选推荐和更多资源位曝光可能。。。如新书入库作品首次亮相后,,,,,,,,会提供试水期和培育期流量推荐。。。新书在七天试水期中匀称获得流量帮助,,,,,,,,再凭证作品体现获得差别档的流量包boost。。。优异作品会获得更高等次的放量流量包boost,,,,,,,,体现欠佳的新书也不会被雪藏,,,,,,,,也能在培育期获得一连21至42天的帮助流量包,,,,,,,,让推荐系统和新书新人有更多试错和调解的可能,,,,,,,,也阻止作者太过追求前期流量而损害后期生长。。。 现在各内容行业推荐系统的推荐原理、算法、流程都或许一致,,,,,,,,只是由于商业模式的差别,,,,,,,,番茄小说等免费平台对人工智能推荐有相对充分的放权,,,,,,,,起点中文网和晋江文学城等付费平台则有更多的编辑人工加入。。。总体而言,,,,,,,,起点中文网这次新书推荐算法刷新,,,,,,,,外貌上是将PK模式变为流量包模式,,,,,,,,实质则在于对新书培育周期的拉长以及不限资源位向人工智能个性化推荐的让权,,,,,,,,旨在推行动者和作品越发注重恒久效益而非短期利益。。。 (作者系中山大学中国现今世文学硕士研究生)