
三 算法实践是社会建构的产物
(一)平台组织与核心算法实践
K平台成立于2011年3月,旗下的主打产品最初是一款制作分享GIF图片的手机应用,2012年,S某带领算法团队加入公司后,将K平台的产品形态从工具应用转型为以AI技术为核心进行智能分发的短视频社区。K平台目前日活跃用户数超过3亿,月活跃用户数超过4亿,日均曝光达千亿级别。2020年,K平台加速推进商业化,电商引入、媒体入驻、MCN机构内容创作等多方面发力,全面改进内容建设和商业模式。
截至2020年6月30日,K平台有5000名研发员工,其中80%是开发运营平台的工程师,24万台服务器,22个网络数据中心,半年研发投入23亿元。K平台公司形成“小前台,大中台”的管理层结构,K平台管理层以两位创始人为核心。一位负责产品、运营等内部管理,另一位作为CEO统管公司,并负责AI算法以及对外事项。
从对AI技术的研发及负责的组织部门来看,K平台公司形成了针对内容生产者的辅助内容创作技术、内容理解技术及内容推荐技术等核心技术体系,比如,K平台自研了YCNN深度推理学习引擎,解决了AI技术运行受限于用户设备计算量的问题,辅助内容生产者进行内容创作;2016年,将深度学习组改为多媒体理解组(Multimedia Understanding,MMU)对用户生产内容进行多模态理解整合,MMU研发的内容分析算法系统可对平台海量数据进行实时多维分析及筛选。而作为与用户消费关联最紧密的个性化推荐技术,K平台内部成立针对核心场景的AI算法引擎部门,名为社区科学部,致力于用一整套AI解决方案实现核心场景下的个性化内容推荐。
所以K平台开展的算法实践主要围绕对用户上传的各种内容形态(比如图文、视频、音频、直播等)进行理解和分发,算法的整体框架由底层算法和上层应用组成,底层算法有自然语言处理技术(NLP)方面的语义理解,视觉方面的图像质量、图文匹配、视频理解,以及基础搜索等算法。上层应用对接具体AI技术实现场景,比如内容理解算法、个性化推荐算法、商业化广告推荐算法等(见图1-1)。

图1-1 K平台AI算法核心框架
K平台是采用多种AI算法进行内容分发的平台,内容的来源主要由普通用户(User-Created Content,UGC)和专业内容生产者(Professionally-Generated Content,PGC)生产,内容生产者将内容(短视频为主)上传到K平台App后,内容理解部门会采取人脸识别、OCR、图像识别、语音识别等AI技术及机器学习算法对内容进行识别与特征抽取(用于推荐系统算法模型特征输入),同时经过内容审核、风控部门(人工规则/算法模型)进行内容监管后,进入内容索引池,用于推荐系统进行内容分发,在推荐系统中,经过个性化推荐算法进行召回、排序及运营人工规则,最终筛选出内容推荐给用户。
在整个内容分发过程中,多种AI算法的应用,使得K平台具备相当成熟的技术系统,包括内容识别技术、内容审核技术、风控技术、个性化推荐技术等。这就意味着不同的技术需要不同业务部门的算法模型设计、应用,各部门的合作与配合决定着平台内容分发的效果。
比如,内容理解部门的算法工程师把关内容的安全与质量,对算法模型的设计有相应的人工指导规则体系(比如,什么样的内容算法要识别出来,是违反安全规则),建立了规范化标准体系;推荐算法工程师围绕个性化推荐技术的实现,在内容召回、排序阶段设计不同的算法模型及策略;运营部门也会有不同业务规则对推荐算法最终的推荐结果进行最终排序(运营活动/商业利益需求等);用户体验部门会根据用户的体验反馈给上游部门,进一步优化个性化推荐的流程。
所以,用户生产内容上传后,经过内容理解、审核、分发、推荐环节集中体现了不同场景下的算法设计、应用过程,也集中体现了K平台AI关键技术实践,充分展现AI技术与K平台制度属性以及多层次行动者进行充分社会互动的过程。本书以K平台对内容理解算法、个性化推荐算法、商业化广告推荐算法的研发与应用过程为主要切入点,围绕算法模型设计与应用相关的技术部门(社科推荐部、内容理解中台、内容审核和风控部门、产品策略部门、商业化部门,数据分析部门、用户体验部门等)及相关技术行动者算法实践展开(见图1-2)。

图1-2 K平台核心算法实践过程
(二)聚焦社会建构过程:可见性博弈
1.算法及实践的再定义:内容可见性
首先,本书所探讨的“算法”(algorithm),从技术上讲,是作为解决问题和制定决策的方法和步骤(Dourish,2016;Gillespie,2007)。从功能意义上讲,算法与人类主观能动性相关,但并非全由人类执行,作为完成某项任务在设计软件时所嵌入的数字化流程或者规则而存在。
其次,从放入本书经验研究的案例来看,K平台使用算法来解决两个核心问题:管理越来越多的视频内容(信息流),以及提供令观众满意的信息性内容服务。这里的观众不仅仅指普通的内容消费者,还指围绕在内容生产、分发、消费整个过程中的相关社会行动者,比如内容生产者、内容监管者、内容利益相关者、内容消费者等。因此,算法被用来回答(和制定)这个问题:什么内容应该是可见的,什么是不可见的?对谁可见?
在本书的语境中,算法实践被定义为K平台为提供或限制内容可见性而实现的一步一步的编码过程。在实践中,该平台以多种方式提供可见性:算法通过转化人工规则指导建构各种模型、策略用于“识别”“分类”“过滤”“排序”等功能对内容的可见性进行“构建和塑造”(Dourish,2016;Hallinan and Striphas,2016;Seaver,2017;Vonderau,2019)。然后,K平台通过算法实践对聚集在K平台的观众进行内容推广(Postigo,2014),最后,“观众”又如何在表面上缺乏技术知识与实操权限的情况下使用互动策略保持建构算法实践的能力,维系自身及内容的可见性(例如,Eslami et al.,2015;Bucher,2017;West,2018)。
2.社会建构中的核心问题
本书以K平台的算法实践为案例,分析不同的社会性力量如何建构算法实践的过程、影响机制及后果。具体考察了如下四个问题。
第一,了解平台公司内部行动主体对算法实践的建构过程,剖析K平台作为平台公司参与算法实践过程中的制度属性,包括平台作为组织的意义结构、经济结构和合法性结构。具体来看:K平台的平台(产品)文化价值观、商业模式和政治监管环境对组织内部行动者开展算法实践的影响。
第二,在平台公司开展算法实践的过程中,关注并衡量了哪些相关社会行动者的权力、利益需求被纳入算法实践中(也即内隐性编码设计考量):通过对组织内不同场景下算法研发团队算法模型建构过程(从建模到上线)展开研究,关注算法实践中的业务目标、评估目标、优化目标和标准操作流程与专业技能以及组织内部算法实践场景中的业务收益。最终确立了参与算法实践的社会行动者:平台公司(作为平台组织者/商业公司运营者)、内容生产者、内容消费者、利益相关者、内容监管者。
第三,了解组织外部社会行动主体参与算法实践建构的过程(外显性行为互动特征):研究不同类型用户与平台(界面)互动的主观体验,对算法的认知、想法与反馈方式等,比如普通用户采取何种方式应对平台的推荐算法机制(被动接受/主动改变/拒绝等),专业内容生产者如何和平台算法机制进行互动,如何利用算法机制转化自己的利益需求等,观测平台算法实践和用户之间为控制信息交换而进行的博弈过程。
第四,总结归纳围绕内容生产、审核、分发、消费的整个博弈过程,多元社会行动主体参与算法实践的影响机制、行动策略以及算法实践的结果。
3.本书的结构
本书共分为九章。第一章为绪论,主要介绍本书关注的重要问题、研究意义、研究视角与分析框架、研究案例介绍与全书结构。第二章为文献综述部分,主要介绍与本书相关的理论成果与观点、其他学科相关研究的评述以及本研究的贡献。第三章为研究方法与研究设计。第四章至第八章,进入本书的主体内容议题,核心论述围绕以下几个议题依次展开。
①关注算法实践的实际操作行动者——平台公司的管理者、运营者、技术设计者等一系列组织内部的行动者对算法实践如何进行制度属性建构,在规范化算法实践的过程中,践行了怎样的价值观与规范?
在第四章,阐释算法实践受特定平台产品价值观的影响。通过与K平台的竞争性平台D平台的案例对比,展现不同的产品价值观对算法实践的规范化塑造过程。算法实践作为一种强大的力量把关着“谁”能够被看到,谁的声音能被听到,什么样的内容能在平台中呈现,如何呈现,这些都在特定的产品技术设计中,透过算法实践表达着特有的价值观倾向。
在第五章,阐释平台公司的商业模式对算法实践的影响,着重探讨参与算法实践的利益相关者——广告商对算法实践的建构作用,算法实践如何践行平台的商业模式成为利润增长的引擎,如何协调与商业合作伙伴的利益分配,共同实现互联网共享的神话。算法实践如何在把关“可见性”中加入了商业力量?
②关注算法实践的社会、政治制度环境作用如何影响平台的算法实践,特别是政府监管部门如何将正式的制度规范与规则“嵌入”算法实践中,政治权力如何实现技术化?
在第六章,详细阐述算法实践合法性的维系过程,面对政治环境的压力与制约力量如何塑造算法实践的政治属性。
③关注算法实践对用户的认知与行为方式的塑造,用户如何被数据化纳入算法实践塑造的有序空间中持续互动,建立起“人与内容”匹配的连接,用户作为组织外的社会性力量如何决定平台内容的“可见性”与“不可见性”,对算法实践的持续建构也起到重要作用?
在第七章和第八章,详细探讨用户作为内容生产者、内容消费者的社会角色,如何驯化算法实践。第九章为总结与思考,用以总结本书的研究发现与不足之处。
[1] 《外卖骑手,困在系统里》,发表于《人物》杂志(https://mp.weixin.qq.com/s/Mes1RqIOdp48CMw4p XTwXw)。
[2] 首先,本书研究的算法,特指机器学习算法(深度学习),依赖历史数据积累进行学习。信息分发平台是开展机器学习算法实践进展相对比较充分的领域,与金融领域(比如股票预测、银行预防欺诈等业务场景)相比,应用场景更为多元。其次,人工智能技术应用的算法细分领域有所差别,例如,配送系统(骑手调度系统)实质是运筹优化领域,不完全属于机器学习领域,其所开展的算法实践类型有所不同。本书不与这一类算法实践做对比研究。
[3] 根据吉莱斯皮的观点,“平台”具有丰富的含义,既可以作为计算和架构,也是社会文化和政治意义上社会行为展现的机会,“社交媒体网站之所以成为平台,不一定是因为它们允许编写或运行代码,而是因为它们提供了交流互动或销售的机会”(Gillespie,2010)。
[4] 指代社会行动主体在开发/使用技术时卷入技术构造过程的程度。受到技术的物理特征(软硬件)、行动者特征(经验、动机)、情境特征(社会关系、任务安排及资源分配)影响。
[5] 一般来讲,算法实践过程包括:多样化的场景应用需求下进行数据采集/标注、算法训练、预测分析(分数或者模型输出),新样本不断反馈输入、线下评估、A/B测试上线、模型迭代等一系列技术过程。
[6] 《民法典》第1034至1039条较为详细地规定了个人信息保护。比如人格权编除规定隐私权益受保护外,还规定了个人对自身个人信息的查阅、复制、更正等权利。《网络安全法》的一些条文和一些行业标准规定了系列个人信息保护制度(参见《网络安全法》第41~45条)。《个人信息保护法》对个人信息也进行综合性的立法与保护。
[7] 以欧盟为典型代表《通用数据保护条例》(GDPR)第22条,“当算法自动化决策对数据主体造成法律或重大影响时,数据主体有权不作为自动化决策的支配对象”;我国《互联网信息服务算法推荐管理规定》第17条,“用户选择关闭算法推荐服务,算法推荐服务提供者应当立即停止提供相关服务”。