千人千面,还是信息茧房?互联网精准推送利弊谈及如何寻找破茧之路(上)

首刊于律商(2021-03-10)

有一个被称为“大数据点餐”的段子:某人去披萨店本打算买个海鲜披萨全家一起来吃,却被店员提醒根据他的医疗记录该顾客不宜吃海鲜类的高嘌呤食物;之后基于顾客曾在网上搜索过低脂健康食谱,店员建议他改点蔬菜披萨;接着顾客又被店员提醒,其母亲刚做心脏手术不久,最好不吃披萨;结账时,店员指出顾客的信用卡透支,银行卡现金取款也已达当日上限;当已经很窘迫的顾客强作镇定,要求店里将披萨直接送到家时,店员说顾客住得很近,自驾车又正停在不远处,不如回家取了现金再来店里自提披萨,顾客几近当场晕倒……

这个段子里,披萨店的店员对顾客的个人情况、家庭关系、行为偏好、消费能力等方方面面的信息掌握得清清楚楚,推荐产品和给的建议直截了当戳到顾客的心坎上。面对着店员,这个顾客仿佛就是个“透明人”。

好的文艺作品多有着真实生活的痕迹。“大数据点餐”这个段子虽然夸张,却似乎也折射出我们当下每日生活中的常态:在购物网站上浏览了某些产品后,接下来就收到类似商品的推送广告;刷了几个短视频,就一连串地被推送内容或风格差不多的节目;在资讯APP上勾选过感兴趣的新闻类别,从此一直收到这些类别的“定制化”新闻,想换点别的看看却不知如何更新要求…… 还有让人更尴尬的——搜索过私密的某些疾病知识或者难得糊涂看了趣味低俗的内容,保不准随后就收到声称治疗这些疾病的广告,和类似的低趣味内容 …… 让人犯窘,却又躲之不及。

精准推送的神奇魔法

互联网网站和APP,何以能神机妙算地掌握用户的喜好,做到商品和资讯的推送恰对胃口,让人感叹 “似乎比我自己还了解我”?这其实正是互联网精准推送技术能够达到的效果。精准推送也叫个性化推送或者个性化展示,在市场营销的语境下可以称做精准营销,指的是网站以掌握用户大量个人信息数据为基础,进行用户画像并贴上特征标签;再凭借推荐算法,将匹配程度高的商品和资讯针对性地推荐给有关用户。

传统的市场营销推广活动通常围绕着产品和品牌琢磨广告文案如何抓人眼球;精准营销则直接瞄准消费端,利用用户画像和标签更有针对性地小范围锁定潜在消费人群,重心放在将商品与高潜力用户间的关联、匹配。在精准营销场景下,在同一个购物网站上搜索毛衣,甲乙丙丁四个用户搜到的很可能是品牌、款式、价格幅度完全不同的毛衣商品和信息。可以说,精准营销下推送的广告和信息可谓千人千面。尽管精准推送某个商品的受众人群往往比传统营销下触及的人数来得少,但前者由广告投放成功转化为销售实现的 “转化率”却往往明显高于广种薄收的传统营销推送手段。精准推送可以说是互联网时代的营销吸金魔法。

精准推送背后的技术支撑

用户画像和推荐算法是精准推送背后的两大技术支撑。我国的《信息安全技术 个人信息安全规范》(2020版)这样定义用户画像:“通过收集、汇聚、分析个人信息,对某特定自然人个人特征,如职业、经济、健康、教育、个人喜好、信用、行为等方面作出分析或预测,形成其个人特征模型的过程”。用户画像及其可以达到的精细程度依赖于个人信息数据基础。掌握个体或群体用户的个人信息的数量越庞大和充分,更新越及时,用户画像就可能做到更精准,标签就越贴切。比如,某用户的基本标签可能是 “上班在上海陆家嘴,80后,女律师,留学美国,爱吃火锅,攀岩”。如果对该用户行为和其他信息的做了进一步掌握,还能了解更多她的特征和喜好,进一步贴标签。

推荐算法是精准推送背后的另一项技术支撑。简单来说,推荐算法指的是基于用户行为,通过数学算法来推测出用户可能喜欢什么。推荐算法称得上是当下各互联网消费、娱乐和资讯大平台比拼武功高下的关键所在。《麻省理工科技评论》杂志(MIT)不久前刚揭晓了2021年度全球十大突破性技术,抖音海外版 (TikTok) 的推荐算法赫然榜上有名[1]。当然树大招风,大概也正因为具备了强大的推荐算法由此拥有千万级的活跃用户尤其是被美国年轻一代热捧,TikTok 去年连连被特朗普政府以所谓信息安全等理由打压,一度险些遭禁和几近被强制出售。

精准推送依赖的庞大个人信息数据从哪里来?

用户个人信息数据库构成网站对用户画像的基础。网站又是如何取得用户信息?

在互联网高度普及和高度覆盖的今天(对中国来说尤为如此),特别是以手机为代表的移动互联网蓬勃发展的情况下,事实上每时每刻大量的个人信息都正在从电脑、手机APP,智能家居终端等各个渠道源源不断地产生。这些个人信息包括用户注册或登录网站时通常被要求提供的姓名、住址、身份证号、手机号等个人静态的基本信息,更包括用户在网上发表的任何点赞或其他评论、输入关键词进行的资讯搜索、网上行踪轨迹,交易信息等动态的个人信息,后者以及用来理解和预测个人的爱好和行为,蕴含丰富商业价值。目前各类网站普遍通过放置Cookie来收集用户的各类个人信息。

以IT技术角度来定义,Cookie是保存在用户计算机和类似移动终端上的一个小文件,用来记录和存储用户在访问网页时的设置、偏好等信息;Cookie 也可以被用来跟踪用户是如何访问到某一网站的以及如何与网站发生互动。

从功能上看,Cookie可以分成四种[2]:(1) 绝对必需的Cookie (strictly necessary cookie), 例如对用户登录网站时的身份验证为目的;(2) 性能类Cookie (performance cookie),例如用来了解用户最常浏览的是哪个网页,了解用户和网站的互动情况;(3) 功能类 Cookie (functionality cookie),例如记忆用户在网站上已选定的地理区域位置、语言偏好、显示字体等;(4) 目标或广告Cookie (targeting cookies or advertising cookie),主要用于跨网站跟踪用户,收集用户的网络行为趋势和模式,以针对性地推送用户感兴趣的广告,增强广告的用户关联度。

从存储时长上看,Cookie可以分为 “会话Cookie” 和 “永久Cookie” 两类。前者作短期存储,在用户关闭网页时会自动删除;而后者则会在计算机和移动终端上长久储存,除非用户主动删除这些永久Cookie。由于Cookie 隐蔽地存在于计算机和移动设备运行的幕后,除非用户有意识地去主动管理,否则Cookie 就悄悄地关注和记忆着用户在网上的一举一动,而用户并不易察觉。

Cookie 的个人信息属性

随着互联网技术的深入发展,Cookie对于用户的追踪功能亦日益强大。试想,永久Cookie 与目标或广告Cookie 的效果相叠加,当用户再次登陆网站时,一直驻留的永久Cookie就开始工作,持续观察和记录用户的浏览行为和偏好,分析和预测短期需求和长期兴趣等。Cookie称得上是用户画像的强有力搭档,能够为用户画像的更高精准度持续地提供丰富的素材。那么,Cookie 是否构成个人信息?近些年来我国在司法、学术界经历了一番争论后,业已做出肯定的回答,在立法层面已经将Cookie 纳入个人信息保护的范畴。

关于Cookie性质的争论可以追溯到2013年某南京用户诉百度案,亦被称作我国Cookie第一案。该案中,原告诉称当其在百度上以关键词 “减肥”、 “隆胸” 等进行搜索后,其再浏览影视等网站时,就会被推送减肥、隆胸等产品的广告。原告认为百度未经其知情和选择,擅自利用网络技术记录和跟踪其兴趣爱好和个人需求并进行广告投放,侵害了其隐私权。

在该案的审理过程中,初审和二审法院在事实认定上基本一致,但论证和意见结论却大相径庭,分歧尤其在有关Cookie关键词记录其属性的认定问题方面上很明显。判决用户胜诉的初审法院认为,关键词显示了个人偏好,反映个人基本情况尤其是私生活情况,属于个人隐私;不当收集、利用他人隐私信息即构成隐私权侵权。而该一审结论却在上诉阶段被二审法院2015年的判决所推翻。

二审法院的意见是,用户的搜索关键词虽然反映了其网络活动轨迹和个人偏好,具有隐私属性,但是轨迹和偏好乃与计算机硬件关联,一旦与网络用户的身份相分离,并不确定信息的主体归属,所以不构成个人信息;百度通过技术手段推送个性化产品广告,并没有向第三方展示或向公众公开用户的Cookie信息,因此不构成侵权。

好在随着时间的推移,我国对于个人信息概念及保护个人信息的意义在理解上逐渐加深,同时又有欧盟等法域关于Cookie立法的经验作为参考,百度Cookie第一案中二审法院对于个人信息范畴的司法认定已经被突破。最高人民法院颁布的《关于侵犯公民个人信息案件的解释》 (2017)明确,以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括行踪轨迹等,都属于个人信息。从广义上加以理解,行踪轨迹也可以包括网络Cookie浏览记录。我国新近颁布并实施的《民法典》中有关个人信息的定义和范畴设定也沿用了以上最高院司法解释的内容。

《信息安全技术 个人信息安全规范》以列举方式对个人信息给出示例时,进一步明确提出了个人信息包括个人上网记录,如包括网站浏览记录、软件使用记录、点击记录等在内的网络日志储存的用户操作记录。而Cookie所收集和记录的信息恰恰覆盖个人上网记录。

目前我国法律界普遍以两项标准来判断个人信息的构成:一是识别,即是否能从某个或某组信息可以识别出个人;二是关联,即如果已知特定个人,则其活动信息如个人在网页上的浏览记录等就构成个人信息。以上两项标准只要符合其中之一的,就属于个人信息。以这样的标准,尤其是根据“识别”, 如果Cookie 记录的个人身份或行为痕迹指向了某个人用户,或者综合其它信息能够识别出个人用户,那么该Cookie就属于个人信息了。

在数字化经济呈现爆炸式发展态势的今日时点回望2013年的百度Cookie案,当年法院认为的Cookie仅与计算机关联、与个人身份分离的见解不免显得机械和僵硬。科技势如破竹地在发展,我们的法律见解就算难做到时时有前瞻性,至少要努力跟上科技发展的潮流,已发展的眼光来处理涌现出来的新问题,保护公众的个人权利。从Cookie的个人信息属性出发,对于Cookie的泛化使用和滥用的现实期乱相加以控制和扭转,正是当代法治迫在眉睫的一项大课题。

精准推送的利弊和得失

Cookie跟踪技术的运用相当于互联网平台上一直有一双甚至多双眼睛在角落里观察并琢磨着用户在网络界面上的举动。互联网企业间的竞争也被称为是流量的竞争,意思是说看哪个平台和哪款应用更能更多更持久地吸引用户的关注。精准推送能够让分发的内容更迎合用户的需求和兴趣,增强用户黏度,商家和平台显然从中获利。那么精准推送给用户带来了怎样的影响?

便利:从效率提升的角度来看,数字化时代信息数据是海量的。精准推送商品广告和资讯能够大大降低用户搜索信息时的时间占用和麻烦,使信息搜索的效率大幅提高。普通推送下商品展示排在前列的大多是销量大、普遍好评度高的产品。要找一款有特色小众产品就不得不翻看许多页的界面。而精准推送匹配了用户偏好和产品特色,让原本处在末端“长尾”位置的小众产品更有可能被展示给情有独钟的小众用户,让用户和商家皆大欢喜。

成瘾:在精准推送盛行前,青少年玩网络游戏成瘾是被社会广泛批评的现象。而当刷15秒短视频等渐成为社会普遍互联网娱乐现象,成年人刷视频上瘾、上网成瘾的潘多拉魔盒被打开了。精准推送让用户看到了一个又一个他 (她) 所喜欢看的节目,而推送来的下一个节目很可能会更精彩,能克制住不继续看吗?手指戳戳手机就会有随时的愉悦和满足感,互联网时代要做到克制、自律实在很难,也让更多人了解到自身人性的弱点…… 如有的抖音(TikTok)用户在网上所感叹,以为只刷了五分钟的短视频,其实看了一小时…… 实在是欲罢不能。奶嘴娱乐 (tittytainment) 一说尽管显得尖刻,却又何尝不是如今世界各地公共汽车、地铁车厢等公共场合大家普遍低着头在看手机、刷视频的写照?

假新闻:精准推送下呈现出千人千面的互联网资讯还成了孕育假新闻的温床。2016年,“后真相”(post-truth)上榜《牛津辞典》年度词汇;2017年,“假新闻” (fake news)被《柯林斯英语词典》列为年度热词;2018年,“假消息” (misinformation)被字典网(dictionary.com)评为年度词汇。三年三个热词皆指向虚假新闻。互联网资讯尤其是社交媒体的兴起改变了信息传播的方式。据说如今炮制假新闻竟然存在着完整的产业链:有经验的假新闻炮制者擅长捕捉和迎合读者的兴趣点,紧扣时事热点和名人杜撰消息;而社交媒体的扩散传播特点更有意或无意地更助长了假新闻的蔓延,假新闻之流甚至成为恶意博取关注的利器。

2018年脸书/剑桥分析一案中精准推送的计谋:资讯的精准推送还可能被居心叵测之人利用。2018年,脸书 (Facebook) 被曝未能保护用户的个人信息安全,造成8700多万用户的个人信息遭泄露,这一大批个人信息之后被英国的剑桥分析公司 (Cambridge Analytics) 所购买,用来根据个人用户的政治倾向向其有针对性地推送有利于2016年特朗普参加总统竞选的政治广告和消息。

在这起脸书数据门事件中,以扎克伯格为代表的脸书公司管理层当然难辞其咎。换一个角度,若精准推送的掘金价值来理解本案,8700多万脸书用户在刨除其中一定占比的非美国公民人群,仍意味着这一大批个人信息数据涉及千万级规模的选民,亦即千万张数的潜在选票。剑桥分析公司之所以花钱买这一大批用户的个人信息,醉翁之意恐怕正在于此:可以利用这一大批选民的喜好和行为在讯息推送上好好下一番功夫。而这些用户在千人千面地收消息时,哪会料想到背后策划的老谋深算。

“信息茧房”效应:当用户被推送迎合其偏好和兴趣的资讯,尤其是新闻和评论之类,用户可能被局限于仅仅收到他 (她) 想看和愿意看的那些内容。不同的意见或者争论的声音,可以在精准推送的过程中被算法筛除。按照这个模式演进,用户容易觉得他 (她) 的观点正是这个世界的主流观点,使得个人意见趋向于窄化和固化,也逐渐失去接触和了解不同意见的机会和能力。这就是美国法学教授凯斯 ∙ 桑斯坦(Cass Sunstein)提出的“信息茧房” 的概念[3]。茧房让人觉得心理舒适和情感满足,困在了信息的舒适圈;而信息茧房对于整个社会来说,容易造成思想交流和融汇的缺乏,加剧社会群体思想的分裂趋势。桑斯坦教授的断言并非耸人听闻,如今某些主要国家恰恰正在经历这般社会呈现严重分裂化的阵痛。

编者注:何以有上述弊端?应如何破解?在下篇中,作者将分析问题症结,并指出解决之道。

注:

[1]10 Breakthrough Technologies 2021 | MIT Technology Review

[2]International Chamber of Commerce (ICC) UK Cookie Guide, second edition, Nov 2012, icc_uk_cookiesguide_revnov.pdf (cookielaw.org)

[3]Sunstein, Cass R. (2006). Infotopia: How Many Minds Produce Knowledge. Oxford University Press

Previous
Previous

千人千面,还是信息茧房?互联网精准推送利弊谈及如何寻找破茧之路(下)

Next
Next

数字时代企业的“压舱石”:谈个人信息保护官 (DPO) 的担当和素养