大数据使社会信用立法成为可能
社会信用立法的调整对象是社会信用信息,规范其采集、披露、使用,因此,社会信用法律实质上可以说是社会信用信息管理法。对于社会信用信息,《上海市社会信用条例》的界定是“可用以识别、分析、判断信息主体守法、履约状况的客观数据和资料”。其他地方大同小异,都将其定性为“数据和资料”。这意味着,社会信用信息不以结构化数据为限,更通俗地讲,文档、图片、视频等非结构化数据都可以作为社会信用信息的来源或者说载体。随着网络技术的发展、电子商务的繁荣以及社交媒体的兴起,非结构性数据在数据洪流中逐渐占据主要地位。非结构化数据形式多样、结构多变、更新快速、信息丰富,当其形成一定规模后便会对数据的存储与处理提出重大挑战:存储要完整且及时、分析要全面有细节,而这些是传统的二维表结构所无法实现的,却是大数据应用的核心领域。
立法规范社会信用信息的目的是合理利用,其表现即是信用服务,而任何信用服务都以信用评价为基础。信用评价是基于信用信息对主体信用状况的主观评价,其关键在于预测个体的交易风险和偿还能力。这种个性化鲜明的预测如今越来越多地建立在相关性分析基础上,因为信用服务提供者发现,因果分析得出的宏观走向对于个人信用服务提供的帮助有限,真正起决定作用的是个体预测,而它只需要回答“是什么”。如此,从因果性到相关性,正是大数据技术使这样一种建立在庞杂数据库基础上的相关性分析成为现实。大数据贯穿了信息的采集、披露、使用,为社会信用信息的管理奠定了数据基础,提供了技术手段,从而使外界得以评价个人的信用状况,在此意义上实现了“熟人社会”的回归,从而使信用立法得以可能。
全球数字化进程的加快使大数据成为近年来的热门话题,国内相关言论虽多,却泛于概念炒作。就像“互联网+”被曲解为“+互联网”,“大数据”也常常被错误地等同于“数据大”。但事实上,大数据是人们在大规模数据基础上可以做到的任何事情,其所带来的变革并不体现在分析数据的机器或技术上,而在于数据本身和我们如何运用数据的思维:从抽样到全体、从精确性到混杂性、从相关性到因果性。准此,大数据对社会信用立法的影响远不止使其成为可能。
在信息采集方面,由于大数据技术实现了海量数据的获取,过去为了应对信息采集困难,旨在用最少数据得到最多信息的随机采样因此失去意义。是故,社会信用信息的采集无所谓抽样,其应当关注的是信息来源的确认和信息规模的大小,因为在大数据里,单个数据的精确性不再是值得追求的对象,分析模型需要的是全体数据或尽可能多的数据,这就要求信息的来源应尽可能多样,信息的内容应尽可能完整,数据规模越大越好。基于此,社会信用信息的采集应当遵循“全面采集”原则,包括三层意思:第一,从大数据技术需求来看,信息来源应当多样,但法律的稳定性和可预期性要求其必须为法所确认并事先公开。对于二者间的紧张关系,可效仿物权法定的缓和,在定期公布法定信息来源目录的基础上,允许个人和组织提议新的信息来源,但需经合法性审查、评估论证、听证或公开征求社会意见,最终以补充名单的形式发布。第二,采集的信息内容尽可能完整,但应以采集目的为限,对此,可由立法授权有关部门出台具体标准或指导意见。第三,信息须得依法采集,包括不涉及法律禁止范围和按照合法程序进行。
在信息的披露环节,相关性分析的日益成熟使得大数据反模糊化、反匿名化,这意味着存在无处不在的“第三只眼”,与市场那只著名的“看不见的手”一样,隐蔽却又真切地影响着人们生活的方方面面。过去行之有效的数据模糊和匿名处理在大数据时代成了“此地无银三百两”,如轰动一时的美国在线(AOL)技术事件、奈非公司侵犯隐私案件等。尽管我国对大数据的应用目前还比较初级,但毫无疑问的是,大数据时代已经来临,是以“原则公开”成为符合当下现状和未来发展趋势的最佳选择。该原则同样包含三层意思:第一,既然模糊和匿名无用,那么信息理应公开未加工的原始版本,并采用实名化。第二,在保护国家安全、商业秘密、个人隐私的法定例外情形,禁止公开的范围应从过去的单个数据扩大到数据链,以切断相关性分析。第三,考虑到采集的社会信用信息实质上是个人或组织已公开或依法应当公开的信息,因此原则上不接受保密请求,但考虑到于客观上存在原始信息或公开行为危害国家安全、商业秘密、个人隐私的可能,故应予建立异议申诉制度以及审查期内的冻结机制。
就信息的使用而言,鉴于大数据的自我膨胀属性和数据独裁倾向,因此在信息使用规范的设计上“安全”应是第一位的。此所谓“安全使用”的核心是妥善处理大数据技术发展与个人(包括自然人、法人、非法人组织)权利保护间的关系,尤其是在备受关注的隐私保护领域。互联网隐私保护长期以来依靠各式各样的使用许可协议,采取“个人决定”模式。但问题在于,个人决定建立在知情的基础上,而大数据(至少是理论上)的无限可能性,使得数据使用者无法就可能存在的全部使用用途,提前向采集对象作出明确的解释与说明。无数大数据实际应用的案例证明,很多数据在被收集时并无意用作其他用途,但最终却产生了很多创新性的二次或多次利用,如谷歌利用搜索关键词预测流感暴发的时间和规模。更何况,随着大数据产业的形成及其分工的细化,数据的使用者不一定是数据的采集者,这使“知情”变得前所未有的困难。如果说,数据使用者每一次发现数据的新的利用方式都必须事先征求个人同意,那么对于双方来说都是无法承受的负担:商家受制于成本,个人受困于骚扰,这无疑会极大限制大数据发展。
一种值得考虑的对策是,将隐私保护的重心从数据收集转移到数据使用,即当数据使用者直接抓取公开信息,或就笼统的“数据使用”获得个人许可,或从数据收集者处取得相关信息后,可在法定的最长保留期限内自由地开发、利用这些数据,而无需取得信息所有者的再次同意,其中商业利用默认有偿,科学研究和行政管理一般无偿。但与之相应的,数据使用者须对每一次的利用行为进行合法性审查,并积极采取保护措施,避免对他人合法权益的侵害,否则将受到法律的严厉惩罚。
除了解放大数据技术发展的动力,这一立法考虑对个人权利保护的强化同样是显而易见的。其一,考虑到没有人比数据使用者自己更清楚数据的利用方式及其带来的法律风险,因而由其承担保护义务才能确保防范有效。其二,数据使用者作为最大受益者,理应承担最大风险。传统“个人决定”模式中,个人虽然掌握许可的主动权,却也因此担负为自己的错误决定承受精神和物质上损失的重大风险。反观居于信息优势地位的数据采集者,只要履行法定告知义务即可,而真正获利的数据使用者有时隐于合同相对性后,甚至连告知都不需要,显失公平,是以将规制的重心从数据采集转移到数据的使用,实质上是一种权义责的平衡。其三,明确数据使用期限保护了个人的遗忘权,因为超出法定最长保留期限的任何数据使用行为都将被作为违法甚至犯罪行为予以惩罚。至于大数据的数据独裁倾向,防范的措施包括:一方面,用因果性制衡相关性,反映到立法中,即个人可对自身信用评价提出异议,要求评价主体说明理由和依据;另一方面,用算法透明对抗数据垄断,反映到立法中,即包括信用评价在内的信用服务提供者应将自身的数据算法公之于众。
总而言之,大数据技术解决了社会信用信息不透明和不流通问题,使社会范围内的统一信用立法得以可能。与之相适应,社会信用法律针对大数据的技术特征应当确立“全面收集”“原则公开”“安全使用”的基本原则,将个人隐私、商业秘密保护的重心从数据收集转移到数据使用,以此平衡技术发展与私权保护。
(作者:贾韶琦,作者单位:湖南工商大学法学院)