

▌四、匿名化标准的优化建议
(一)理念
首先需要破除匿名化一劳永逸的理想,匿名化应当是一个过程、一套流程,是使用最合理和俭省的方式不断趋近于信息保护和数据流通的平衡这一目标。我们应当聚焦减少重识别风险的程序规则,关注匿名化标准本身的可操作性和再识别风险防范的有效性,而不是实际消除重识别的损害,实现数据共享所带来的生命力的同时仍然保护数据主体的个人信息和隐私安全。
数据匿名化应包含前期的数据应用目的、应用情境评估,明确需要达到的匿名化效果,妥善选择匿名化技术;中期关注匿名化处理过程,对合目的程度进行评估;以及后期要关注重识别技术迭代和其他相关情况的变动,定期测评重识别风险。
匿名化需保持平衡,兼顾双重目标的达成。这可以参考《信息安全技术个人信息去标识化指南》中的 5.5验证审批部分,全流程都要分别验证个人信息安全和验证数据有用性。可以通过检查生产的数据文件来考核匿名化的实际效果,形成匿名化全流程监控审查记录;为确保匿名化处理后的数据仍可发挥相应效用,可在匿名化进程中不断试验,并对结果进行比较,找到合适程度,以达到数据具备可用性下的最大匿名化比例。
(二)需考虑的方面
1.主体方面
上述AOL公司的例子当中,处理后的用户检索记录被上传至网络且没有做出任何限制,任何接入网络者均能接触,并利用相关信息进行重识别,从而有获取用户个人信息甚至个人隐私的巨大可能性。故而,数据匿名化过程中应考虑可能接触匿名数据的主体,关注匿名化处理后数据的流通。总的来说,传播更公开、更自由则需更高的匿名化水平。
(1)数据生产者
用户在使用电子设备、软件的过程中产生的数据会被截取、收集、传输、分析等。出于知情同意原则的要求,注册成为用户时,如手机软件均会要求勾选同意数据使用条例,不少用户也会选择查看。这样的流通控制协议是向所有用户发出,约束的群体比较广泛,但是相应的,通常只做概括性表达、采用较为模糊的语言,对双方权利义务陈述不清,又缺乏有约束力的责任条款。而企业告知的数据收集和使用目的与方式直接影响了用户对于匿名化程度的期望,更遑论未经同意直接截取与使用用户数据。根据承诺的用途进行相应的匿名化处理是必要的。
(2)数据处理者和接收者
数据被产生后会被收集者第一手处理,而号称“互联网石油”的数据带来的价值不可估量。企业之间通常也会有一些数据共享与交易合同,在数据再生产的同时起着数据流通控制的作用,如企业之间数据交易协议、企业之间数据共享协议、数据经纪人主导的流通控制协议等。而一般来说,流通越多、越快,接触到数据的主体就会越多,数据匿名性就会越低。故而匿名化处理需要考虑数据接收者的情况及对后续流通进行一定程度的预估。
要对数据接收者的内部组织情况和数据安全制度可以进行考察。在同一个数据环境下,若向不同的数据使用者发送经过匿名化处理的信息,应当以其中重识别风险最高的数据使用者为基准,以其就现有技术和资源无法识别到匿名信息中特定个人作为匿名化标准。在数据共享和交易合同当中,以明确的条款限制数据接收者对数据的使用、分析和关联,并进行相应监督。在选择将数据进行公开时,要谨遵职业道德、合同约定或行业标准等信息规则的约束,采取限制访问、下载或处理等措施来降低重识别风险,保护用户信息安全。
(3)第三方处理者
相较于普通人,若享有丰富数据资源、掌握先进数据技术且能够使用顶尖设备,对匿名信息再识别的能力当然大幅提升。因此,前述域外相关匿名化制度均对第三方处理者进行考虑。我国法律对匿名化“无法复原”的要求下并没有明确主体,从文义来说,应理解为“任何人采取任何方式在现在或将来的任何时候都不能复原”,然而这十分不现实,匿名化并非绝对,重新识别的风险如影随形,对此理应加以细化。笔者认为可参考ICO提出的有动机入侵者测试,从动机和能力两方面预设第三方处理者。动机方面,将入侵者拟制为主观上有通过匿名信息还原个人信息、识别特定个人的主动性的;在识别能力方面,将入侵者预设为能通过互联网获取信息、学习普遍技术,并能掌握大众化专门破解软件的人。这既吸纳了有动机入侵者测试流程清晰、可操作性强的优点,又符合我国现实情况;限制了识别主体可以合理降低企业匿名化成本、提高其按标准进行匿名化处理的意愿。
2.客体方面
对数据进行匿名化处理,那么客体很明显是数据。而数据的不同则直接影响到对匿名化处理的要求。
(1)数据的体量
若数据太少,那么单独一条信息被区分出来的可能性便更大;而数据太多、类目太过丰富,则将数据关联起来识别特定个人的可能性也会增加。数据体量是匿名化标准制定的重要考虑因素。
(2)数据本身的类别
不同数据本身的关键程度不一而足,正如对于直接标识符和准标识符的区分。而不同数据的“隐私程度”也会不同,正如人们对微信读书书架是否被分享可能不那么在意,但对于恋爱软件上的个人信息可能讳莫如深。上下班考勤记录被公开相比犯罪记录被公开所可能引起的社会负面性评价不能相提并论。人们对不同信息的保密程度的期待性的不同和相关信息被再识别时所遭受的损害后果都决定着该信息需要被匿名化处理、防止被重识别的程度。
(3)匿名化数据的具体用途
不同用途下数据的匿名化处理程度应有不同。若数据并不流通或公布,则匿名化处理的程度可稍微降低。有人主张数据公益价值较高时在匿名化有效性评价上可以不那么严苛,笔者并不赞同。利益不能简单相比,倘若知道可以轻松,便不去寻求她法,一遇问题便牺牲隐私,这样的风气如何要得;通过国家机构将信息面向整个社会进行公布,数据接触面巨大、流通更是不受控制,被重识别的风险难以想象,不有更高的要求怎么能行?笔者认为,虽然出于公共利益考虑,便民公共信息要尽可能公布,但是匿名化有效性评价应当更加严苛,重识别风险观测应更加紧密。
3.技术方面
从上述AOL公司搜索事件可以得出相应教训:需对匿名化技术给予更多关注。AOL公司仅进行数据抑制,去除了直接标识符,但是忽略了对间接标识符的处理。企业应当更加熟悉匿名化技术的作用。法律也应当统一技术标准,对数据匿名化提出合理技术门口,防止企业为了节约成本糊弄了事,或者因不明确标准而四顾茫然。
在技术上还应关注木桶效应,某一指标的畸高对于匿名化效果的整体提升并无助益,任一短板的存在都将导致重新识别的风险剧增,应综合考虑以确立合理标准。
