欢迎来到安徽润天律师事务所官方网站!
0551-6789 0002
业务研讨
  • 互联网法律研究

    什么是数据匿名化

    润天律师事务所 2024-01-02 0
    图片
    图片


    数字经济发展浪潮之下,数据成为举足轻重的生产要素,它由用户产生却在使用过程中脱离用户控制,大量数据结合起来可能识别个人信息甚至隐私。而近年来,个人信息泄露等案件层出不穷。如何在保护个人信息与隐私的情况下满足数据流通带来经济活力的需要?数据匿名化或为可行方案。


    一、数据匿名化的概念和特征

    数据匿名化,根据《个人信息保护法》第73条,是指“个人信息经过处理无法识别特定自然人且不能复原的过程。”由此可得知数据匿名化的三大特征。


    (一)无法识别特定自然人

    通过匿名化,阻断了相关信息与个人身份的关联,无法识别特定自然人正是匿名化所要达到的直接目的。欧盟《关于匿名化技术的意见》提示“可识别性”可从以下三个维度来判定:1. 是否可挑出(singling out): 是否具有从群体中识别出特定主体的可能性。2. 是否可关联(linkability):即是否通过与其他数据库结合,能识别出来个体身份。3. 是否可推断(infernce):是否能利用已知信息推断出个体的某些信息。目前主流国家对于匿名化的标准要求基本都倾向于采用“合理性”标准,也就是说匿名化应当达到包括数据处理者在内的所有人,尽任何合理可能的方法都无法直接或间接地识别到具体的个人。


    (二)不可逆

    匿名化处理后的个人数据具有不可逆性。在任何情况下,数据控制者、使用者与其他任何人都无法通过自身存储或其他渠道获得的额外信息复原出原始个人信息。


    实际上,随着技术进步、信息增多,匿名化后的数据被重新识别或关联的可能性会增加,不存在一次识别、永久匿名的信息。本文认为,匿名化应当是指匿名化的过程,在过程中使用恰当方法、技术等使得通过数据无法复原、无法完成特定个人的识别或关联的一个动态过程,而非结果上的匿名化。匿名化也不应当一蹴而就,而是应当定期检验重识别可能性,遇有新技术、新方法、新的可关联信息后再次匿名化处理。


    (三)匿名化之后的信息不属于个人信息

    《个人信息保护法》的第四条在定义“个人信息”的时候也明确了:“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。”


    在国家标准《信息安全技术个人信息安全规范》的3.14条也明确了匿名化后的信息不属于个人信息:“匿名化(Anonymization )通过对个人信息的技术处理,使得个人信息主体无法被识别或者关联,且处理后的信息不能被复原的过程。注:个人信息经匿名化处理后所得的信息不属于个人信息。


    ICO(Information Commissioner’s Office)提出了相关匿名化的标准:对于数据控制者来说,匿名化的数据不能够再被识别特定个人。如果对数据进行匿名化处理的机构仍然掌握着恢复该数据身份属性的关键信息、算法,则对于该机构来说,这些数据仍然属于个人数据,仍需要适用个人数据保护法。因为对于该机构而言,其随时可以恢复该数据的身份属性,不属于不能识别的情形。这也值得我们借鉴。


    ▌二、数据匿名化技术

    通过各种匿名化技术,可在满足数据保护的标准与合规需要的同时,保持数据的可用性与商业价值。


    (一)数据脱敏(Data Masking)

    数据脱敏,又称数据漂白、数据去隐私化或数据变形,是指对数据集中的敏感信息进行加密,以便在分析和测试过程中保护原始数据。尤其是数据由多方共享或访问时。比如个人手机号除后四位均用X代替。随机化、替换、扰动(添加随机噪声或变化)都是常见数据脱敏技术。


    (二)泛化(Generalization)

    泛化技术通过降低数据集中所选属性颗粒度,对数据进行更概括、抽象的描述,从而降低敏感信息的可识别性,包括取整、顶层与底层编码等方式。例如,将人的确切年龄显示为年龄范围,如9岁→0-12岁。数据泛化过程中需要注意平衡,不损害数据的有用性。就像一个显微镜,隐藏了更精细的细节,但仍保持了用于分析的高准确性。


    (三)数据置换(Data Swapping)

    这种技术指的是在数据集里更改或互换敏感数据的位置。这既能保护个体信息安全和隐私,又能保持数据的完整性和统计属性。


    (四)数据替换(Data Substitution)

    数据替换涉及到用不同的数据块替换数据集中的数据块。例如,如果你有一个值为香蕉、苹果、梨的数据集,你用橙子来替换苹果。数据替换可以同时保留数据的整体结构和格式。



    (五)数据假名化(Pseudonymization)

    假名化技术,是一种使用假名替换直接标识(或其他准标识符)的技术。例如,当用户在注册时提交姓名“Jane”,则后台数据库可以简单地将其记录为“Person 2468”。


    它相对于其他匿名化技术如数据脱敏有较为明显的缺点。原始个人信息被替换为假标识符或假名,但保留了可以访问原始数据的特定标识符,假名仍然可能与个人的真实身份有直接或间接的关联,因此安全性较低。数据假名化通常被用于要收集并隐藏个人身份,但业务分析中不会用到的场景。比如,在医学研究中,需要模糊病人身份,但是又要以某种形式保留病人身份证明,以便将不同来源的医疗记录联系起来。


    假名化可以与散列、加密等方法结合使用。例如,将姓名或身份证号等数据转换为固定长度的随机字符串,用作原始个人信息的假名。它是原始数据的唯一表示,但不能反向识别或显示原始数据,信息安全性得到提升。


    (六)数据排列(Data Permutation)

    即重新排列数据集中数据的顺序。例如,如果有一个值为1,2,3,4的数据集,通过重新排列,得到看起来像3,1,4,2的数据集。


    (七) K-匿名(K-Anonymity)

    K-匿名模型要求发布的数据中,隐匿或泛化每个人的唯一标识符数据,指定标识符属性值相同的每一等价类至少包含K个记录,使攻击者不能判别出个人信息所属的具体个体,从而保护个人信息安全。操作中会将有类似准标识符(如年龄)的记录分组到一个集群当中,接下来将唯一标识符或值分配给集群,敏感数据被映射到该唯一标识符。因为属性相同,个体就难以被区别开来;而且该准数据符被取代,追踪单个数据个体变得更为困难。


    (八)差分隐私(Differential Privacy)

    差分隐私是一种密码学技术,通过对查询的结果加入噪音,使得实际结果被隐藏或者模糊,难以区分,无法推导出特定个人是否存在。添加到数据中的噪声量由隐私预算参数决定,这种受控噪声基本不会影响数据分析结果的准确性。


    三、数据匿名化的注意事项

    匿名化的目标是避免通过数据识别到特定个人、造成个人信息或个人隐私的泄露,同时保持数据的可用性。所以需要在二者之间适读衡量、保持一个平衡。匿名化程度不能极端化,也不能固定化。匿名化程度越高,当然越安全,但是但数据可用性将变低;不同环境下,数据被重新识别或者与其他信息相关联的可能性是不同的。有必要在匿名化之前,明确数据的适用场景、使用目的等,合理确定匿名化标准,采用不同的匿名化技术。考虑合理且可能穷举的所有手段来确定可识别性,例如数据控制者是否能单独识别个体,识别的成本和所需的时间,同时考虑当时的技术水平等因素。


    在匿名化之后应进行验证,反向检验匿名化是否达到要求,检测重新识别的风险,以及数据的有用性是否符合预设目标。实际上,不存在完全无法复原的匿名化信息。随着时间的发展和技术的进步,数据被重新识别的可能性会增加,有必要持续跟进,监控匿名化效果,根据情况变化或者定期进行重识别风险的评估。


    作者:曾蓉



    Top