欢迎来到安徽润天律师事务所官方网站!
0551-6789 0002
业务研讨
  • 互联网法律研究

    算法技术的法律规制与应用

    润天律师事务所 2023-11-30 0

    图片

    算法技术的法律规制与应用


    算法是计算机科学中的一个非常重要的概念。以色列历史学家尤瓦尔·赫拉利在《未来简史:从智人到智神》一书中指出:“生物本身就是算法,生命是不断处理数据的过程;意识与智能的分离,拥有大数据积累的外部环境将比我们自己更了解自己;在未来,算法和数据将统治世界”。


    相信我们法律人,会经常听到算法这两个字,但可能并不清楚到底什么是算法,也不清楚算法的作用是什么。本文将从算法的概念,法律工作中常见的算法种类,算法常涉及的法律问题三个方面进行介绍。


    一、什么是算法

    图片


    JIS(日本工业标准),对算法的定义是“被明确定义的有限个规则的集合,用于根据有限的步骤解决问题。例如在既定的精度下,把求解sinx的计算步骤无一遗漏地记录下来的文字”。


    《算法导论》一书中对算法做出了如下解释:“任何定义明确的计算步骤都可称为算法,接受一个或一组值为输入,输出一个或一组值。”


    用通俗的语言来说,算法就是“把解决问题的步骤无一遗漏地用文字或图表示出来”。要是把这里的“用文字或图表示”替换为“用编程语言表达”,算法就变成了程序,也就是我们通常所听到“算法”。


    值得注意的是,计算机本身不会自主思考,所以算法的步骤必须是明确的,并且步骤数必须是有限的。也就是说,在计算机科学中需要具备一定条件或者说特性才称得上严格意义上的算法,其中最重要的特性包括两点:


    1.有穷性:执行有限步骤后,算法必须中止,不能无限循环下去。

    2.确定性:算法的每个步骤都必须确切定义,不能够出现一个步骤中包含两种不确定的选择或者方案。


    下面我们以“求出18和42的最大公约数”这个问题为例,让大家感受一下简单的算法是什么样子。


    最大公约数是指两个整数的公共约数(能整除被除数的数)中最大的数,比如15和9的最大公约数是3,15和10的最大公约数是5。最大公约数的求解方法应该在中小学的数学课上学过:先把两个数写在一排,不断地寻找能够同时整除这两个整数的除数,最后把这些除数相乘就得到了最大公约数。

    图片


    用这个方法求出了6是最大公约数,结果无疑是正确的,但是这些步骤不能被称为算法。因为它的步骤并不够明确,为什么第一步要除以2,第二步要除以3?这些其实都是我们凭借人类的“直觉”作出的判断,在解决问题的过程中,一旦出现了与直觉相关的因素,就不再是算法了。


    因为计算机不能自发地思考,所以计算机所执行的算法必须是由机械的步骤构成的。所谓“机械的步骤”,就是指只要“无脑”地按照这个步骤做就一定能完成的意思。


    众多的学者和前辈程序员们已经发明创造出了很多机械地解决问题的步骤,被称为“典型算法”。


    “辗转相除法”(又称“欧几里得算法”)就是一个机械地求解最大公约数问题的算法。用两个数中较大的数减去较小的数,反复进行上述步骤,直到两个数的值相等,最终这个相同的数就是最大公约数。


    使用辗转相除法求解18和42的最大公约数的程序代码如下图所示。

    图片


    对同一个问题,不同的算法运算速度有快有慢,存在优劣之分。


    以判定素数为例,素数指的是素数是只能被1和自己整除的正整数,比如7只能被1和7整除,7是素数;9还能被3整除,9就不是素数。面对“判定11111是否是素数”这一问题,在判定素数的典型算法中,有一个被称为“埃拉托斯特尼筛法”的算法。这个算法名字看着很厉害,但实际方法却非常简单粗暴,就是以2~11110之间的每个数除以11111,看看有没有整除的,共需计算11109次。


    但是解决一个问题的算法未必只有一种。在考量用于解决同一个问题的多种算法的优劣时,执行时间较短的算法更为优秀。


    有时稍微往算法中加入一些技巧,就能大幅度地缩短处理时间。比如上面那个算素数的命令,原先的过程是用待判定的数除以比它小的所有正整数,如果改成用待判定的数除以比它的1/2 小的所有正整数,只需要计算5554次,处理时间就会缩短一半。


    以上就是算法的概念,现实中无论是多复杂、高级的算法,本质上都是一样的逻辑。


    二、常见的算法

    图片


    (一)哈希算法


    1.什么是哈希算法


    从计算机科学的角度来说,哈希算法是一种将任意大小的数据映射到固定大小的固定长度散列值(哈希值)的算法。哈希函数的主要目标是将数据快速且一致地转换为固定长度的字符串,通常是一串数字和字母。简单理解,哈希算法就是把长的信息变成可以与之唯一相对应的短信息,并且这种转变只能单向地从长到短,反过来短信息想还原成长信息则不能实现。


    哈希值通常具有以下特性:


    (1)固定长度:无论输入数据的大小,哈希函数都会生成一个具有固定长度的哈希值。


    (2)一致性:相同的输入始终产生相同的哈希值。


    (3)散列分布:输入的微小变化会导致输出的巨大变化,且哈希值分布均匀,避免冲突。


    (4)不可逆性:通常来说,从哈希值无法反向推导出原始输入数据。


    哈希算法广泛应用于密码学、数据完整性验证、数据索引、散列表等领域。常见的哈希算法包括32位的MD5、SHA-1,64位的SHA-256等。然而,由于技术的发展,一些早期的哈希算法,特别是MD5和SHA-1,已经被证明存在一些安全性问题,因此在安全敏感的场景中,更常使用较为安全的哈希算法,如SHA-256或SHA-3。


    从电子数据的角度来说,哈希值有两个特点:


    第一个特点是无论数据多大,都可以计算出一个哈希值。无论是一个几十KB的文本文档,还是几十MB的图片、音频,或者是几十GB的电影,都可以算出一个哈希值,也就是完整性校验值,或者叫同一性校验值。


    哈希值就像是电子数据的DNA,与我们每一个人都有自己独特的指纹一样,哈希值是电子数据身份检验最重要的标准之一。简而言之,无论一个电子数据多大、多小,多高、多矮,多胖、多瘦,我们都可以计算出它的DNA。


    第二个特点是如果电子数据的内容稍有改动,都会导致哈希值的显著变化。


    2.电子数据的同一性、完整性校验


    哈希算法的这些特点首先可以被用来检验多个信息是不是相同的。


    正常情况下,我们需要比对两个文件的全部内容才能确认其一致性。如果文件是文本文档还比较好比对,但如果是PDF文件或者是图片、音频、视频,直接对比就非常费时费力。上帝给我们关上了一扇门,往往同时还会打开一扇窗,这时候我们可以通过对比哈希值轻松解决。


    比如甲和乙签订了一个合同,合同条款非常多,甲先把合同初稿发给乙确认,乙又发回来一个合同版本,还说:“一个字没改,就按这个版本来。”这时候甲怎样确定发回来的版本跟自己发过去的版本是一致的呢?首先,甲可以直接比对两个文件,但可能比较费时费力。还有一种方法就是对比两份文件的哈希值,因为哈希值可以反映出原文所做的任何一点小小的改变。


    哈希值的变化比我们想象中敏感,即使文件只有一些微小的改动,哈希值却往往会发生天翻地覆的变化,而不是仅仅变化一点点。比如以下两张图片,图二仅仅是比图一多了一个小白点,哈希值却迥然不同,几乎每一位数字都不一样。


    图片


    刑事诉讼活动中,相关法律法规也作出了关于保证电子数据的完整性和同一性的规定。


    《公安机关办理刑事案件电子数据取证规则》

    第十九条 现场提取电子数据,应当制作《电子数据现场提取笔录》,注明电子数据的来源、事由和目的、对象、提取电子数据的时间、地点、方法、过程、不能扣押原始存储介质的原因、原始存储介质的存放地点,并附《电子数据提取固定清单》,注明类别、文件格式、完整性校验值等,由侦查人员、电子数据持有人(提供人)签名或者盖章;电子数据持有人(提供人)无法签名或者拒绝签名的,应当在笔录中注明,由见证人签名或者盖章。


    《关于电子数据收集提取判断的规定》

    第五条 对作为证据使用的电子数据,应当采取以下一种或者几种方法保护电子数据的完整性:

    (二)计算电子教据完整性校验值;


    3.保护信息安全


    利用哈希值还可以在一定程度上确保信息安全。比如,我现在想对于一个比较重要的私密证据进行存证,以便未来产生纠纷、发生诉讼时进行有效地举证。但是如果我把私密证据直接交给存证机构,首先他们可以掌握这个证据,其次也或多或少存在泄露的风险。这个时候,我也可以选择不直接对数据原文进行存证,而是先在本地进行哈希运算,再将产生的哈希值进行存证。样既能满足存证的目的,也可以避免存证机构掌握这些信息,保证信息安全。


    (二)推荐算法


    关于推荐算法有个最著名的例子:一位美国男子愤怒地质问一家超市为什么向他上高中的女儿邮寄孕妇试用品。但仅仅过了一周,这位父亲主动向超市道歉了,因为他女儿真的怀孕了。


    原来这家超市通过分析发现:很多女性消费者在怀孕后,会去购买无香味护手霜、复合维生素和钙片,而上文中这个女孩就正在购买这些东西。所以超市通过进行数据分析,能够比较准确预测女顾客的怀孕情况,并开始邮寄相关商品广告单。实际上,超市根据分析模型进行推荐,依托的就是一套推荐算法。


    推荐算法是一类用于预测用户可能喜欢的物品或内容的算法。它广泛应用于电子商务、社交媒体、在线视频平台等领域。以下是两种常见的推荐算法:


    1.协同过滤:

    基于用户的协同过滤:这种算法通过比较用户之间的相似性,为目标用户推荐其他相似用户喜欢的物品。例如,如果用户A和用户B喜欢相似的电影,那么可以通过基于用户的协同过滤向用户A推荐用户B喜欢的其他电影。


    基于物品的协同过滤:这种算法通过比较物品之间的相似性,为用户推荐与其已经喜欢的物品相似的其他物品。例如,在电商网站上,如果用户购买了某一款手机,基于物品的协同过滤可以推荐与该手机相似的其他产品。


    2.内容过滤:

    基于物品的内容过滤:这种算法使用物品的属性和描述信息,根据用户以前喜欢的物品的属性,为用户推荐相似的其他物品。例如,在音乐推荐中,如果用户喜欢摇滚乐,基于内容的过滤可以推荐其他摇滚风格的音乐。

    基于用户的内容过滤:这种算法通过分析用户的属性和偏好,为其推荐具有相似特征的物品。例如,在新闻推荐中,通过了解用户的阅读历史和兴趣,可以为用户推荐符合其兴趣领域的新闻报道。


    它们可以根据用户行为、物品属性或用户属性进行推荐,从而提供个性化的推荐服务。实际上,很多现代推荐系统会综合运用多种算法,形成混合推荐,并在运算中不断地修正、更新,以提高准确性和用户满意度。


    如今我们登录一些自己习惯使用的购物网站时,看到的页面都是根据自己过往的行为记录而个性化呈现出来的,每个人往往看到的页面结果都不一样,这就是推荐算法带来的局面。


    三、算法相关的法律问题

    图片


    (一)推荐算法的限制使用


    《中华人民共和国电子商务法》

    第十八条 电子商务经营者根据消费者的兴趣爱好、消费习惯等特征向其提供商品或者服务的搜索结果的,应当同时向该消费者提供不针对其个人特征的选项,尊重和平等保护消费者合法权益。

    电子商务经营者向消费者发送广告的,应当遵守《中华人民共和国广告法》的有关规定。


    从《电子商务法》的规定可以看出,法律强制要求精准推荐算法需要同时至少提供另外一个不精准推荐的选项让用户自己决定。


    这一条款在实务中会面临两个问题。第一是不精准推荐的标准是什么,这个标准又是否被执行到位了?


    第二个问题跟“大数据杀熟”有关,商家有没有权利借助精准推荐算法对用户实行差别定价?前段时间有个热帖,说可以通过淘宝搜索出的内容判断自己是不是穷人:去淘宝APP搜索连衣裙,如果出来的裙子都在128元以下,就说明算法觉得你是个穷人。再比如商家的大数据识别出一位用户经常购买高端电子产品的趋势。为了提高对该用户的销售,该平台可能会进行个性化定价,针对该用户显示相对较高的原价,然后通过折扣、促销等手段降低价格,使用户感觉获得了特别的优惠。或者进行定向推荐,将与高端电子产品相关的其他产品推荐给用户,以促使其进行更多的购物。


    (二)侵犯隐私权问题


    在推荐算法的背后,通常需要收集、分析用户的个人数据,以提供个性化的推荐服务,这难免会涉及隐私权问题。


    (2014)宁民终字第5028号北京百度网讯科技有限公司与朱某隐私权纠纷一案中,朱某发现自己用某度搜索“减肥”“丰胸”“人工流产”等关键词,并浏览相关的内容后,自己的浏览器上就开始被推送相关内容的广告。朱某认为百度网讯公司利用网络技术,未经其的知情和选择,记录和跟踪了其所搜索的关键词,将其的兴趣爱好、生活学习工作特点等显露在相关网站上,并利用记录的关键词,对其浏览的网页进行广告投放,侵害了其隐私权,于是将百度网讯公司诉至法院。


    一审法院认为,朱某的网络活动踪迹属于个人隐私的范围,百度网讯公司在使用cookie技术的同时,收集了朱某的网上活动轨迹,并根据朱某的上网信息在百度网讯公司的合作网站上展示与朱某上网信息有一定关联的推广内容,进一步利用了他人隐私进行商业活动,且该利用并非cookie技术使用的必然结果,已经构成侵犯他人的隐私权。


    但是二审中,南京市中级人民法院认为,首先,百度网讯公司在提供个性化推荐服务中运用网络技术收集、利用的是未能与网络用户个人身份对应识别的数据信息,该数据信息的匿名化特征不符合“个人信息”的可识别性要求。其次,百度网讯公司利用网络技术向朱某使用的浏览器提供个性化推荐服务不属于《电信和互联网用户个人信息保护规定》第十二条规定的侵权行为;最后,百度网讯公司利用网络技术对朱某提供个性化推荐服务并未侵犯网络用户的选择权和知情权。因此,二审法院认定百度网讯公司的个性化推荐行为不构成侵犯朱某的隐私权,并撤销了一审判决。


    总体而言,未来平衡推荐算法的个性化服务与用户隐私权的保护是一个持续挑战,需要从技术、法律法规和伦理等多方面进行综合考量。


    (三)侵犯信息网络传播权问题


    2021年长短视频产业爆发大战。许多短视频平台因为用户的切片搬运获得了大量原本属于长视频流量。同时,一些短视频平台利用算法不断向用户推送与同一长视频相关的片段内容,导致长视频的价值被快速榨取,并由此引发了多个长视频权利人对短视频平台提起的诉讼。


    《延禧攻略》案被称为全国首例因算法推荐被判决侵权的案例。北京爱奇艺科技有限公司认为北京字节跳动科技有限公司运营的今日头条App,利用算法推荐技术,将用户上传的截取自《延禧攻略》的短视频向公众传播并推荐,播放量极高,侵害了爱奇艺公司享有的信息网络传播权,起诉至北京市海淀区人民法院,要求字节公司赔偿经济损失及合理开支共计3000万元。


    一审法院认定被告字节跳动具有充分的条件、能力和合理的理由知道其众多今日头条用户大量地实施了涉案侵权行为,属于法律所规定的应当知道情形。字节跳动在本案中所采取的相关措施,尚未达到“必要”程度,其不仅仅是信息存储空间服务,而且同时提供了信息流推荐服务,理应对用户的侵权行为负有更高的注意义务。最终,法院认定字节跳动的涉案行为构成帮助侵权。


    本案在业界内外都引起了广泛讨论,字节跳动的行为是否构成帮助侵权的问题目前尚无定论。但伴随着算法的使用,未来各视频平台无疑需要更加重视自身的注意义务。


    (四)证据同一性、完整性


    在山东省某传销案件中,侦查机关的网警向阿里云发送调取证据通知书,之后阿里云的工作人员寄回一个光盘,光盘中有两个压缩文件,是传销的数据库。对该数据进行专业分析可以知道传销组织的层级、会员数量、涉案金额等信息。最终对数据的鉴定结果是涉案金额是26亿元,传销组织有100多个层级。


    按法律、司法解释规定的流程,办案人员在收到阿里云寄来的数据文件后,应该算一次MD5值。如果算出来和阿里云给的MD5值是一样的,就能保证这个数据在过程中没有增删改。同样,鉴定机构拿到检材后,在进行鉴定之前也应该再算一次MD5值。如果和前两轮的MD5值也都一样,就证明被鉴定的数据是没被篡改的。


    本案中,《司法鉴定意见书》中对鉴定检材的描述为:“装有Z市公安局于2015年6月11日调取阿里云计算有限公司提取的IP地址为119.178.226.244的阿里云服务器的文件的硬盘一块,在硬盘内的‘Z区8.09组织、领导传销活动’文件内有两个压缩文件:D.rar,MD5:966C248A3F32CECFD5EDC9614F20B987;E.rar,MD5:D0819C91FA26E07B5EF8780F2A30754B(摘自鉴定委托书)”。


    《鉴定意见书》中明确说MD5值是“摘自鉴定委托书”。这就说明鉴定机构在鉴定前可能没有对检材进行验证,或者更准确地表述为现有证据不能证明鉴定机关对作为检材的电子数据的MD5值进行过验证和比对,无法确保鉴定检材的来源合法。因此,最后这份鉴定意见就被打掉了,没有作为定案依据,判决中该被告的刑期也几乎下降了一半。


    (五)算法是否合理


    在案件办理过程中,有时候会遇到那种电子数据很多的案子。比如开设赌场罪,可能聊天记录有上千万,上亿字,靠人力一个字一个字看,明显是不太现实的。这时候往往会用算法对数据进行检索,把检索出来的内容筛选后作为证据举证,这也就是所谓的大数据证据,一种基于统计学的分析。


    那么检索设置的特征、采用的算法是否合理,直接关系到检索出来的内容是否具有相关性。


    比如在某涉嫌开设赌场罪的刑事案件中,涉案人员使用的是一个涉赌APP,里面有很多群组。侦查机关以“房”+“台”+“水”+“赢”+“输”五个关键字+“群内转账金额超5万元”进行检索,再把检索出来的金额作为开设赌场罪的涉案金额。简而言之,办案机关检索哪些群里有这5个字,同时群内的转账的金额超过5万元,就认定这个群就是赌博群。


    大数据分析要先确定特征,建立一个模型,然后在这个海量的数据里检索到相应的数据,最后得出结论。决定大数据检索结果是否正确的关键,是算法的逻辑是否周延和正确。


    本案鉴定机构认定赌博群的算法就是依据两个特征:“房、台、水、赢、输”+转账金额超5万元。这样检索得出的结论显然是有问题的,骑白马的不一定是王子,也可能是唐僧。后来办案机关也指出,这种检索认定方式来自本案一位被告人的口供。这位被告人是涉案组织中的一名底层员工,他在讯问中供述如果有以上五个字,并且转账金额超5万元,就是一个赌博群。这种检索认定的方式明显有些草率,也经不起推敲。


    此外,本案不光是检索设置的特征不足以得出准确结论,该检索算法的编写也存在问题。设计算法的人要求的是同时包含“房、台、水、赢、输”5个字,再加上转账金额5万元以上。但是程序员撰写代码时,前面几个关键字之间用的是竖杠,也就是“或”的意思。实际的算法变成了只要包含“房、台、水、赢、输”其中的一个字,再加上转账金额5万元以上,就成了赌博群。这种算法撰写错误无疑也大大增加了涉案的金额。


    因此,在我们办理案件的过程中,一定要注意对于这种大数据检索算法的审查。







    作者介绍

    图片

    王 旋

    专职律师 高级企业合规师

    133-3915-8238



    Top