首页 > 法律法规 >

数据表征的法律治理与技术治理

2023-07-27 18:22:15 来源:法治日报·法治周末

智道

栏目主持人:於兴中

随着“表征可能属于个人信息”开始受到正视,许多个人信息处理者需要补上大量合规工作


(资料图片仅供参考)

将数据输入模型,就得到了模型输出的结果。输入和输出之间发生的繁杂环节常常不受重视。随着模型的治理,特别是先进的大模型的治理问题越来越重要,其间的这些环节也越来越重要。法律上需要界定这些环节的性质,技术上需要确保这些环节安全可控。

数据表征正是值得关注的环节之一。通过表征这个环节,数据转化为计算机能够理解、模型容易处理的形式。或者说,表征之前,数据是人能够直观理解的形式;表征以后,则是只有机器才能理解的形式。由此,表征是法律所面临的“黑箱”问题的起点,也是技术上的枢要环节。

何谓数据表征

对法律领域来说,数据表征可谓是个“熟悉的陌生人”。一方面,表征是个技术色彩很强的概念,对于这一概念难免存在隔膜的陌生感;另一方面,既有的一些法律概念,实际是表征的特殊情形。

文本当然是人能够直观理解的数据,法学论文和法律意见都是这样的数据。不过,这样的数据并不适合机器的理解。文本需要经过表征以后才能适合机器的理解。如何将文本转换为数据表征呢?可以做比较简单的表征,比如,把文本中的每个词都对应到一个数据。也可以做更加复杂的表征,比如,常用的文本嵌入——嵌入也是一种表征,就是将单词和上下文信息共同转化为无法直观理解的数据。

根据欧盟《通用数据保护条例》,“画像”可以大致定义为通过自动化形式对人开展评价。相关指南进一步指出画像通常包括“一系列的统计化约”,这实际就是表征的过程。此外,人脸识别中的特征提取也是表征的特殊情形。英国、澳大利亚、加拿大在查处Clearview AI(一家成立于2016年的人脸识别公司)系列案件时,还指出向量也是数据的“一种数学表征”。总之,画像、特征、标签、向量、嵌入等既有概念,归根究底都是数据表征。

数据表征的法律治理

数据表征以及画像、特征、标签等概念主要关系到两个领域的法律问题。一是个人信息保护,二是数据流通利用。个人信息保护的根本问题是数据表征是否属于、何时属于个人信息。数据流通利用的根本问题是数据权益是否适于、如何适于数据表征。这两个问题对实践都很重要。

由于数据表征不能为人所直观理解,很长一段时间内,表征实际上没有纳入个人信息保护法律的适用范围。但改变正在发生。世界各地都出现了数据表征的个人信息保护案例。质言之,如果表征系由个人信息转化而来,其内容蕴含了个人信息,其处理目的通常与个人有关,其处理可能影响个人权益。

除此以外,通过精巧的技术攻击,依然有可能从表征出发重新识别个人。这些都挑战了既往的结论。随着“表征可能属于个人信息”开始受到正视,许多个人信息处理者需要补上大量合规工作。

同样是由于数据表征难以为人所理解,在很长的一段时间内,表征实际上没有进入数据权益相关讨论的视野范围。讨论数据权益而忽视数据表征,无异于舍其里而取其表。

对于有待自动化、智能化处理的数据而言,经过表征才能高效处理、发挥价值。也就是说,表征才是数据经济价值的凝结。

无论是所谓持有权,还是使用权或经营权,表征都是隐蔽的“主战场”。数据流通过程中主体是否有权持有表征,是否有权将他人数据转化为自有的表征,以及是否有权通过经营表征产生收益,都是直接影响数据经济发展的紧要问题。

数据表征的技术治理

难以理解、难以治理是数据表征鲜有注意、疑难丛生的根源。如果技术发展能够缓解数据表征难以理解、难以治理的问题,不仅能够促进法律层面对数据表征的理解,也有助于回应个人信息保护和数据要素流通的法律难题。向量数据库是这样的技术发展——如前所述,向量归根究底就是表征。

向量数据库是最近一年来迅速发展的新兴技术,其进步很快、变体很多,但对法律最有用的可以总结为四点。一是实现数据表征的统一存储。二是包含有助于理解表征的元数据。或者说,包含表征来源、表征方式、上游授权、下游使用等表征的“身份信息”。三是挖掘数据表征之间的相似性。或者说,能够清晰地检索和展示哪些数据表征之间存在紧密的关联。四是如有需要,能够统一、准确地删除特定的数据表征及其相关的其他表征。尽管单个表征依然不易理解,整体上已然能够有效地治理。

向量数据库的这些特点,有的放矢地回应了个人信息和数据要素面临的法律难题。不妨假设许多数据表征属于个人信息,如果处理者已经实施向量数据库,补上表征的个人信息保护合规也就没有那么困难。取得合法性基础、协助主体行使权利、采取组织和技术的保护措施,等等,都能够以相对常规的方式来实现。如果数据要素流通各方实施了互操作的向量数据库,彼此商议和监督数据合同的履行都会变得更加容易。如果互操作的程度足够,甚至可以通过高度自动的智能合约来履行。

数据表征是连接数据和模型的桥梁,是数据经济当中不引人注意的“机枢”。很多既有的法律概念归根结底都是表征,表征也造成了个人信息和数据要素领域的法律疑难。通过法律治理和技术治理的携手并进,特别是通过向量数据库的可喜进展反哺法律治理,这些疑难有望得到显著的纾解。从更普遍的视角来看,数据表征只是一个缩影。数据和模型之间更多的环节正在接受法律和技术的有效治理。在这一过程中,技术不断地纳入法治的轨道,法律的视阈也和技术不断交融。

(作者系同济大学法学院助理教授、上海人工智能社会治理协同创新研究中心助理研究员)

标签:
延伸阅读:

最近更新

15037178970

保险法

医疗事故