“YOUR DATA IS CURRENCY. COLLECTIVE DATA IS POWER. ”(你的数据就是金钱。集体数据就是力量。)Reddit Data DAO(r/datadao)公司在官网滚动播放这一响亮的口号。
r/datadao是一个数据去中心化组织,允许用户将Reddit 数据提供给平台 - 用户投票决定如何使用数据,如授权给AI公司用于大模型训练,并从中获得奖励。r/datadao夺回用户数据权益的叙事无疑激动人心,因为它击中了目前数据行业的痛点:个人信息权益和行业需求之间难以平衡。
数据成为石油,但似乎和用户没什么关系
近年生成式人工智能应用的横空出世,让数据的价值越发凸显。大数据、大算力、强算法被称为大模型的三驾马车。2023世界人工智能大会(WAIC)上,《人工智能十大趋势》报告指出“未来一个模型的好坏,20%由算法决定,80%由数据质量决定”。
Garbage in, Garbage out(垃圾进,垃圾出)。数据因此被称为新的石油。
2018年到2022年初从GPT-1到Gopher的精选语言模型的所有数据集的综合视图。未加权大小,以GB为单位。图源:Alan D. Thompson
然而,大模型对数据的旺盛需求,却同个人隐私、数据安全等合法权益间的关系变得紧张。个人信息被大量非法获取并在黑市交易,成为电销、诈骗、精准营销的数据源。
2016年,欧盟出台GDPR(通用数据保护条例),并在二年后开始执行。GDPR赋予了个人对数据较强的控制,设置了包括知情同意、被遗忘权、数据可携权、取用权等等一系列制度。不过对此,有批判者认为:强力监管和严格的惩罚性举措损害了互联网的发展。而在中国,通过网络安全法(2016年通过)、民法典(2020年通过)、数据安全法(2021年通过)、个人信息保护法(2021年通过)等法律,我国也构建起促进数据开发利用和保护个人组织合法权益、及国家安全、发展之间的利益平衡制度。
尽管个人信息权益成为法律上一项人格权,但个人想从数据交易中分一杯羹却依然困难重重。Reddit 2024年2月在IPO招股书中透露:通过与AI公司签订数据授权协议,已实现合计2.03亿美元的收入。但创造数据的用户并不能从中分得一丝一毫。曼昆律师事务所黄律师认为,主要有三点原因:
其一:单个的个人数据基本没有价值,只有“大数据”对于数据处理者才有意义。
其二:个人对数据流通的每个环节都有法定的知情同意程序,复杂和不稳定的授权链,让交易难以进行。
第三:通过理想的“匿名化”处理方案,即个人信息经过处理无法识别特定自然人且不能复原的过程,又会让个人数据失去价值;其他的技术方案如隐私计算仍处在探索阶段。
这样产生的一个局面就是,处理者非常想用个人信息,但得不到庞大用户的充分授权;用户想获益,但没有渠道管理和交易个人信息。这个难题长期困扰政策制定者、学界和产业界。
2022年12月出台的具有重要意义的“数据二十条”,提出了探索由受托者代表个人利益,监督市场主体对个人信息数据进行采集、加工、使用的机制。
目前国内数据交易所中个人数据产品寥寥无几。今年,深圳数据交易所设计了一个个人卫生数据交易产品,一定程度践行了“数据二十条”的理念。基本框架是通过统一的授权服务平台,提高分散化的个人数据授权效率,同时实现个人的收益。
在这场个人和企业对数据的权力/斗争中,数据DAO凭什么认为自己可以帮助用户夺回数据权益?
数据DAO:是什么以及为什么
数据DAO(Decentralized Autonomous Organization)是一种基于区块链技术的去中心化自治组织,旨在通过集体治理机制管理和利用数据资产。它通过智能合约和去中心化存储技术,实现数据的透明、不可篡改和安全管理。数据DAO的核心在于将数据所有权和管理权从传统的集中式平台转移到数据的实际所有者手中,即用户。
目前,已经成型的数据DAO项目为r/datadao,曼昆律师事务所黄律师也将基于该项目的业务模式进行合规分析。
r/datadao的业务模式
数据存储
r/datadao的底层网络是Vana网络,该网络旨在服务数据的去中心化管理和治理,采用了IPFS(InterPlanetary File System)作为其去中心化存储解决方案之一,支持安全存储和高效处理r/datadao等项目的关键数据集。因此,当r/datadao的用户将他们在Reddit上的活动数据(如帖子和评论)上传到平台时,这些数据通过IPFS技术进行去中心化存储,用户拥有数据存储与传输的私钥,进而保证数据的安全性和访问控制。
激励机制
用户通过贡献Reddit数据到r/datadao,可以获得原生代币$RDAT。这些代币不仅代表了对数据的贡献,也允许用户参与到平台的治理决策中。$RDAT的分配基于用户在Reddit上的业力(Karma)值,这是一种衡量用户社区活跃度和贡献的指标。
社区治理
r/datadao实行去中心化治理,意味着所有重要的决策—如数据使用政策、合作伙伴关系和平台升级—都通过持有$RDAT的用户投票来决定。这确保了平台运作的透明性和公平性。
数据使用和盈利模型:
社区成员可以投票决定如何使用汇集的数据。选项可能包括将数据授权给AI公司进行大模型训练,或与其他企业和研究机构进行数据共享。r/datadao通过这种方式能够生成收入,再将收入的一部分以代币的形式分配给数据贡献者。
数据隐私和安全:
尽管用户向r/datadao提交了个人数据,平台通过加密和去中心化技术确保这些数据的隐私和安全性。这意味着数据在未经用户明确授权的情况下,不会被公开或滥用。
可以看出,与“数据二十条”和深圳交易所的方案相比,数据DAO也具有受托管理个人数据的性质,不同的是,用户具备更多自主权,以及数据DAO和区块链技术和代币的深度关系。
数据DAO的意义体现在:
1.通过汇集大量个人数据,可以代理个人提高谈判地位。单个用户不仅持有的数据价值有限,而且在交易中处于弱势易被剥削的地位。WPS就曾在隐私政策中允许平台使用用户文档用于AI训练,引起广泛争议。通过数据DAO,可以提高个人数据的交易价值。
正如r/datadao在官网说的那样:Reddit已经以每年6000万美元的价格出售我们的数据,并预计每年能从我们的数据中获得2亿美元的收入,如果我们团结起来,就可以对抗Reddit,将这些数据自行交易。
2.促进数据合规流通。类似wps这样的AI公司面临对个人数据想用不能用的困难。有时候在激烈竞争之下,采取网络非法爬虫(绕过Robots协议)和霸王授权条款的方式获取数据。这样AI公司极容易面临不正当竞争、知识产权、隐私等方面的指控。而类似r/datadao这样的数据DAO组织将为市场供应更多的合规数据。
ChatGPT回答“openai面临哪些诉讼”
3.打破数据垄断和数据墙。互联网公司通过占据数据构建护城河,长期以来各个平台之间数据不仅不能互联互通,甚至用户也没有数据所有权。近年来,随着反垄断执法的深入,也不过是实现微信直接打开淘宝链接这样的进展。而个人信息保护法规定的个人信息携带权,因无法操作处于未激活状态。数据DAO的出现,可以让互联网公司的个人数据有个新的出口,激活个人信息携带权,还数据于民。
数据DAO的合规运营
代币化的数据DAO,除了面临加密行业都存在的运营地选择、反洗钱、客户身份识别、多法域监管等等合规问题外,还需要特别注意数据合规。
知情同意
数据DAO需要取得个人书面同意,才能收集、存储个人信息。数据DAO应当用显著方式、清晰易懂的语言真实、完整、准确向个人告知处理目的、处理方式、处理信息种类、保存期限、权利行使程序等。
多数投票决定使用的方式,并不能强迫反对者按照投票结果使用其个人信息。
敏感信息和未成年人信息
敏感个人信息是一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息,包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及未成年人的个人信息。
只有在具有特定的目的和充分的必要性,并采取严格保护措施的情形下,个人信息处理者方可处理敏感个人信息。处理未成年人信息,应取得监护人同意,并制定专门的个人信息处理规则。
数据跨境
以中国为例,处理个人信息达到一定数量的个人信息处理者,要将收集和产生的个人信息存储在境内,数据出境需要通过网信办安全评估。
数据安全
通过制定内部管理制度和操作规程、采取相应的加密、去标识化等安全技术措施等管理和技术手段,防止未经授权的访问以及个人信息泄露、篡改、丢失。
根据数据类型、数据使用场景、监管法域的不同,仍有许多规定需要遵守,建议数据DAO寻求律师进一步咨询。
总结
数据DAO帮助用户夺回数据权益的叙事无疑激动人心,去中心的安排似乎确实有助于让数据权利回到用户手中。然而代币化的倾向又让问题变得复杂,面临对代币和数据行业的双重强监管,是不是意味着数据DAO无法取得合法的出生证?无论如何,这是一个可探索的数据交易方向。
另外一方面,国内数据交易所、树图区块链研究院等,已经提出一种完全合规的、以区块链技术构建个人数据交易平台的方案,这种类型的数据DAO,在大规模应用方面相对而言有着更强的政策确定性。
Prev Chapter:收购加密交易所背后,日本巨头索尼在Web3下怎样一盘棋?
Next Chapter:链上数据稳步增长,Dolomite如何为DeFi生态带来新玩法?