研究表明,需要制定明确的指导方针,以确保合成数据的透明度、问责制和公平性

科技
0 122

一项新研究指出,应建立明确的准则来生成和处理合成数据,以确保透明度、问责制和公平性。合成数据是通过机器学习算法从原始真实世界数据生成的,因为提供了隐私保护的替代传统数据来源,因此备受关注。它在实际数据过于敏感且不宜共享、稀缺或质量较低的情况下尤其有用。

合成数据与真实世界数据不同,因为它是由称为合成数据生成器的算法模型生成的,例如生成对抗网络或贝叶斯网络。然而,现有的数据保护法律只适用于个人数据,无法很好地规范所有类型的合成数据处理。

例如,《通用数据保护条例》(GDPR)仅适用于个人数据的处理。GDPR对个人数据的定义包括“任何涉及已识别或可识别自然人的信息”。然而,并非所有合成数据集都是完全人工制造的—一些可能包含个人信息或存在重新识别的风险。在原则上,完全合成数据集豁免于GDPR规定,除非存在重新识别的可能性。

目前尚不清楚什么程度的重新识别风险足以触发适用于完全合成数据处理的规定。这种法律上的不确定性和对这类数据处理的实际困难。

该研究由埃克塞特大学的Ana Beduschi教授发表在《大数据与社会》杂志上。研究指出,应明确规定追究那些负责生成和处理合成数据的程序。应确保合成数据不会以使个人和社会产生不利影响的方式生成和使用,如延续现有偏见或创造新的偏见。

Beduschi教授说:“应建立所有类型合成数据的明确准则。应优先考虑透明度、问责制和公平性。有这样的准则尤为重要,因为生成式人工智能和高级语言模型,如DALL-E 3和GPT-4——两者都可以接受训练和生成合成数据——可能促进误导信息的传播并对社会造成不利影响。遵守这些原则可以帮助减轻潜在危害并鼓励负责任的创新。”

因此,合成数据应明确标记,并提供有关其生成的信息给用户。

0 收藏 分享 举报
  • «
  • »