环境健康研究的参与者很容易被重新识别|世界观速讯

2023-02-14 19:08:11 来源: 互联网

马萨诸塞州牛顿(2020年1月13日)——在分享人类研究数据之前,科学家们通常会剥离他们的个人信息,如姓名、地址和生日,以保护研究参与者的隐私。然而,沉默的春天研究所的研究人员和他们的同事在《环境健康观点》杂志上的报告表明,这可能不足以进行环境健康研究,有时甚至匿名数据可以追溯到个人。

这项新研究强调了保护人类研究参与者的必要性。这也对美国环境保护署(EPA)提出的联邦法规产生了影响,该法规要求科学家披露他们的数据,以便他们的研究可以作为环境法规的依据。


(资料图片)

03010的首席科学家凯瑟琳博罗诺说:“研究人员承诺保护研究参与者的隐私,这是几乎所有涉及人的科学研究的做法。”“我们的研究表明,即使删除了明显的标识符,也可以从环境健康研究中公开获得数据,这可能会违反这些承诺。”

在之前的研究中,《寂静的春天》的研究人员进行了一项实验,在实验中,他们与一组采用重新识别技术的哈佛研究人员分享了该研究所在加州的家庭接触研究的匿名数据。通过将研究中的住房和人口数据与公开可用的数据(如税务评估人员的记录)相关联,并使用研究中描述的其他信息(如住房开发的位置和室内空气污染物的测量水平),该团队成功地从一个住房开发中按姓名确定了25%的参与者。

现在,在这项最新调查中,研究人员表明,重新识别的漏洞是环境健康数据的一个常见方面。他们回顾了12项环境健康研究,确定了5种不同类型的数据(位置、医学、遗传学、职业和住房),这些数据与外部数据库重叠,可能导致重新识别的风险。

研究人员发现,所有12项研究都包括了五种数据类型中的至少两种,而三项研究包括了所有五种。博罗诺说:“拥有多种数据类型为某人将研究数据与现有的商业或公共数据库进行匹配提供了更多机会。

或者人体或家庭中污染物的测量也是许多环境健康研究的特征数据类型。然而,目前只有这些测量不容易受到数据链的影响,因为很少有包含化学测量的数据库可用于匹配。

为了探索使用化学品暴露数据进行重新识别的另一种方法,该团队使用了加州和马萨诸塞州寂静之泉进行的家庭暴露研究和波士顿和辛辛那提疾病控制中心进行的绿色住房研究的数据进行聚类分析。他们将原始化学测量结果提供给一个算法,该算法将每项研究中的数据分为两组。该算法创建的群组对应地理位置,准确率为80%到98%。

Boronow表示,如果按照位置对数据进行分组,则每组数据都可以与缩小到该位置的数据进行匹配,这使得重新识别攻击更有可能产生正确的匹配。这说明即使研究数据是共享的,即使排除了一个人的特征,也可以用化学数据来推断一个人的特征。

数据共享有很多好处。通过汇总数据,研究人员可以创建更大、更多样的数据集,这可能会导致知识的进步。它还可以使研究人员获得困难或昂贵的数据,例如从环境灾难后的生物或环境样本中收集的数据。然而,新的研究表明,它也有风险。

该研究的合著者、《寂静的春天》(寂静的春天)执行董事Julia Brody博士表示,隐私风险的影响并非微不足道。隐私的丧失可能会给个人和社区带来耻辱。它可能会影响财产、保险或个人就业机会的价值。这也可能破坏对研究的信任。

标签: 研究人员 数据类型 寂静的春天 马萨诸塞

[责任编辑:]

最近更新