加入收藏 | 设为首页 | 会员中心 | 我要投稿 烟台站长网 (https://www.0535zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

写一个高逼格可视化“圆环

发布时间:2021-02-11 13:46:40 所属栏目:动态 来源:互联网
导读:数据匿名的bug 那么,常见的数据匿名方式有哪些?广义上可以分为两类:一是扰动方式,即让原始数据值失真,如数据屏蔽脱敏、噪声添加等,二是非扰动方式,即使数据集不完整,通过按照在记录个体层面维持数据真实性的方式改变在净化数据集中报告数据值的粒度来

数据匿名的“bug”

那么,常见的数据匿名方式有哪些?广义上可以分为两类:一是扰动方式,即让原始数据值失真,如数据屏蔽脱敏、噪声添加等,二是非扰动方式,即使数据集不完整,通过按照在记录个体层面维持数据真实性的方式改变在净化数据集中报告数据值的粒度来工作,如数据抑制和数据泛化。前文提到的k-anonymity匿名模型则是非扰动的一种重要方法。它要求发布的数据中存在一定数量(至少为k) 的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。

数据匿名一直在发展,问题也逐渐显露。所谓,“道高一尺魔高一丈”,匿名化一一定程度上保护了隐私,但“有心人”依旧可以从匿名数据中进行身份确认。

2016年,一位德国研究员在曾第33届Chaos Computer Club会议上公布了自己的研究成果:尽管是已经匿名化的点击流,也可以顺藤摸瓜找到用户清晰画像,数量少于十个的不同域名就足以让你暴露。披着匿名的外衣,这些数据被称为“Dark Data”,是非常容易滋生邪恶的新孕育地。

此外,去年,英国Nature Communications杂志发表的一项研究表示,英国科学家利用一种新开发的统计方法发现,一个人的身份可以从一个不完整的匿名化数据库中被识别出来。研究人员开发了一个机器学习模型,使用邮编、性别、出生日期三个信息,有81%的概率可以在“匿名”数据集中准确地追踪到某一个人。

事实证明,数据匿名方法不仅面临自身技术迭代更新的压力,也有新技术不断带来的冲击,如人工智能相关算法可能利用零星数据可以训练出较为精准的用户画像。

基于差分隐私的方案

道阻且长,行之将至。目前法律、市场、技术各方面都为数据匿名做好了一定的基础建设,接下来则是需要更多的投入与更新。首先,从此那个参与角色的角度来看,依旧需要政府组织牵头,从法律层面为整个业态施加强行规范化的压力,企业则需要更多资源投入匿名化建设,而个人则需从日常细节上提升网络隐私意识,如有意识地使用匿名化浏览器、及时清理清除cookie和Web数据等,

另外,则是来自技术角度的迭代更新,针对安全性不足的数据匿名现状,已经出现了基于差分隐私的数据匿名化隐私保护模型研究。差分隐私(differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。
 

最为代表的则是令互联网企业心有余悸的GDPR。2018年正式实行的GDPR,将个人数据的保护力度提至前所未有的高度,亦对数据处理企业等主体施加了甚为严苛的保护义务和法律责任。其中,有一条,GDPR提到:控制者在确定处理方式和处理过程中,应当采取适当技术和组织措施,诸如假名化(pseudonymisation)处理,将额外数据与个人数据分别保存,除非使用额外数据,否则个人数据无法指向特定数据主体。

显然,GDPR白纸黑字地将个人数据的保护上升到法律层面,这已经将此前数据使用过程中涉及的大部分暧昧地带清晰化。此外,真正具有威慑力的是其“残忍”的惩罚力度。众所周知,如果科技巨头越雷池一步, GDPR是真的会开出开天价罚单。

最有意思的案例即是,GDPR开始生效的第一天就“开门红”,一下起诉了两大科技巨头:Facebook和谷歌。两家公司被指控强迫用户同意共享个人数据,且分别面临39亿欧元和37亿欧元(共计约88亿美元)的罚款风险。

当然除了GDPR,各政府都相继出台了相关严厉的个人数据保护法。如英国更新了数据保护法案,加上了个人数据的重视力度,中国也出台了数据安全法草案,明确了保护责任。,FTC在2012年发布的隐私保护指南中更是扩大了个人数据的边界,突破了传统定义中的与具体的自然人相关联,扩展到了用户所使用设备标识等。

在这样的背景下,对于企业来说,天价罚单是割肉之痛,政府的监管是不可逾越的红线,此外,用户隐私保护意识的觉醒也是不可推辞的需求。

GDPR在对匿名化的界定中也提到:“匿名化是指将个人数据移除可识别个人信息的部分,并且通过这一方法,数据主体不会再被识别。匿名化数据不属于个人数据,因此无须适用条例的相关要求,机构可以自由的处理匿名化数据”。

数据匿名则成为了许多企业或者数据应用主体的重点投入方向。有业内专家表示,匿名数据的收集主要用于帮助公司发现产品错误,这是互联网通过分析非个人可识别信息来改善整体产品体验最常见的解决方案之一。

(编辑:烟台站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!