首页 / 行业
微软删除 MS Celeb 名人数据集,拨开数据隐私的迷雾
2019-06-26 17:22:00

前几日,微软静悄悄地删除了一个公开的名人图片数据集。这个数据集包含了 10 万张名人面部图像,常被用来作为人脸识别的训练。对于微软删除的真实原因,我们不得而知,但其背后牵扯到的数据隐私问题,包括人脸识别技术的安全规范,都值得一番深思。
微软在上周删除了一个名人图片数据集。这个本为世界上最大的公开人脸识别数据集,现在已经不能通过微软的渠道访问。
在这次「静默」删除行为背后,又牵扯到了哪些问题呢?
微软想解决的麻烦:MS Celeb 名人数据集
MS Celeb 1M 数据集,最早是微软在 2016 年发布,其中共包含了 10 万个名人,近 1000 万张面部图片,而这些数据都是从网络上搜集而来。
从网络中 100 万个名人中,根据受欢迎程选出 10 万个,然后利用搜索引擎,跳出每个人的大约 100 张图片,就得到了这个庞大的数据集。
MS Celeb 数据集中的 Jobs 图片,
其中绿色是年轻时代的图片,红色是合成图像
而这个数据集最初是用来服务比赛的。MSR IRC 是世界上最高水平的图像识别赛事之一,MS Celeb 1M 数据集最初就是这个赛事所用。
MS Celeb 1M常被用来做面部识别的训练。但对于这些图片均来自网络,所以也曾受到了质疑。而微软则表示,是根据「知识共享许可 C.C 协议」,来抓取和获得这些图像的。
根据协议,可以将照片重新用于学术研究,(照片中的人物并不一定授权许可,而是版权所有者授权。)但微软发布数据集后,却并不能掌管它的使用。英国「金融时报」进行了一项深入调查,结果表明数据被大量的用在了多个企业测试中。
包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用这个数据集的情况。
而这就涉及到了数据集使用的一些规范性问题,一位研究人员还指出,这涉及到人脸识别图像数据集的伦理,起源和个人隐私等问题。
删除原因:负责该数据集的员工离职?
微软已经在线上默默地删除了MS Celeb 1M,并没有特别的说明。
Github 上数据集的下载页面已经变成了 404
在金融时报的报道中,微软表示「该网站主要目的是用于学术,」而删除它的原因是,「负责运营这个项目的员工离职了,不再与微软合作,所以进行了删除。」
我们都相信肯定有其他原因,可能也有数据集图片存在的问题。虽然微软称数据集均来自于公众人物的照片。但其中还包括少量非知名人物。这部分人脸照片的所有者,对微软使用他们的名称和图像信息,曾提出过质疑和批评。
还有技术人员推测,微软可能会因违反欧盟《通用数据保护条例》(GDPR)而删除数据,该法规于去年生效,旨在建立起数据安全的保护措施。
GDPR对个人信息的保护及其监管
达到了前所未有的高度
但微软表示,它们没有涉及到 GDPR 的条款,数据集相关网站退役只是因为,「曾经的竞赛已经结束」。
当然,此次微软移除 MS Celeb 数据集,并不妨碍它在学术研究等途径的正常使用。那些用于处理数据库的工具,现在也可正常访问。
常用公开数据集,也可能有隐私问题
在英国「金融时报」调查之后,还有另外两个学术单位也删除了相关的数据集:分别是杜克大学的 Duke MTMC 监控数据集,和斯坦福大学的 Brainwash 数据集。
关于数据集和隐私问题,这不是第一次进入人们的视野。在今年 1 月底,IBM 发布了百万级别的无偏见「人脸多样性」数据集,就曾引发了广泛的争议。
虽然 IBM 强调此举是为减少面部识别中的「偏见」问题,但数据集的来源,人物的是知情度等问题,都引发了不少质疑声。
有媒体还报道, IBM 表示会按照被摄影者的意愿,删除数据集里的相关照片,但都只是一面之词,并没有实际的行动。
今年 5 月,旧金山曾颁布法令
禁止政府机构使用人脸识别技术
对于数据集的采集和使用规则,还是一个很不太明确的区域,尤其是网络便利之后,很多机构都能轻易地获得大量图片,用于面部识别等用途。
其实,对于数据集涉及的隐私问题,解决方案可以很简单:关乎到用户个人隐私信息时,应保证用户的知情权,确保用户是否愿意贡献数据。
但似乎缺少的从来都不是方法,而是意识。
最新内容
- Efuse是什么?聊聊芯片级的eFuse
- 英飞凌推出XENSIV胎压传感器,满足智能胎压监测系统的需
- FPGA学习笔记:逻辑单元的基本结构
- 创造多样信号的万能工具:函数/任意波形发生器
- 位移传感器结构类型及工作原理与应用
- 开关电源供应器的功能、应用场景以及重要性
- 重庆东微电子推出高性能抗射频干扰MEMS硅麦放大器芯片
- 拒绝一次性芯片,新技术:无线升级芯片
- 芯片迈向系统化时代:EDA软件的创新之路
- 智能安全帽功能-EIS智能防抖摄像头4G定位生命体征监测
- 卫星应用受关注,GNSS导航芯片/模块发展加速
- AI边缘智能分析设备:智慧食堂明厨亮灶的智能化应用
- 美光低功耗内存解决方案助力高通第二代骁龙XR2平台
- 浅谈芯片常用的解密器
- 电路板技术水平和质量水平,影响着机器人赛道的发展前景
- 直播回顾 | 宽禁带半导体材料及功率半导体器件测试
- 写flash芯片时为什么需要先擦除?
- DigiKey 凭借品牌更新荣获四项 MarCom 大奖
- 高精度3D视觉技术,助力工业机器人实现汽车零部件高效上
- 不只是芯片 看看传感器技术我们离世界顶级有多远
- 加特兰毫米波雷达SoC芯片赋能室内安防新应用
- 所有遥不可及,终因AI触手可及
- 一种基于聚合物的化学电阻式传感器使患者检测更容易
- MTK天玑9300重磅发布:全大核时代到来,330亿参数AI大模型
- 如何测量温度传感器的好坏?
- ACCEL光电芯片,性能超GPU千倍,新一代计算架构将更早来临
- 如何利用示波器快速测量幅频特性?有何注意事项?
- 射频连接器使用技巧与注意事项
- STC15W芯片A/D、D/A转换的简单使用
- 群芯微车规级认证的光电耦合器备受电池BMS和电驱电控
- 芯朋微:服务器配套系列芯片已通过客户验证 可应用于AI
- 新能源高压连接器高压互锁(HVIL)功能详解
- FPGA和AI芯片算哪一类?芯片的不同分类方式
- MPS全系列电机驱动产品,助力新能源汽车实现更好的智能
- 基于穿隧磁阻效应(TMR)的车规级电流传感器
- 豪威发布新款 4K 分辨率图像传感器,适用于安防摄像头
- 苹果发布M3系列新款MacBook Pro/iMac:业界首批PC 3nm芯
- 硅谷:设计师利用生成式 AI 辅助芯片设计
- 电容式触摸按键屏中应用的高性能触摸芯片
- DigiKey 推出《超越医疗科技》视频系列的第一季

手机 |
相关内容
微软Ignite 2023技术大会:人工智能
微软Ignite 2023技术大会:人工智能转型,技术驱动变革,人工智能,趋势,智能,数据隐私,企业,解决方案,人工智能(Artificial Intelligence,A聊聊如何让语音芯片保持稳定性能
聊聊如何让语音芯片保持稳定性能,性能,芯片,语音,如何让,模式,数据集,BSP742R语音芯片是一种用于语音识别、语音合成、自然语言处理什么是接收过滤器,接收过滤器的特点
什么是接收过滤器,接收过滤器的特点、原理、分类、操作规程及发展趋势,过滤器,发展趋势,分类,网络通信,控制,删除,接收过滤器IRF840什么是接收过滤器,接收过滤器的特点
什么是接收过滤器,接收过滤器的特点、原理、分类、操作规程及发展趋势,过滤器,发展趋势,分类,网络通信,控制,删除,接收过滤器IRF840点云标注在自动驾驶中的发展趋势
点云标注在自动驾驶中的发展趋势,发展趋势,驾驶,标注,点云,算法,系统,随着自动驾驶技术的快速发展,点云标注成为了自动驾驶系统中至人脸识别技术的挑战和未来发展
人脸识别技术的挑战和未来发展,人脸识别,数据隐私,遮挡,图像,情况,系统,人脸识别技术LM224N是一种通过计算机对人脸图像进行分析和预测性维护是人工智能 (AI) 技术的专
预测性维护是人工智能 (AI) 技术的专有领域,人工智能,维护,预测,数据集,预测模型,特征,目前,工程师们越来越意识到,预测性维护现在几乎数据集成和可视化平台是整个智能交
数据集成和可视化平台是整个智能交通建设的成果展示平台之一,平台,智能交通,数据集成,可视化,智能,公交,坚持科技赋能,提高综合效率,