“Advances and Open Problems in Federated Learning”译文

本文是论文“Advances and Open Problems in Federated Learning”部分译文,翻译文本仍在持续更新中,仅供参考。

摘要

联邦学习 (Federated Learning, FL) 是一种机器学习环境,其中多个客户端(如移动设备或整个组织)在一个中央服务器(如服务提供者)的编排下协同训练一个模型,同时保持训练数据去中心化。联邦学习体现了集中数据收集和最小化原则,并且可以降低多数由传统的中心化机器学习和数据科学方法导致的系统性隐私风险和开销。本文受到联邦学习研究爆炸性增长的激励,讨论了近期进展并提出了广泛收集到的公开问题和挑战。

6 确保公平性和消除偏差源

机器学习可能时常表现出令人吃惊和意外的行为。当这些行为导致了对用户有不良影响的模式时,我们可能根据一些准则将模型归类为“不公平”。例如,如果拥有相似特性的人收到差异较大的输出,那么这就违反了个体公平性的准则[149]。如果特定敏感群体(种族、性别等)收到不同模式的输出——例如不同的假阴性率——这可能违反人口学公平性的多个准则,调查可查看例子[48, 300]。反事实公平性准则要求,如果用户是不同群体(种族、性别等)的成员,在考虑了所有偶然的相关路径之后,用户应该收到他们应有的相同对待[250]。

联邦学习提出了公平性研究的多个机遇,其中有一些扩展了先前在非联邦环境下的研究方向,其他的则是联邦学习特有的。本节提出了这两类的公开问题。

6.1 训练数据中的偏差

6.2 不访问敏感属性的公平性

6.3 公平性、隐私性和健壮性

6.4 利用联邦提升模型多样性

6.5 联邦公平性:新的机遇和挑战

A 用于联邦学习的软件和数据集

用于模拟的软件

联邦学习的模拟要求处理在数据中心机器学习中不会出现的多个问题,例如,使用在不同模拟设备上运行的计算高效处理分片数据集,其中每片含有可变数量的数据。联邦学习研究也要求不同的计量(如设备上传或下载的字节数),以及模拟诸如不同客户端的之类与本地数据集的性质潜在相关联的问题的能力。

面向生产的软件

数据集

跨孤岛数据集

需要更多数据集

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×