破解数据匮乏现状：纵向联邦学习场景下的逻辑回归（LR）

摘要：主要介绍了华为云可信智能计算服务（TICS）采用的纵向联邦逻辑回归（LR）方案。

本文分享自华为云社区《纵向联邦学习场景下的逻辑回归（LR）》，作者：汽水要加冰。

海量训练数据是人工智能技术在各个领域成功应用的重要条件。例如，计算机视觉和商务经融推荐系统中的 AI 算法都依靠大规模标记良好的数据才能获得较好的推理效果。然而在医疗、银行以及一些政务领域中，行业内对数据隐私的保护越来越强，造成可用数据严重匮乏的现状。针对上述问题，华为云可信智能计算服务（ TICS）专为打破银行、政企等行业的数据壁垒，实现数据安全共享，设计了多方联邦学习方案。

一、什么是逻辑回归？

回归是描述自变量和因变量之间相互依赖关系的统计分析方法。线性回归作为一种常见的回归方法，常用作线性模型（或线性关系）的拟合。

逻辑回归（logistic regression）虽然也称为回归，却不是一种模型拟合方法，而是一种简单的“二分类”算法。具有实现简单，算法高效等诸多优点。

1.1 线性回归（linear regression）

图1.1、1.2分别表示二维和三维线性回归模型，图1.1的拟合直接（蓝线）可表示为 y=ax+b，所有数据点（红点）到直线的总欧式距离最短，欧式距离常用作计算目标损失函数，进而求解模型；类似的，图1.2的所有数据点到二维平面的总欧式距离最短。所以线性回归模型通常可以表示为：

其中θ表示模型系数。

1.2 逻辑回归（LR）

LR是一种简单的有监督机器学习算法，对输入x，逻辑回归模型可以给出 y<0 or y>0 的概率，进而推断出样本为正样本还是负样本。

LR引入sigmoid函数来推断样本为正样本的概率，输入样本 x 为正样本的概率可以表示为：P(y|x) = g(y)，其中 g() 为sigmoid函数，

曲线图如图1.3所示，输出区间为0~1：

图1.3 sigmoid曲线

对于已知模型 θ 和样本 x，y=1的概率可以表示为：

所以sigmoid尤其适用于二分类问题，当 g(y) > 0.5 时，表示 P(y=1|x) > 0.5，将其判为正样本，对应 y>0 ；反之，当 g(y) < 0.5 时，表示 P(y=1|x) < 0.5，将其判为负样本，对应 y<0。

1.3 LR损失函数

LR采用对数损失函数，对于训练集x∈S，损失函数可以表示为（参考点击关注，第一时间了解华为云新鲜技术~

华为云新鲜技术分享联邦学习数据安全纵向联邦学习逻辑回归数据隐私

相关

DSCMM 数据安全能力成熟度模型

吴恩达机器学习作业2- 逻辑回归与正则化作业（python实现）

【机器学习】逻辑回归（Logistic Regression）

联邦学习基础概念（一）

联邦学习基础概念（二）

同态加密实现数据隐私计算，能让你的小秘密更加秘密

第9章逻辑回归

数据安全相关的专业术语

逻辑回归

sklearn中简单逻辑回归

数据安全时代的ssl证书应当如何选择呢

曼孚科技：“四管齐下”筑牢AI数据隐私安全防线

标签