大数跨境
0
0

【十分钟 机器学习 系列课程】 讲义(三十一):Logistic逻辑回归模型

【十分钟 机器学习 系列课程】 讲义(三十一):Logistic逻辑回归模型 简博士数据分析吧
2021-12-23
1
导读:本课程讲义基于李航老师第2版的《统计学习方法》



内容提要:

 * Logistic Regression

 * 二项逻辑回归模型

 * 极大似然估计模型参数

点击蓝字 |关注我们

欢迎回来。前面我们给大家介绍了Logistic的起源和Distribution【十分钟 机器学习 系列课程】 讲义(三十):Logistic的起源和分布,那么今天我们继续介绍Logistic Regression。

壹 Logistic Regression

1.高尔顿的发现

在介绍Logistic Regression之前,我们先来说一说达尔文的表弟,弗朗西斯·高尔顿。

弗朗西斯·高尔顿,(1822-1911)英国气象学家、地理学家、心理学家,优生学奠基人

受表哥达尔文出版的《物种起源》影响,高尔顿对人类遗传学产生了浓厚的兴趣,现在被大家广泛应用的指纹学就是他提出来的呢。

高尔顿以生物遗传学为中心,开展了对人类遗传的研究,并且做了一个关于身高的实验。

为了考虑父与子之间身高的关系,他收集了1000多组父与子的身高数据,然后每组数据,作为一个坐标,绘制了一张散点图。他发现一般父亲身高较高,儿子的身高就会高一些,当父亲的身高较矮的时候呢,儿子的身高也会相对矮一些,这应该是现而易见的。

这是不是说明「高个子的父亲,生的儿子就会更高,矮个子的父亲,生的儿子就会更矮呢」

可能一般人研究到这里就会打住,觉得,哎呀不得了,我发现了一种规律,不错不错!

但是高尔顿,没有停下思考,他又计算了这1000多组数据中父亲身高的平均值和儿子身高的平均值,发现儿子身高平均值是大于父亲身高平均值的,高尔顿很兴奋,他通过数据做了个大胆的猜测:如果父亲身高高,儿子身高也会倾向高的一类,但是并不像父亲距离平均值那么远;反之,如果父亲身高矮,儿子身高也会倾向矮的一类,但也并不像父亲距离平均值那么远。

于是高尔顿得到一个结论,「大自然就像一只无形的手,有一种约束力,将人类的身高控制在一个相对稳定定的状态中」,不然的话,若按照之前的想法,高的父亲儿子更高、矮的父亲那儿子更矮,人类的身高岂不就向高矮两个极端分化了吗,这显然是不合理的,大自然也不允许呀!所以,大自然控制着人类的身高回归到中心,因此他用Regress 就是退回的意思来描述这个过程,这就是「回归Regression的由来,回到本源」

生活中类似的情形比比皆是,比如天很热,连续多日艳阳高照,那么大自然可能会觉得,哎呀,不能旱这么久,来场雨吧,好像有点物极必反的感觉;再比如,海冰融化迅速,如果任其发展,帝企鹅种群就会逐渐走向灭绝,甚至到2100年可能会消失。还有珠峰,如此极寒,不符合任何动植物的生存,不断有人发现珠峰上竟然有了越来越多的植物。这是一个很引人深思的问题。「比尔盖茨」就专门就气候问题写了一本书——《气候经济与人类未来》,感兴趣的童鞋可以有空看看。

接着咱们继续回到「Logistic Regression」上。

2.Logistic Regression的生成过程

高尔顿研究身高得到了一个回归模型,最简单的「一元」线性回归。

这里的 代表了误差项。

如果想拓展到「多元」,也就是输入变量 就变成了多元的向量,写成:

假如 维的,可以写成:

也会有 维:

于是向量求内积之后仍然还是一个数,如果现在我们想把误差项消掉,那么我们可以用期望来表示。

但这时候有个问题:

如果输入变量 和输出变量 不一定是线性关系,那该怎么办呢?

如果「能做个变换将非线性转换为线性」,是不是容易出来了呢?

我们可以试试。假如存在某个函数 ,将它作用在输出变量 上,如果能够得出线性形式,那么就实现了转换。

这就是「广义线性模型」:

之前我们说过逻辑斯谛分布:

这里就是:

接着我们来求一下用 怎么表示 。也就意味着求出反函数。

接着得出:

于是,

这样就得到了「Logisit regression」

接着我们来看一下具体的模型方程。

3.Logistic Regression模型

是输入, 是输出。这里的参数发生了变化,原来的 变成了 称为「权值参数」 变成了 称为「偏置」 是参数, 表示 的内积。

二项逻辑斯谛回归模型就变成了以下的「条件概率」

从这个定义可以看出,逻辑斯谛回归模型说起来是「回归」但实际还是「分类问题」

贰 二项逻辑回归模型

1.将回归变成分类

接着我们就来说说怎么将这个回归问题变成分类问题。举个栗子,如果我们有一个输入实例 ,并且也都知道了参数值,我们来分别计算一下在 时的概率。

给一个阈值

  • 假设当 则将输入实例 归为 类。
  • 假设当 则将输入实例 归为 类。

2.简化后的逻辑回归模型

为了将这个模型简化,将权重向量和输入向量加以扩充,仍记为 ,则有

新增了一个偏置项

将输入向量从 维扩充到 维,相应的权重向量也扩充到了 维。这里我们就可以把原有的 简化成

得到了简化后的逻辑回归模型:

3.逻辑斯谛回归模型的特点

逻辑回归模型归根结底就是将分类问题用回归问题来表达。

该模型的输入变量和输出变量之间不存在线性关系。

由于输入变量可以离散可以连续,而输出变量一定属于离散的,这样就得出了输入和输出之间,「不存在线性关系」

可以用logistic 函数来表示单位阶跃。

意味着可以用 sigmoid 的连续函数来代替单位的阶跃函数,这样输入变量就很自由,可以离散也可以连续。

曲线

参数估计采用最大似然估计法。

这里其实就是怎么求出逻辑斯谛回归模型中的 ,这里我们会用到之前提到的【十分钟  机器学习  系列课程】讲义(十七):极大似然估计极大似然估计法来估计。

叁 极大似然估计模型参数

那么我们该怎么来估计呢?

先让我们花1分钟来回顾一极大似然法。对于这样的二项分布,大家应该不陌生了,我们可以把分类的概率转化为一个通用公式:

假如我们这里有一个样本点 那么对应的概率呢?

那么 怎么表示呢?没错,就是在样本点 处归为 这里一类的概率,用逻辑斯谛回归表示则为:

对于一个训练数据集:

个样本点的概率连乘,就是这个数据集 发生的概率:

接着我们希望化繁为简,变乘除为加减,怎么变呢?没错,用对数。那么我们就可以把这个似然函数变成「求对数似然函数」

很明显,

同理,


最终得出:

注意哦,这里已知的是 目的要求出 ,那怎么求解呢?

关于逻辑斯谛回归模型和参数估计就介绍到这里,下期我们就要开启「最大熵模型」的新篇章了,感兴趣的小伙伴可以点击视频链接继续学习,你的「转发+点赞+在看」是我们能持之以恒的源源动力~

逻辑回归之Regression
逻辑回归模型
逻辑回归之参数估计

欢迎大家关注简博士的B站和公众号,在公众号私信“入群”,可以与小伙伴们一起讨论问题哦。

【声明】内容源于网络
0
0
简博士数据分析吧
信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
内容 181
粉丝 0
简博士数据分析吧 信息时代最不缺的是什么?数据!最缺的是什么?数据分析的思维!在这里,你将获取神秘的力量,推开数据之门!
总阅读32
粉丝0
内容181