必发88唯一官网 > 88bifa必发唯一官网 > 必发88:机器学习,斯坦福CS229机器学习课程笔记

原标题:必发88:机器学习,斯坦福CS229机器学习课程笔记

浏览次数:59 时间:2020-01-19

  • 1.逻辑回归

  • 2.Newton法求极值

  • 3.指数布满族与多项布满

  • 4.广义线性模型

那样,大家还是能够引进提醒函数I,使得必发88 1 那样,T(y卡塔尔向量中的某些成分还是能够象征成:必发88 2 比如来佛讲,当y=2时,必发88 3。依据上式,咱们还能收获:必发88 4 于是,二项布满调换为指数遍布族的演绎如下:必发88 5必发88 6

1.模型

逻辑回归肃清的是分类难题,而且是只分为两类。举个例子:客商是还是不是会点击广告链接?顾客是不是会回访?抛意气风发枚硬币正面是或不是会朝上?于是,从概率的视角出发,大家理应立时想到用伯努利布满来打量事件发生的可能率。从广义线性模型的角度来组织逻辑回归模型:
必发88,1.1 伯努力分布归于指数布满族(参数Φ指的是y=1的票房价值,即事件产生的可能率)
必发88 7
1.2 学习的指标是预测T(yState of Qatar的梦想值,而伯努利布满中T(y卡塔尔=y,其余大家清楚伯努利布满的企盼正是参数Φ,即E(y卡塔尔国=Φ。
1.3 由η = log(Φ/(1 - Φ卡塔尔国 能够临蓐 Φ = 1/(1 e-η卡塔尔(那就是所谓的logistic函数,也是逻辑回归名字的缘由),再将η=θT x带入公式,最后大家获得逻辑回归的模型:
必发88 8
因为伯努利遍及的参数Φ既是布满的愿意,又象征事件发生的概率,因而逻辑回归模型的含义正是:在给定的输入变量组合的口径下,输出变量(二元变量)中多个事变时有产生的票房价值。比方:预测在客商是首先次来访(输入变量1),广告链接用的是火爆文案(输入变量2)的准则下,广告链接被点击(输出变量)的概率为多少。 见到这里,相信大家应该能力所能达到明白:为何逻辑函数要长大那样,为何逻辑回归能起效果了呢。

必发88 9

 

Generalized Linear Model (GLM卡塔尔国 广义线性模型

这豆蔻梢头段首要讲的是广义线性模型的概念和如果,为了看驾驭逻辑回归,大家要耐着本性看完。

目录:

 

Logistic Regression 逻辑回归

必发88 10

(少年老成)Newton法解最大似然测度

2.结合广义线性模型的八个举例

  • p(y | x; θ卡塔尔国 ∼ ExponentialFamily(η卡塔尔. 输出变量基于输入变量的条件概率布满固守指数布满族
  • our goal is to predict the expected value of T(yState of Qatar given x. 对于给定的输入变量x,学习的对象是预测T(yState of Qatar的想望值,T(y卡塔尔(قطر‎平常正是y
  • The natural parameter η and the inputs x are related linearly: η = θT x. η和输入变量x的涉嫌是线性的:η = θT x

这多个假使其实指明了何等从输入变量映射到输出变量与可能率模型,比方来说:线性回归的尺度可能率布满为正态布满归于指数遍布族(参考笔记一中线性回归的似然函数部分);我们的靶子是预测T(y卡塔尔(قطر‎的希望,由地方的计算大家知道T(y卡塔尔(قطر‎=y,而y的期待值也正是正态布满的参数μ;由地方的计量我们领会μ=η,而η=θT x。因而,线性回归是广义线性回归的三个特例,它的模子是:
必发88 11

必发88 12

 

2.策略

逻辑回归使用的计划是最大化对数似然函数,它的似然函数与对数似然函数分别为:
必发88 13

必发88 14必发88 15

必发88 16
其中,因为必发88 17,所以大家能够只保留k-1个参数,使得:

3.算法

3.1 gradient ascent 梯度上涨
咱俩得以用梯度下落找到超级小值的点,反过来也能够用梯度回升找到相当的大值的点: 首先补充一下思索中要用到的逻辑函数,与逻辑函数的导数:
必发88 18
必发88 19
在这里底子上大家对对数似然函数求导拿到梯度
必发88 20
本条导数和线性回归中的导数如出生龙活虎辙,然而要注意两个的模子hθ(x卡塔尔国是不肖似的,所以最后使用专擅梯度上涨的迭代法则如下:
必发88 21
3.2 Newton’s method 牛顿方法
从高数中级知识分子情极值点正是导数为0之处,所以最大化对数似然函数的另三个求法是求对数似然函数导数为0的点。而牛顿方法正是求得对数似然函数导数为0的点的点子:
必发88 22
当参数θ唯有二个时,牛顿方法的迭代准则:
必发88 23
当参数θ不独有三个时,Newton方法的迭代规则:
必发88 24
相较于批量梯度下跌,Newton方法日常来说有越来越快的覆灭速度,只须要少得多的迭代次数就能够赢得很左近最小值的结果。不过当模型的参数很多时(参数个数为n)Hessian矩阵的测算成本将会不小,引致未有速度变慢,可是当参数个数相当少时,Newton方法日常是比梯度下落快得多的。

必发88 25

 

直接据他们说Logistic Regression逻辑回归的大名,比方吴军博士在《数学之美》中涉嫌,Google是使用逻辑回归预测搜索广告的点击率。因为本世间接对特性化广告感兴趣,于是疯狂google过逻辑回归的素材,但不曾贰个网页资料能很好地讲清到底逻辑回归是怎么。幸好,在CS229第3节课介绍了逻辑回归,第二节课介绍了广义线性模型,综合起来算是让自己对逻辑回归有了迟早的知晓。与课程的逐一相反,作者以为应该先通晓广义线性模型再来看逻辑回归,只怕那也是干吗讲逻辑回归的网页资料总令人备感云里雾里的缘故吗。

必发88 26

3)泊松布满:对计数进度进展建立模型,举个例子网址访谈量的计数难题,放射性衰变的数目,商铺客商数量等难点;

总结

  1. 本来这么多主流的可能率布满都归属指数布满族
  2. 牢牢记住构成广义线性模型的多个譬喻,其实也是创设立模型型的大桥
  3. 驾驭逻辑回归模型是基于伯努利布满的可能率模型,它的意义是:在加以的输入变量组合的尺码下,输出变量(二元变量)在那之中一元发生的可能率。也为此它适合用来预测广告点击率。
  4. 有梯度下落算法也会有梯度上涨算法,两个的分歧只在 /-号上。此外,仍为能够动用Newton方法,通过拿到导数为0的点以确定模型的大而无当/比相当的小值。

附带提一下logistic函数求导,依据链式求导法规获得如下表明式:

由高斯分布能够推导出线性模型,由线性模型的例如函数可以预知,高斯分布的方差与假诺函数无关,因此为了方便总计,这里将方差设为1。所以高斯布满转变为指数遍及族形式的演绎进度如下:

1.The exponential family 指数布满族

因为广义线性模型是环绕指数布满族的,由此要求先介绍,用Andrew大神的话说正是,“尽管不是整整,可是大家见过的大多数遍及都归属指数分布族,例如:Bernoulli伯努利分布、Gaussian高斯布满、multinomial多项布满、Poisson泊松布满、gamma遍及、指数遍及、Dirichlet分布……”坚决守护指数布满族的规格是可能率布满能够写成如下方式:
必发88 27
η 被称作natural parameter,它是指数分布族唯大器晚成的参数
T(y卡塔尔国 被称作sufficient statistic,超多情景下T(y卡塔尔=y a(ηState of Qatar 被称作 log partition function
T函数、a函数、b函数合作鲜明风华正茂种布满
接下去看一下怎么说正态布满(高斯布满)归属指数分布族:
正态分布(正态分布有多个参数μ均值与σ标准差,在做线性回归的时候,大家关注的是均值而标准差不影响模型的读书与参数θ的抉择,因而这里将σ设为1便于总结)
必发88 28

η是遍及的本来参数;T为尽量总括量;a为对数分配函数。当给定意气风发组a,b,T,那一个公式就定义了一个可能率遍及的汇聚。

必发88 29
于是,大家就拿走了接二连三函数,有了一而再接二连三函数后,就能够把多项式布满的票房价值表达出来,就要上式代入

倘若全体样品都是独立布满,接着求出参数的似然性:

伯努利布满是对0,1标题张开建立模型的布满,它能够用如下格局表示:必发88 30
将其改换情势,推导如下:

澳门永利app客户端 ,当大家要对单位时间内任性事件产生的个数进行建立模型,大家能够用泊松布满;对二项遍布难题建模,能够采纳伯努利布满建立模型;但是,就算境遇叁个一定的标题,未有现存的模子能够动用时,大家就需求广义线性模型来建设布局生机勃勃套算法。为了推导出那些标题标模型,要对y的分布做以下四个倘诺:

必发88 31
为了使多项式布满能够写成指数分布族的样式,首先定义T(y卡塔尔国,如下所示:必发88 32

为便于前面包车型地铁乘除,对它取对数,将累乘产生累和:

听大人讲那四个若是,大家能够推导出ogistic模型与小小二乘模型。Logistic模型的推理进度如下:必发88 33 上式中,第豆蔻梢头行是伯努利布满的质量,第二行由假使二与假如三出产。
同等的,对于最小二乘模型,推导进程如下:必发88 34
其间,将η与原始可能率遍布中的参数联系起来的函数称为正则响应函数(canonical response function),如必发88 35便是正则响应函数。正则响应函数的逆称为正则关联函数(佳能ical link function)。

或许以二项布满为例,用广义线性模型来对它建立模型。给定x,θ后,二项布满的输出值应该是归于某意气风发类的可能率,h = E[y|x],期待值就是y=1的票房价值,P=φ,遵照上文的早已推出的定论φ=1/ 卡塔尔,且η= θTx,于是拿到:

必发88 36
通过上式,就将伯努利遍及表示成了指数布满的样式;个中:必发88 37
能够观望,η的款型与事情发生前提及的logistic函数黄金年代致,那是因为logistic模型对难题的放到可能率估算是伯努利布满的来由。

它称作逻辑回归(logistic function,或sigmoid function),在二维坐标上是四个“S”型曲线,如图所示。

 

Newton法日常比梯度下落法的破灭速度更加快,对逻辑回归的效能很好,经过少之甚少的迭代次数就能够获得较高的精度,但它也是有欠缺。Newton法适用原则相比复杂,不像如梯度下落适用性那么广。而且Newton法必要计算Hessian矩阵,当参数很多时,运算量会异常的大:

上式中,首先进行指数对数转变;接着将对数内的乘积变为对数外的相加;然后将‘ ’号前面包车型大巴一些并入‘ ’号前方;最终将连加和浮动为向量相乘的格局,当时T(y卡塔尔表示三个(k-1卡塔尔*(k-1)的向量
上式中最终一步的各样分量分别如下:

必发88 38

其中,H是一个n*n的矩阵,n为参数向量的尺寸,亦即特征的数量,H是函数的三遍导数矩阵,被叫做Hessian矩阵,其某些成分Hij总计公式如下:必发88 39 必发88 40即为必发88 41,这里有一点雷同于用黄金年代阶导数必发88 42除以二阶导数;所以,用三个表示生龙活虎阶导数的向量乘上三个表示二阶导数的矩阵的逆。

必发88 43

 

梯度下跌法和牛顿法皆觉得了求函数最优解,但是情势不相同。梯度下跌法的手续是,接收生机勃勃组随机值,计算函数的导数,接着沿着导数的反方向,也便是沿着下跌的方向前尤其,稳步围拢最小值。而当贰个函数存在极值时,它的极值点处的大器晚成阶导数等于0,那么用迭代的秘诀稳步靠拢意气风发阶导数为0之处,正是Newton法的宗旨境想。接下来看具体步骤:

5)β布满:对小数建立模型;

除开高斯布满、伯努利布满,多项式遍布也归于指数分布族。多项式布满能够化解多分类难点,能够以为是二项分布的拉开。这里一贯付出多分类难点的模型函数,具体推导那篇作品里写的很详细。

4)伽马布满与指数布满:对有间隔的正数进行建立模型,譬喻公交车的到站时间难点;

我们的对象正是找到θ,使对数似然性最大。为了求它的最大值,能够利用梯度下落的思考,稳步迭代,最后求相当的大值。所以这里能够称呼梯度上涨法。那么随着对这些函数求偏导:

6)Dirichlet遍布:对概率遍布建立模型;

确切来讲,得到的是随便梯度上涨的公式,即每进行叁个样书的拟合,就立异一次参数。与之相呼应的,是批梯度回升。

 

本文由必发88唯一官网发布于88bifa必发唯一官网,转载请注明出处:必发88:机器学习,斯坦福CS229机器学习课程笔记

关键词: 有哪些 逻辑 机器

上一篇:88bifa必发唯一官网:镜像实战,编写高效Dockerf

下一篇:没有了