[ 机器学习 - 吴恩达 ] Linear regression with one variable | 2-6 Gradient descent for linear regression

Gradient descent algorithm

repeat until convergence {
\(\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta_0,\theta_1)\) ?? (for \(j = 1\) and \(j = 0\))
}

Linear Regression Model

\[h_\theta(x) = \theta_0 + \theta_1x \]

\[J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 \]

将线性回归模型代入梯度下降算法：

\[\frac{\partial \alpha}{\partial \theta_j}J(\theta_0,\theta_1)=\frac{\partial \alpha}{\partial \theta_j}\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2\\=\frac{\partial \alpha}{\partial \theta_j}\frac{1}{2m}\sum_{i=1}^m(\theta_0 + \theta_1x^{(i)}-y^{(i)})^2 \]

当\(j=0\)时: \(\frac{\partial \alpha}{\partial \theta_0}J(\theta_0,\theta_1) = \frac1m\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})\)
当\(j=1\)时: \(\frac{\partial \alpha}{\partial \theta_1}J(\theta_0,\theta_1) = \frac1m\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}\)

所以，对于一元线性回归模型，梯度下降算法化简如下：
repeat until convergence {
\(\theta_0 := \theta_0 - \alpha \frac1m\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})\)
\(\theta_1 := \theta_1 - \alpha \frac1m\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}\)
}??? update \(\theta_0\) and \(\theta_1\) simultaneously

对于一元线性回归模型，其损失函数平方差函数是"Convex function" - 凸函数：Bowl-shaped (碗形)，所以只有全局最优解。

"Batch" Gradient Descent

"Batch": Each step of gradient descent uses all the training examples:

\[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)}) \]

机器学习-吴恩达学习笔记

[ 机器学习 - 吴恩达 ] Linear regression with one variable | 2-6 Gradient descent for linear regression

Gradient descent algorithm

Linear Regression Model

"Batch" Gradient Descent

相关

Git--学习笔记（三）远程仓库克隆到本地

[学习笔记] 整数规划之割平面法 How and why?

计网学习笔记(5) - 物理层与媒介

selenium python学习笔记之八窗口截图、验证码处理

AntDesign vue学习笔记（三）嵌套路由使用

vue学习笔记（一）--来源尚硅谷

【学习笔记】TSlib校准原理

Go语言核心36讲（Go语言实战与应用六）--学习笔记

docker 学习笔记-7

SpringMVC学习笔记

Spring 学习笔记

[机器学习笔记(一)] TensorFLow安装

标签