机器学习-梯度下降的优化

Created2022-08-16|Updated2025-02-22|技术

|Word Count:481|Reading Time:2mins|Post Views:

在回归中，我们需要解决下面的优化问题，即使得Loss函数尽可能的小

$$
\theta^*=arg\min L(\theta),L:loss function,\theta:parameters
$$

假设一共有两个参数$\theta_1,\theta_2$，使得$\theta^0= \begin{bmatrix}\theta^0\\theta^1\end{bmatrix}$，便有梯度如下

$$\nabla L(\theta)=\begin{bmatrix} \partial L(\theta_1)/ \partial \theta_1\\ \partial L(\theta_2)/ \partial \theta_2\end{bmatrix}$$

那么参数的更新便可通过向量的形式进行

$$
\begin{bmatrix}\theta^1_1\\theta^1_2\end{bmatrix}=\begin{bmatrix}\theta^0_1\\theta^0_2\end{bmatrix}-\eta\begin{bmatrix} \partial L(\theta^0_1)/ \partial \theta_1\\ \partial L(\theta^0_2)/ \partial \theta_2\end{bmatrix}
$$

但是其中，$\eta$是一直不变的，但是我们知道，经过迭代之后，在越来约接近目标的时候，我们需要将学习率降低，使其能够愈发趋近目的地。故，我们对$eta$进行改进，使其经过一定的迭代后越来越小。

$$
\eta^t=\eta/\sqrt{t+1}
$$

但是学习率不能一刀切，对于参数，我们也需要给予其一定的改变。一般我们的参数的改变为

$$
w^{t+1}=w^t-\eta^tg^t
$$

w是一个参数，我们设置$\eta^t$ 为参数w之前导数的均方根，使其成为一个参数依赖型的学习率。也就是说

$$
w^1=w^0-\frac{\eta^0}{\sigma^0}g^0,\sigma^0=\sqrt{(g^0)^2}\
w^2=w^1-\frac{\eta^1}{\sigma^1}g^1,\sigma^1=\sqrt{\frac{1}{2}[(g^0)^2+(g^1)^2]}\
$$

如此迭代，直到

$$
w^{t+1}=w^t-\frac{\eta^t}{\sigma^t}g^t,\sigma^t=\sqrt{\frac{1}{t+1}\sum^t_{i=0}(g^i)^2}
$$

从上面的式子中，我们可以看到$\eta^t$是一个时间相关的学习率，$\sigma^t$是一个参数相关的学习率，且

$$
\eta^t=\frac{\eta}{\sqrt{t+1}},\sigma^t=\sqrt{\frac{1}{t+1}\sum^t_{i=0}(g^i)^2}
$$

故相除之后得到下列的公式

$$
w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum^t_{i=0}(g^i)^2}}g^t
$$

梯度改进之后的对比如下：

20220816173111

Author: zepoch

Link: https://www.zepoch.cc/2022/3163358201.html

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

技术机器学习梯度下降

Related Articles

机器学习-回归

前言此次学习的课程为李宏毅机器学习，之前学过一遍吴恩达的课程，只可惜当时没记笔记，且近些时候没有写代码，逐渐疏忽了，故选择李宏毅再进行新一遍的学习，所谓温故而知新。回归是我们通常会使用的机器学习中的一类，比如日常中的我们的身高预测，股票预测等等，这些都可以看作为粗略的回归。举一个例子小时候我们会玩一个叫赛尔号的游戏，游戏里有各种各样的精力，就好比我们捕捉到了一只雷伊，然后我们可以向雷伊投经验值，让他升级，这只雷伊会有一个攻击力，我们想要预测雷伊的各种各样的属性与其攻击力之间的关系。于是我们设其血量为$X_{hp}$，其体重为$x_{w}$，其身高为$x_{h}$，其物种为$x_s$，其战斗力为$x_{cp}$，然后预测他进化之后的战斗力值。那么便有$y=b+\sum w_ix_i$，其中$w_i:weight,b:bias$。如果单一个$x_{cp}$作预测的话便是$y=b+w\cdot x_{cp}$。收集到了数据之后，便是可以进行预测，在此我们使用一个名为Loss函数进行Loss计算 $$ L(f) = \sum^{10}{n=1}(\hat...

机器学习-概率生成模型

理论基础概率生成模型，是概率统计和机器学习中的一类重要模型，指一系列用于随机生成可观测数据的模型。假设有两类数据，每一类都有若干个样本；概率生成模型认为每一类数据都服从某一种分布，如高斯分布；从两类训练数据中得到两个高斯分布的密度函数，具体的是获得均值和方差两个参数；测试样本输入到其中一个高斯分布函数，得到的概率值若大于0.5，则说明该样本属于该类，否则属于另一类。生成模型可以和贝叶斯概率公式进行结合，用于分类问题。原始贝叶斯概率公式为： $$ P(A|B)=\frac{P(B|A)P(A)}{P(B)} \tag{1} $$ 对于一个$2\times2$的分类则有下图所述的贝叶斯分类在上图中，训练数据中有两个类别；每个类别下有5个样本，我们想要知道新的测试样本$x$属于$C1$的可能性。根据贝叶斯概率公式可以得到上图片所示的概率公式。其中，$P(C1)$和$P(C2)$表示在训练数据中，随机采样得到$C1$或者C2的概率，即两个类别在训练数据中所占的比重。分母项$P(x)$表示生成数据x的概率，此处可以由生成模型计算得到； $$ P(x) = P(x|C1)P(C1)...

机器学习-逻辑回归

接着上篇博客继续，我们发现，概率生成模型最终推导函数，其本质还是寻找参数w和b，所以可以设置一个函数，直接来寻找最优的w和b $$ f_{w,b}(x)=P_{w,b}(C_1|x)=\sigma(z)\ \sigma(z)=\frac{1}{1+exp(-z)}\ z = w \cdot x+b $$ 相较于线性回归，逻辑回归做的事情便是将 wx+b 放入 sigmoid 函数中，使其输出一直处于0~1之间。在我们确定了函数之后，便是应该再定义一个损失函数。假设有一组训练数据，其数据大小为 N，而且分别有自己的类别标签C。给定一组 w 和 b，就可以计算这组w，b下产生上图N个训练数据的概率，$f_{w,b}(x^3)$表示 $x^3$ 属于C1的概率，但是其真实分类为C2，所以要用 $1-f_{w,b}(x^3)$。 $L(w,b)L(w,b)$取得的数值最大的时候，即取得最好的w和b，$w^∗,b^∗ = argmax_{w,b}L(w,b)$ 在此我们可以做一个变换，对 $L(w,b)$取对数不影响其单调性，然后再加上符号，单调性与之前的相反，那么就是求...

Transformer架构

pip install fa2

最近在学习scanpy，读scanpy文档的toturial部分的 Trajectory inference for hematopoiesis in mouse 部分的时候，出现了一个错误，在我的 jupyter notebook 运行的时候，出现了一个 warning 1WARNING: Package 'fa2' is not installed, falling back to layout 'fr'.To use the faster and better ForceAtlas2 layout, install package 'fa2' (`pip install fa2`). 这个warning会导致我之后绘制的图片与文档中的原图有区别，在执行命令sc.pl.draw_graph(adata, color='paul15_clusters', legend_loc='on data')的时候，可以看到，左边是源文档的图片，右边是我画出来的图片 ...

rds与h5ad的相互转换

之前做过一个 rds 转 h5ad 的教程，现在看来发现有些过于繁琐，且随着时间的发展，也有了更好的方法的出现，所以这里再写一个教程。新的工具包是 https://github.com/cellgeni/sceasy ，这是一个专注于做各种单细胞文件格式转换的文件，但是作者也并没有写明一个特别完整的参数说明，所以这里我也只能根据自己的使用经验来写一下。安装可以如作者所述，直接安装即可 123conda install -c bioconda r-sceasy# 或者devtools::install_github("cellgeni/sceasy") 安装并不复杂，这里会详细讲一下其更为优秀的使用 12345678910# 首先是包的载入，只需载入这两行即可，如果你的文件没有 loom的话，那么就不需要载入 loom包library(sceasy)library(reticulate)# 单细胞的 rds 文件与 h5ad 文件之间的互相转换如下即可sceasy::convertFormat(seurat_object,...

Comments