About 25 results
Open links in new tab
  1. 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是 …

    我会使用尽量少的数学符号描述梯度,着重于意义而非计算。一个直观的例子,在机器学习领域有个术语叫「梯度下降」,你可以想象在群山之中,某个山的半山腰有只小兔子打算使用梯度下降的思路去往这片群山最深的山谷里找水喝。

  2. 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是 …

    梯度(gradient) 的概念. 在空间的每一个点都可以确定无限多个方向,一个多元函数在某个点也必然有无限多个方向。因此,导数在这无限多个方向导数中最大的一个(它直接反映了函数在这个点的变化率的数量级)等于多少?它是沿什么方向达到的?

  3. 如何评价 Meta 新论文 Transformers without Normalization? - 知乎

    Normalization这个事得好好掰扯掰扯。 上古时期,网络经常在初始几个iteration之后,loss还没下降就不动,必须得把每一层的gradient与weight的比值打印出来,针对性地调整每一层的初始化才能不崩。

  4. Gradient Reversal Layer指什么? - 知乎

    Gradient Reversal Layer. 梯度下降是最小化目标函数,向负的梯度方向优化就是最大化目标函数。 Domain Adaptation by Backpropagation. 这个模型有三部分: 绿色(后文用G指代):特征提取,得到的feature是共享的. 蓝色(后文用B

  5. CNN卷积神经网络的始祖文是哪篇? - 知乎

    卷积神经网络(CNN)的开创性工作可以追溯到 Yann LeCun 在 1998 年发表的论文,论文题目为:“Gradient-based learning applied to document recognition”。 这篇论文介绍了一种名为 LeNet-5 的卷积神经网络架构,主要应用于手写数字识别任务。

  6. 哪里有标准的机器学习术语(翻译)对照表? - 知乎

    梯度下降法 (Gradient Descent) 一种通过计算并且减小梯度将损失降至最低的技术,它以训练数据为条件,来计算损失相对于模型参数的梯度。 通俗来说,梯度下降法以迭代方式调整参数,逐渐找到权重和偏差的最佳组合,从而将损失降至最低。

  7. 如何理解随机梯度下降(stochastic gradient descent,SGD)?

    如图所示,我们假设函数是 y=x^2+1,那么如何使得这个函数达到最小值呢,简单的理解,就是对x求导,得到 y‘=\frac{1}{2}x ,然后用梯度下降的方式,如果初始值是(0的左边)负值,那么这是导数也是负值,用梯度下降的公式,使得x更加的靠近0,如果是正值的时候同理。

  8. DeepLearning笔记:梯度下降 Gradient Descent - 知乎

    阿扣:上一次我们了解了损失函数。为了找到使损失函数(比如用 SSE 计算)最小的 w (权重) 和 b (偏置项),我们需要先了解一个重要的方法:梯度下降。 阿特:听起来像坐滑滑梯~ 阿扣:是有那么点意思。 阿扣:想象…

  9. 谁能解释一下密度泛函理论(DFT)的基本假设和原理么? - 知乎

    2. 广义梯度近似(Generalized Gradient Approximation, GGA) 总的来说,LDA在电子密度改变较快的体系中表现不佳,那么比较容易想到的改进方法就是将 n(\\mathbf{r}) 的一阶梯度包含进来。这样我们就得到了广义梯度近似,GGA。 GGA的通用表达式可以写成

  10. 如何理解Adam算法(Adaptive Moment Estimation)? - 知乎

    在这里引入了一个初始=0的 变量v 和一个超参数mu。变量 mu 在最优化的过程中被看做动量(一般值设为0.9),但其物理意义与摩擦系数更一致。

Refresh