matrixcalc

579 85 简单 1 次阅读 2周前其他

AI 解读由 AI 自动生成，仅供参考

matrixcalc 是麻省理工学院（MIT）开设的一门关于“矩阵微积分”的开源课程资源，旨在帮助学习者掌握机器学习与大规模优化背后的核心数学工具。传统微积分课程多聚焦于标量或向量运算，而现代人工智能应用亟需处理更复杂的矩阵函数求导、自动微分算法及高维空间运算。matrixcalc 从线性代数视角重新构建微积分体系，将矩阵视为整体对象而非单纯数值数组，深入讲解矩阵逆、行列式等操作的导数计算，并揭示反向传播、伴随微分等技术的数学本质。

该资源解决了进阶算法开发者在理解深度学习框架底层机制时面临的数学断层问题，尤其适合需要推导复杂模型梯度、优化自定义损失函数或研发新型自动微分系统的研究人员与工程师。课程由 Alan Edelman 和 Steven G. Johnson 教授主讲，结合 Julia 语言进行数值实践，强调“微分即线性算子”的统一观点，打破符号推导与有限差分的传统局限。其独特亮点在于将抽象数学理论与计算机科学的效率考量紧密结合，为理解现代 AI 框架（如 PyTorch、TensorFlow）的自动微分引擎提供坚实理论基础。无论是希望深化理论功底的研究生，还是从事算法落地的技术专家，都能从中获得超越公式记忆的深刻洞察。

使用场景

某算法工程师正在开发一个基于矩阵分解的高维推荐系统，需要手动推导损失函数对奇异值分解（SVD）各因子的梯度以进行自定义优化。

没有 matrixcalc 时

工程师被迫将矩阵视为标量数组，逐个元素手动推导偏导数，面对复杂的矩阵逆和行列式运算极易出错。
缺乏统一的线性算子视角，难以处理高阶张量或非标准向量空间的微分，导致数学建模过程断裂。
为了验证公式正确性，不得不编写低效的有限差分代码进行数值核对，严重拖慢原型迭代速度。
在实现反向传播时，无法直接利用矩阵整体性质生成高效的向量 - 雅可比积，只能依赖框架的黑盒自动微分，难以定制优化。

使用 matrixcalc 后

借助 matrixcalc 提供的整体矩阵微分视角，工程师直接将矩阵作为单一对象推导，快速得出 SVD 因子的解析梯度公式。
利用课程中关于任意向量空间线性算子的理论，轻松将微分规则推广到复杂的自定义矩阵流形上，逻辑清晰连贯。
通过 Julia 语言结合 matrixcalc 的数值示例，瞬间完成解析解与数值解的自动化比对，确保数学推导零误差。
基于对伴随算子和反向微分原理的深度理解，手写了定制化的向量 - 雅可比积算法，使训练速度比通用自动微分提升数倍。

matrixcalc 的核心价值在于它将微积分从繁琐的标量计算解放为优雅的线性代数操作，让开发者能高效构建大规模机器学习所需的自定义微分算法。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该项目是 MIT 的矩阵微积分课程资料，并非传统的 AI 模型库。主要运行环境为 Julia 编程语言（而非 Python）。建议在本地安装 Julia 和 IJulia，或通过 Binder 在云端浏览器中直接运行示例代码。无特定的 GPU 或大内存需求，仅需满足基础数值计算要求。

python不适用 (主要使用 Julia)

Julia language

IJulia (optional)

快速开始

机器学习及其他领域的矩阵微积分

这是麻省理工学院于2026年1月（IAP学期）开设的18.063 矩阵微积分课程页面，由艾伦·埃德尔曼教授（Alan Edelman）和史蒂文·G·约翰逊教授（Steven G. Johnson）主讲。

如需查看本课程的往期版本，请参阅 OpenCourseWare 上的 2023年IAP学期矩阵微积分（OCW）（GitHub仓库，视频可在 YouTube 上观看）。此外，还有 2022年IAP学期矩阵微积分（OCW）（GitHub仓库），以及 2024年矩阵微积分（GitHub） 和 2025年矩阵微积分（GitHub）；前几年曾使用临时的18.S096“特殊课题”课程编号。

授课时间： 周一至周五上午11点至下午1点，1月12日至1月30日（1月19日除外），地点为35-310教室。本课程共3个学分，设有2次作业，分别于1月23日和1月30日提交——通过Canvas在线提交（Canvas链接），无考试。

课程笔记： 18.063 课程笔记。其他相关材料将陆续在此发布。

Piazza论坛： 在线讨论请访问Piazza。

课程简介：

我们都知道，诸如18.01和18.02之类的微积分课程分别讲授一元微积分和多元微积分。然而，现代应用领域，如机器学习和大规模优化问题，需要更进一步的发展，即“矩阵微积分”以及在任意向量空间上的微积分。

本课程从线性代数的角度重新审视并推广微积分理论，将其扩展到更为广泛的范畴（例如，矩阵函数关于矩阵本身的导数，或关于函数的积分、关于常微分方程参数的解的导数等），并将其与高效求导算法及自动微分（AD）的计算机科学原理相结合。

我们将采用一种连贯的方法来讲解矩阵微积分，强调矩阵应被视为整体对象而非单纯标量数组；我们将推广并计算重要矩阵分解及其他复杂运算的导数，并探讨在大规模计算中如何重新设计求导公式。此外，我们还将讨论反向传播、自定义向量-雅可比乘积，以及现代自动微分更多地属于计算机科学而非传统微积分的本质——它既不是符号推导，也不是有限差分方法。

先修课程： 线性代数（如18.06）和多元微积分（如18.02）。

本课程将涉及使用Julia语言进行简单的数值计算。建议您按照这些说明在自己的电脑上安装Julia；作为备选方案，您也可以在此处通过云端运行：

课程主题：

以下是部分计划讲授的主题：

导数作为线性算子及在任意向量空间上的线性近似：超越梯度与雅可比矩阵。
具有矩阵输入或输出的函数的导数（如矩阵逆和行列式）。克罗内克积与矩阵“向量化”。
矩阵分解的导数（如特征值/SVD）以及带约束条件的导数（如正交矩阵）。
多维链式法则，以及右向左（“前向”）与左向右（“反向”）复合的重要性。计算图上的链式法则（如神经网络）。
手动与自动多变量微分的前向模式与反向模式。
针对线性、非线性及微分方程解的导数的伴随方法（vJp/回传规则）。
应用于非线性方程求根与优化问题。多维牛顿法与最速下降法。
工程/科学优化及机器学习中的应用。
二阶导数、海森矩阵、二次近似以及拟牛顿法。

第1讲（1月12日）

第一部分：概述（幻灯片）
第二部分：导数作为线性算子：矩阵函数、梯度、乘积法则与链式法则

将导数重新理解为线性算子：f(x+dx)-f(x)=df=f′(x)[dx]。也就是说，f′是那个在输入发生“微小”变化dx时，给出输出变化df的线性算子，且这种关系仅在dx的一阶近似下成立（即忽略高阶项）。当我们的函数f(x)∈ℝᵐ的输入x∈ℝⁿ为向量时，f′(x)就是一个将n维输入映射到m维输出的线性算子，我们可以将其视为一个m×n的矩阵，称为雅可比矩阵（通常在18.02课程中只是浅显地介绍）。

同样地，我们也可以将矩阵值函数的导数定义为作用于矩阵上的线性算子。例如，f(X)=X²时，有f′(X)[dX] = X dX + dX X；而f(X) = X⁻¹时，则有f′(X)[dX] = –X⁻¹ dX X⁻¹。这些都是对矩阵dX进行操作的良好线性算子，尽管它们并未以“雅可比矩阵×列向量”的形式写出！（我们确实可以通过将输入dX和输出df重塑为列向量，并更正式地选择基底来实现这一形式；稍后我们会讨论如何利用克罗内克积使这一过程更加优雅。但大多数情况下，没有必要也不希望将所有线性算子都以雅可比矩阵的形式表达。）

拓展阅读：课程笔记（见上方链接），第1章和第2章。 matrixcalculus.org（幻灯片中已链接）是一个可以用来玩转矩阵和向量函数导数的有趣网站。矩阵手册中包含大量此类导数的公式，但没有推导过程。此外，针对2021年IAP学期的6.S087课程，还发布了一些关于向量与矩阵微分的笔记。

进阶阅读（更高级的数学）：将导数视为线性算子的观点有时被称为弗雷歇导数，网上有许多非常抽象（我称之为“高级”）的讲解，充斥着各种奇特术语，其目的基本上是将这一概念推广到各种奇异的向量空间中。“小o记号”o(δx)是我们在这里用于描述“无穷小渐近行为”的一种方式，它与计算机科学中使用的大O记号密切相关，不过在计算机科学中，人们通常取的是当参数（常称为“n”）变得非常大时的极限，而不是非常小时的极限。我们将在后续内容中对此进行形式化，对应于课程笔记的第5.2节。

第2讲（1月14日）

第一部分：广义求和与乘积法则，X⁻¹、‖x‖²以及xᵀAx的导数；标量值函数的梯度∇f。黑板讲解加上一些来自第1讲的幻灯片。课程笔记：第2章。
第二部分：通过向量化和克罗内克积计算矩阵函数的雅可比矩阵；相关资料：2×2矩阵雅可比矩阵（HTML）、(Pluto笔记本源代码)、(Jupyter笔记本)。课程笔记：第3章。

拓展阅读（关于梯度）：我们将在后续内容中探讨更一般的推广，对应于课程笔记的第5章。行向量还有一个高大上的名字，叫做“余向量”或线性泛函，而行向量与列向量之间关系的高级表述则是里斯表示定理，不过在接触到非欧几何之前，你可能还是把行向量看作列向量的转置会更自在。

第3讲（1月16日）

第一部分：链式法则以及前向与反向“模式”微分：课程笔记第2.4节。示例应用，第6章：关于非线性方程求根、优化以及伴随方法微分的幻灯片幻灯片
通过矩阵内积（即弗罗贝尼乌斯内积）计算矩阵梯度：课程笔记第5章
作业1已发布，截止日期为1月23日周五午夜。

第4讲（1月21日）

第一部分：广义梯度与内积 — 手写笔记链接及课程讲义第5章
- 同时涉及范数与导数：为何需要输入和输出的范数来定义导数，尤其是用来界定“高阶项”以及o(δx)的具体含义。
- 更多关于单位处理的内容：当向量各分量具有不同单位时，定义内积（进而定义范数）就需要引入维度权重因子对各量进行归一化。若采用标准梯度/内积，则隐含地使用了当前所用单位对应的权重。变量替换（以实现无量纲化）在最速下降法中等价于对内积/范数的无量纲化处理，但前者通常更便于直接使用现成的优化软件。一般而言，应选择合适的单位或缩放方式，使所有变量的数量级相近，否则最速下降法可能会收敛得非常缓慢！
行列式的梯度公式为∇(det A) = det(A)A⁻ᵀ（课程讲义第7章）

将梯度概念推广至定义在任意向量空间V中的标量函数f(x)。关键在于，我们不仅需要一个向量空间，还需要一个内积x⋅y（即“点积”，也可记作⟨x,y⟩或⟨x|y⟩）；此时V便正式被称为希尔伯特空间。对于任意标量函数，由于df=f'(x)[dx]是一个将dx∈V映射到实数df∈ℝ的线性算子（即“线性泛函”），因此它必然可以表示为dx与某个“东西”的点积，而这个“东西”就是梯度！也就是说，一旦定义了内积，对于任何标量函数f(x)，我们都可以通过f'(x)[dx]=∇f⋅dx来定义∇f。因此，∇f总是与x具有相同“形状”的量（即最速上升方向）。

随后讨论了内积的一般要求：线性、正定性以及（共轭）对称性，并简要提及由此推导出的柯西-施瓦茨不等式。接着给出了一些内积的例子，如熟悉的欧几里得内积xᵀy，以及加权内积等。此外还定义了m×n矩阵最直观的内积——弗罗贝尼乌斯内积A⋅B=sum(A .* B)=trace(AᵀB)=vec(A)ᵀvec(B)，即矩阵对应元素乘积之和。由此还可得到“弗罗贝尼乌斯范数”‖A‖²=A⋅A=trace(AᵀA)=‖vec(A)‖²，即各元素平方和的平方根。借助这一工具，我们现在可以计算各类矩阵标量函数的导数，例如：

f(A)=tr(A) ⥰ ∇f = I
f(A)=‖A‖ ⥰ ∇f = A/‖A‖
f(A)=xᵀAy ⥰ ∇f = xyᵀ（其中x、y为常数）
f(A)=det(A) ⥰ ∇f = det(A)(A⁻¹)ᵀ = A的伴随矩阵的转置

此外还讨论了范数的定义（范数可由内积导出，但也可独立定义），并说明了为何需要范数来定义导数：范数嵌入在高阶项o(δx)的定义之中。尽管存在多种可能的范数，但在有限维空间中，所有范数都等价于相差一个常数因子，因此导数的定义并不依赖于具体选用的范数。

最后，在柯西-施瓦茨不等式的辅助下，精确推导并证明了一个众所周知的事实：对于任意向量空间（即希尔伯特空间）上的标量函数，其梯度∇f必然是该内积所对应范数下的最速上升方向。也就是说，若沿某一方向迈出固定长度的步长‖δx‖=s，则f(x)在一阶近似下的最大增量将出现在与∇f同向的方向上。

拓展阅读（∇det）：课程讲义第7章。网络上关于行列式导数的讨论很多，其中常涉及“伴随矩阵”det(A)A⁻¹。然而较少被提及的是，行列式的梯度正是广泛用于行列式拉普拉斯展开的余子式矩阵。此外，log(det A)的导数公式也颇为有趣，而行列式的对数在许多领域都有应用，从统计学到量子场论。矩阵手册中收录了许多此类公式，但并未给出推导过程。行列式导数的一个重要应用是利用牛顿法求解特征值λ，即令det(A-λI)=0。更一般地，对于任意函数Μ(λ)，均可通过求解det(M(λ))=0来获得其根λ，这些根被称为非线性特征值（若M关于λ是非线性的）。此时可借助此处的行列式导数公式，采用牛顿法进行迭代求解。

第5讲（1月23日）

方向导数：$f'(x)[v] = \frac{d}{d\alpha} f(x + \alpha v) \left. \right|_{\alpha=0}$。当 $v$ 是笛卡尔基向量时，方向导数与梯度或导数的“分量”之间存在联系。课程笔记 第2.2.1节
神经网络（NN）的反向模式梯度：手写反向传播笔记，课程笔记 第9章。
通过对偶数实现的前向模式自动微分（AD）（Julia 笔记本) —— 课程笔记，第8章
习题集1答案
习题集2：截止日期为1月30日午夜

关于神经网络反向传播的进一步阅读：Strang (2019) 第VII.3节以及18.065 OCW 第27讲。网上可以找到大量关于神经网络中反向传播的文章。神经网络中的反向传播与递推关系的反向传播/伴随方法（课程笔记）以及计算图（博客文章）密切相关。我们将在未来的课程中再次讨论计算图。

关于前向AD的进一步阅读：课程笔记第8章。在谷歌上搜索“automatic differentiation”会找到许多资源——这如今是一个非常重要的应用领域。Julia 中的 ForwardDiff.jl（由这篇论文详细描述）使用与课堂类似的对偶数算术来计算导数；此外，还可以参考这篇AMS评论文章，或者搜索“dual number automatic differentiation”以获取更多相关评论。Adrian Hill 曾为柏林工业大学的一门机器学习课程（2023年夏季）发布了一些不错的关于自动微分的讲义。TaylorDiff.jl则将这一方法扩展到了更高阶导数。

第6讲（1月26日）：通过Zoom（仅限MIT用户）

由于暴雪紧急情况，周一的课程将通过上述 Zoom 链接进行。

第一部分：计算图上的前向和反向模式自动微分：课程笔记 第8.3节 和基于“用反斜杠进行回代的反向传播（2003）”的幻灯片。Julia 笔记本。
第二部分：变分法：课程笔记 第11章

进一步阅读（图上的AD）：课程笔记第8.3节。请参阅Edelman 教授的海报关于图上反向传播的内容，这篇关于计算图上的微积分的博客文章提供了较为通俗易懂的介绍，而哥伦比亚大学的课程笔记则从更正式的角度进行了阐述。不幸的是，实现自动化的反向模式 AD 比定义一种新的数值类型要复杂得多，它涉及更多的编译器技术细节。此外，还可参考 Chris Rackauckas 关于AD中的权衡的博文，以及 Chris 在关于Julia中可微分物理现状的讨论帖中对AD局限性的探讨。

进一步阅读（变分法）：关于变分法有许多资料，它指的是对函数 $u(x)$ 的泛函 $f(u)=\int F(u,u′,…)dx$ 求导。但我们已经看到，这本质上只是我们一般规则 $df=f(u+du)-f(u)=f′(u)[du]=\nabla f\cdot du$ 的一个特例，其中 $du$ 属于函数空间。将 $\nabla f$ 设为零以寻找 $f(u)$ 的极值，便得到欧拉-拉格朗日方程，其最著名的例子可能是拉格朗日力学，还有最速降线问题，但它也出现在许多其他领域，如最优控制。一本非常易读的教材是变分法，作者为盖尔凡德和福明。

第7讲（1月28日）

第一部分：复数与CR微积分 — 手写笔记 — 课程笔记 第15章
第二部分：带约束的导数、特征值问题的导数 (html) (julia源码) — 课程笔记 第14章

扩展阅读（CR微积分）：关于CR微积分的一份知名参考资料是UCSD的笔记《复梯度算子与CR微积分》（作者：Ken Kreutz-Delgado，2009年），可参见arXiv链接。这类导数也被称为Wirtinger导数。一些自动微分库对此提供了支持，例如ChainRules.jl中关于复函数的文档以及JAX中关于复函数的说明。对于“全纯函数”或“解析函数”这一特殊情况——即存在“普通”导数（对dz的线性算子）——其主要研究内容属于复分析，相关资源非常丰富，包括教科书、在线教程以及类似18.04的课程。

扩展阅读（带约束的导数及特征值问题）：在曲面（流形）上计算导数与微分几何中的切空间密切相关。约束的影响也可以用Lagrange乘子来表示，后者常用于处理带约束的优化问题（参见Boyd和Vandenberghe所著的凸优化第5章）。
在物理学中，本征值的一阶和二阶导数以及本征向量的一阶导数通常作为量子力学中“不含时”微扰理论的一部分出现，或者以dλ情况下的Hellmann–Feyn曼定理的形式呈现。本征向量的导数涉及所有其他本征向量，但通过从左至右对本征向量的标量函数进行求导，可以得到一个更为简单的“向量–雅可比乘积”（仅涉及单个本征向量和本征值），这一点已在18.335课程中关于伴随方法的笔记中有所回顾。

在对矩阵A(x)的本征值λ求导时，当本征值发生交叉（重数k > 1）时会出现复杂情况：此时本征值（以及本征向量）通常不再可导。更一般地，任何具有重复根的隐函数都会面临类似问题。在这种情况下，一种可行方案是采用一种称为广义梯度的扩展敏感性分析定义：它是一个k×k的矩阵值线性算子G(x)[dx]，其本征值即为perturbations dλ。相关文献包括Cox (1995)、Seyranian等 (1994)以及Stechlinski (2022)。物理学家将这一思想称为简并微扰理论。近年来，另一种类似的表述方式被称为字典序方向导数；相关文献有Nesterov (2005)以及Barton等 (2017)。有时，涉及本征值的优化问题可以通过使用半正定规划(SDP)约束来进行重新建模，从而避免此类困难(Men等，2014)。而对于亏本征矩阵，情况则更加糟糕：即使广义导数也会发散，因为dλ与扰动‖dA‖的平方根成正比。

第9讲（1月30日）

特征值与特征向量的导数，接续上节课内容。
高维CR微积分及CR梯度，接续上节课内容。
二阶导数、Hessian矩阵、二次近似及其应用——课程第13章——以及结合反向模式和正向模式来计算Hessian矩阵或Hessian-向量乘积（笔记8.4.1节）。
我们未涉及的一些主题：常微分方程解的求导（笔记第10章）、随机函数的求导（笔记第12章），以及其他如δ函数与分布导数等导数的推广形式（笔记第16章）。
pset 2答案

延伸阅读（二阶导数）：

双线性形式是将二次运算推广到任意向量空间的重要概念，我们已经看到，二阶导数可以被视为一种对称双线性形式。这与二次型密切相关，后者正是将同一个向量代入两次所得到的结果，例如在f(x+δx)的二次近似中出现的f''(x)[δx,δx]/2就是一个二次型。f''(x)最熟悉的多元版本就是Hessian矩阵；可汗学院提供了一个基础的二次近似的介绍。
正定的Hessian矩阵，或者更一般地，正定二次型f″，出现在标量函数f(x)的局部极小值点处（f′=0）；关于这一思想还有许多更为正式的论述。相反地，可汗学院也提供了简单的二元版本，你只需查看行列式和其中一个元素（或迹）的符号，就能判断2×2矩阵的特征值正负。StackExchange上有一篇不错的讨论为什么条件数不良的Hessian会使最速下降法收敛缓慢；多伦多大学关于该主题的一些课程笔记也可能有所帮助。
可参阅斯坦福大学关于使用信赖域的序列二次优化的相关笔记（第2.2节）。此外，还有18.335课程关于BFGS拟牛顿法的笔记（也可观看视频）。书中还提到，在球体内进行的二次优化问题具有强对偶性，因此可以高效求解（见《凸优化》一书第5.2.4节）。近年来，关于自动计算Hessian矩阵的研究十分活跃，但对于大规模问题而言，通常只能高效计算Hessian-向量乘积，而这种乘积等价于梯度的方向导数，可用于例如牛顿–克里洛夫方法。

MatrixCalc 快速上手指南

matrixcalc 是麻省理工学院（MIT）18.063 课程的配套资源，旨在通过线性代数视角重新审视并推广微积分，特别适用于机器学习、大规模优化及自动微分（AD）领域。本指南将帮助你快速搭建环境并开始学习。

环境准备

本课程主要使用 Julia 语言进行数值计算演示。

操作系统：Windows, macOS, 或 Linux
前置知识：
- 线性代数基础（参考 MIT 18.06）
- 多变量微积分基础（参考 MIT 18.02）
核心依赖：
- Julia 编程语言 (推荐最新稳定版)
- 网络访问能力（用于下载课程笔记和访问 Piazza 论坛）

注意：国内用户若下载 Julia 较慢，可尝试使用清华或中科大镜像源配置 Julia 包管理器，但语言本体建议从官网或 GitHub Release 页面下载。

安装步骤

你可以选择本地安装或云端运行两种方式。

方案一：本地安装（推荐）

下载并安装 Julia 访问 Julia 官网下载对应系统的安装包并安装。或者遵循 MIT 官方提供的详细安装指引：
```
# 参考官方安装脚本说明
# https://github.com/mitmath/julia-mit#installing-julia-and-ijulia-on-your-own-computer
```
克隆课程代码仓库 打开终端（Terminal 或 PowerShell），执行以下命令获取课程材料：
```
git clone https://github.com/mitmath/matrixcalc.git
cd matrixcalc
```
安装必要的 Julia 包 进入 Julia 交互界面，激活项目环境并实例化依赖：
```
using Pkg
Pkg.activate(".")
Pkg.instantiate()
```

方案二：云端运行（免安装）

如果不想在本地配置环境，可以直接使用 Binder 在浏览器中运行：

点击上述链接，等待环境加载完成后即可直接运行 .jl 和 .ipynb 文件。

基本使用

本课程的核心在于理解“导数作为线性算子”的概念。以下是基于课程笔记的最简单使用示例。

1. 查阅核心课程笔记

课程的核心内容整理在 PDF 笔记中，建议优先阅读：

下载地址：18.063 COURSE NOTES
重点章节：
- Chapter 1 & 2: 导数作为线性算子 (Derivatives as linear operators)
- Chapter 3: 向量化与克罗内克积 (Vectorization and Kronecker products)

2. Julia 代码示例：矩阵函数的导数

在 Julia 环境中，我们可以验证课程中提到的矩阵求导公式。例如，对于函数 $f(X) = X^{-1}$，其导数作用于微小变化量 $dX$ 的结果应为 $-X^{-1} dX X^{-1}$。

创建一个名为 demo.jl 的文件或直接 REPL 中输入：

using LinearAlgebra

# 定义一个随机可逆矩阵 X
X = rand(3, 3) + 3I  # 加上单位阵确保可逆
dX = rand(3, 3) * 1e-6  # 微小扰动

# 方法 A: 数值差分近似 (Finite Difference)
f(X) = inv(X)
numerical_derivative = (f(X + dX) - f(X)) / 1.0 # 简化步长

# 方法 B: 理论公式 (Linear Operator perspective)
# f'(X)[dX] = -X⁻¹ * dX * X⁻¹
theoretical_derivative = -inv(X) * dX * inv(X)

# 验证两者是否接近
println("最大误差: ", maximum(abs.(numerical_derivative - theoretical_derivative)))

# 输出标量函数的梯度示例 (f(x) = x'Ax)
x = rand(3)
A = rand(3, 3)
A_sym = A + A' # 对称部分

# 梯度 ∇f = (A + A')x
gradient = A_sym * x
println("梯度向量形状: ", size(gradient))

3. 交互式笔记本学习

仓库中包含多个 Pluto 和 Jupyter 笔记本，用于可视化推导过程。启动方式：

using Pluto
Pluto.run(notebook="notes/2x2Jacobians.jl")

或者在 Jupyter Lab 中打开 notes/2x2Jacobians.ipynb 查看关于 $2 \times 2$ 矩阵雅可比行列式的详细推导。

4. 辅助工具推荐

Matrix Calculus Online: 访问 matrixcalculus.org 在线验证矩阵和向量函数的导数。
The Matrix Cookbook: 查阅常用矩阵导数公式速查表（仅含公式无推导）。

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他