BERT 自然语言处理

AI 论文解读系列:BERT - 预训练深度双向 Transformer 的革命

引言:语言理解的瓶颈 2018年10月,Google AI Language 团队发布了一篇名为"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"的论文。这篇论文及其开源代码在 NLP 领域引发了一场革命。 在 BERT 出现之前,自然语言处理面临一个根本性难题:如何让机器真正理解语言的上下文含义?传统的语言模型只能从左到右(或从右到左)单向处理文本,就像阅读时只能看到当前词之前的所有词,却无法看到之后的词。这种"管中窥豹"的方式严重限制了模型的理解能力。 BERT 的核心突破在于它提出了深度双向表示的概念——通过一种新的预训练目标,让模型同时考虑词语的左右上下文,从而获得更丰富、更准确的语言理解能力。 本文将深入解读 BERT 的技术原理,从其核心思想出发,逐步揭示它如何改变了 NLP 的研究范式。 第一章:从上下文说起——为什么双向如此重要 1.1 一词多义的困境 自然语言的复杂性很大程度上源于一词多义。同一个词在不同的上下文中可能有完全不同的含义。考虑这两个句子: “他在银行工作。"(金融机构) “河边的银行种满了柳树。"(河岸) 对于人类来说,区分这两个"银行"的含义轻而易举,因为我们能够同时看到这个词左右两侧的上下文。但对于单向语言模型来说,当它处理到"银行"这个词时,只能看到"他在"或"河边的”,无法获得足够的信息来做出准确判断。 1.2 传统语言模型的局限 传统的语言模型采用自回归(Autoregressive)方式建模,即基于前文预测下一个词: $$ P(w_1, w_2, \ldots, w_n) = \prod_{i=1}^{n} P(w_i | w_1, \ldots, w_{i-1}) $$ GPT 等模型采用了这种从左到右的处理方式。虽然这种架构在生成任务(如机器翻译、文本摘要)中表现良好,但对于需要深度理解上下文的任务(如问答、情感分析)则存在天然的局限性。 另一种尝试是浅层双向,如 ELMo。它分别训练一个从左到右和一个从右到左的语言模型,然后将两者的表示拼接起来。这种方法虽然考虑了双向信息,但两个方向的表示是独立计算的,而非真正的深度交互。 图 1:语言模型架构对比。左图为单向模型只能看到左侧上下文,右图为 BERT 双向模型可以看到完整上下文 第二章:Transformer——BERT 的基石 在深入 BERT 之前,我们需要理解它的基础架构:Transformer。BERT 完全基于 Transformer 的 Encoder 部分构建。 2.1 注意力机制的魔力 Transformer 的核心是自注意力机制(Self-Attention)。与传统的循环神经网络(RNN)不同,自注意力允许模型直接建模序列中任意两个位置之间的关系,无论它们相距多远。 ...

January 30, 2026 · 4 min · 656 words · s-ai-unix
Seq2Seq 神经网络抽象图

AI 论文解读系列:Seq2Seq--从序列到序列的革命

引言:翻译的困境 想象一下,你正在学习一门外语。当你听到一句法语 “Bonjour le monde” 时,你的大脑是如何将其转化为英语 “Hello world” 的? 这不是简单的逐词替换。“Bonjour” 对应 “Hello”,但 “le monde” 是 “the world” 的倒序。词序不同,语法结构不同,甚至可能一个词对应多个词。传统的机器翻译系统使用基于规则的方法或统计模型,需要大量的人工特征工程和复杂的对齐算法。 2014年,Ilya Sutskever、Oriol Vinyals 和 Quoc Le 在 Google 发表了一篇改变游戏规则的论文:“Sequence to Sequence Learning with Neural Networks”。他们提出的 Seq2Seq 架构,用一个统一的神经网络模型取代了复杂的流水线,让机器翻译的准确率跃升到了新的高度。 但这篇论文的意义远不止于翻译。它开创了序列转导(Sequence Transduction)这一全新的学习范式,为后来的注意力机制、Transformer 乃至大语言模型奠定了基础。 第一章:序列转导问题 1.1 什么让序列数据特殊 在深入 Seq2Seq 之前,让我们先理解序列数据的本质。 传统的机器学习任务,比如图像分类或房价预测,输入和输出的维度是固定的。一张图片永远是 $224 \times 224 \times 3$ 的像素矩阵,一套房子的特征永远是卧室数、面积、位置等固定字段。 但序列数据不同: 一句话可能有 5 个词,也可能有 50 个词 源语言和目标语言的词序可能不同 一个概念可能用一个词表达,也可能用多个词 上图展示了一个典型的机器翻译场景。输入序列 “Hello world this is a test” 需要被转换为 “Bonjour monde ceci est un test”。注意两个关键挑战: ...

January 30, 2026 · 4 min · 763 words · s-ai-unix
Word2Vec 词向量可视化

AI 论文解读系列:Word2Vec - 词向量的革命

“You shall know a word by the company it keeps.” — John Rupert Firth 引言:从符号到语义 想象一下,你正在阅读一篇关于"苹果"的文章。在"乔布斯推出了划时代的苹果产品"这句话中,“苹果"显然指的是一家公司;而在"我喜欢吃新鲜的苹果"中,它则是一种水果。人类能够毫不费力地根据上下文理解这种歧义,但对于计算机而言,这曾是一个巨大的挑战。 在 Word2Vec 出现之前,自然语言处理主要依赖独热编码(One-Hot Encoding):每个词都被表示为一个高维稀疏向量,向量中只有对应位置为 $1$,其余全为 $0$。“苹果"可能是 $[0, 0, 1, 0, \ldots, 0]$,“香蕉"是 $[0, 0, 0, 1, \ldots, 0]$。这种方法的问题显而易见:任意两个词之间的余弦相似度都是 $0$,模型完全无法捕捉"苹果"和"香蕉"都是水果这一语义关系。 2013 年,Tomas Mikolov 等人在 Google 提出了 Word2Vec,这是一种能够从大规模语料库中学习词向量表示的浅层神经网络。其核心思想简单却深刻:语义相近的词,其上下文也相似。这一方法不仅在多项语义和语法任务上取得了当时最先进的性能,更开启了深度学习在自然语言处理领域的广泛应用。 本文将带你深入理解 Word2Vec 的数学原理,从神经概率语言模型出发,完整推导 CBOW 和 Skip-gram 两种架构,并探讨其在现代 NLP 中的深远影响。 第一章:从词袋到神经语言模型 1.1 统计语言模型的演进 语言模型的核心任务是计算一个句子出现的概率。对于包含 $n$ 个词的句子 $$w_1, w_2, \ldots, w_n$$ 其联合概率可以分解为: $$P(w_1, w_2, \ldots, w_n) = \prod_{i=1}^{n} P(w_i \mid w_1, \ldots, w_{i-1})$$ 这个分解基于链式法则,但直接估计这些条件概率面临维度灾难——历史词的组合数是指数级的。 ...

January 30, 2026 · 7 min · 1442 words · s-ai-unix
AI 论文解读系列 Vision Transformer cover image

AI 论文解读系列:Vision Transformer 视觉Transformer

AI 论文解读系列:Vision Transformer 视觉 Transformer 引言 2020 年,Google Research 发表了一篇极具颠覆性的论文《An Image is Worth 16$\times$16 Words: Transformers for Image Recognition at Scale》。这篇论文提出了 Vision Transformer(ViT),一个纯粹基于 Transformer 架构的视觉模型,在 ImageNet 分类任务上取得了与最先进的卷积神经网络(CNN)相媲美甚至超越的成绩。 这个成果的震撼之处在于:在计算机视觉领域统治了整整十年的卷积神经网络,终于遇到了真正的挑战者。CNN 凭借其归纳偏置(局部性、平移等变性)在视觉任务中表现出色,而 Transformer 原本是为自然语言处理设计的序列模型。ViT 的成功证明,只要有足够的数据和计算资源,纯粹的注意力机制同样可以在视觉任务中大放异彩。 本文将从注意力机制的基础出发,循序渐进地剖析 ViT 的架构设计、数学原理和训练策略,揭示为何"一张图片相当于 16$\times$16 个单词"这一简单想法能够改变计算机视觉的格局。 第一章:从 CNN 到 Transformer 的范式转移 1.1 卷积神经网络的统治时代 自 2012 年 AlexNet 在 ImageNet 竞赛中取得突破性成果以来,卷积神经网络(CNN)一直是计算机视觉领域的主流架构。CNN 的成功建立在几个关键设计之上: 局部感受野(Local Receptive Fields):每个神经元只与输入的局部区域连接,捕捉局部特征如边缘、纹理。 权重共享(Weight Sharing):同一个卷积核在整个输入上滑动,检测相同特征的不同位置。 平移等变性(Translation Equivariance):输入图像平移,特征图也相应平移,保持空间关系。 这些归纳偏置(Inductive Bias)使 CNN 非常适合处理图像数据,但也带来了一些限制: 感受野有限,需要堆叠多层才能获取全局信息 对长距离依赖的建模能力较弱 难以直接捕捉空间上相距较远的像素之间的关系 1.2 Transformer 在自然语言处理中的成功 2017 年,Google 在论文《Attention Is All You Need》中提出了 Transformer 架构,彻底改变了自然语言处理(NLP)领域。Transformer 完全基于自注意力机制(Self-Attention),摒弃了循环和卷积结构。 ...

January 30, 2026 · 5 min · 986 words · s-ai-unix
AI 论文解读系列 ResNet 深度残差学习 cover image

AI 论文解读系列:ResNet 深度残差学习

AI 论文解读系列:ResNet 深度残差学习 引言 2015 年,微软研究院的何恺明等人在 ImageNet 竞赛中提出了一个看似简单却极具革命性的想法:如果神经网络学习的是残差而非直接的映射,会发生什么?这个想法催生了 ResNet(Residual Network),一个拥有 152 层甚至 1000 多层的深度网络,不仅赢得了 ImageNet 2015 的冠军,更重要的是,它解决了困扰深度学习领域多年的一个核心问题——深层网络的退化。 在 ResNet 出现之前,人们普遍认为更深的网络应该具有更强的表达能力。然而实践却给出了反直觉的结果:当网络层数增加到一定程度后,训练准确率反而下降。这不是过拟合,因为在训练集上的表现同样变差了。ResNet 的巧妙之处在于,它通过一个极其简单的跳跃连接(skip connection),让网络可以选择学习残差映射 $\mathcal{F}(\mathbf{x}) = \mathcal{H}(\mathbf{x}) - \mathbf{x}$,而非直接学习 $\mathcal{H}(\mathbf{x})$。 本文将系统性地解读这篇经典论文,从问题背景、核心思想、数学推导、架构设计到实验验证,循序渐进地揭示 ResNet 为何如此有效。 第一章:深层网络的困境 1.1 从浅层到深层:一个自然的假设 深度学习的成功在很大程度上归功于深层神经网络强大的表示能力。从 LeNet-5 的 5 层,到 AlexNet 的 8 层,再到 VGGNet 的 16-19 层,网络深度的增加似乎与性能提升正相关。这种趋势背后的直觉很简单:更深的网络可以学习更复杂的特征层次结构。 让我们形式化地思考这个问题。假设我们有一个浅层网络,它能够学习某个映射 $\mathcal{H}(\mathbf{x})$。如果我们在其后面添加更多层,直觉上,这些额外的层可以学习恒等映射(identity mapping),即直接输出输入:$\mathbf{y} = \mathbf{x}$。这样,深层网络至少应该和浅层网络表现一样好。 然而,实践观察到的却是另一番景象。 1.2 退化问题:理论与现实的鸿沟 2015 年之前的研究者发现,当网络层数超过 20 层后,出现了一个令人困惑的现象:随着网络加深,训练误差不降反升。 上图展示了在 CIFAR-10 数据集上的典型实验结果。20 层网络的训练误差约为 8%,而 56 层网络的训练误差却上升到了 20%。请注意,这是在训练集上的表现,因此这不是过拟合问题,而是优化问题。 这个现象被称为退化问题(Degradation Problem)。它的存在表明: ...

January 30, 2026 · 5 min · 1008 words · s-ai-unix
张量与多维数据

张量:从数学抽象到深度学习核心的系统综述

引言:多维世界的数学语言 想象你正在观察一个正在旋转的陀螺。描述它需要多少参数? 位置:$3$ 个坐标 $(x, y, z)$ 方向:$3$ 个欧拉角 角速度:$3$ 个分量 转动惯量:$9$ 个数($3 \times 3$ 矩阵) 这些量不仅仅是数字的集合,它们有特定的变换规则。当坐标系旋转时,位置和角速度按向量规则变换,而转动惯量则按更复杂的规则变换——这就是张量。 在物理学中,张量是描述场的通用语言。爱因斯坦的广义相对论用张量写下: $$G_{\mu\nu} + \Lambda g_{\mu\nu} = \frac{8\pi G}{c^4} T_{\mu\nu}$$ 在深度学习中,一张 $224 \times 224$ 的彩色图像是 $224 \times 224 \times 3$ 的三阶张量。一批 $32$ 张这样的图像是 $32 \times 224 \times 224 \times 3$ 的四阶张量。 本文将带你走进张量的世界,从数学定义到物理直觉,从代数运算到现代应用,理解为什么张量成为描述复杂系统的核心工具。 第一章:张量的本质——超越矩阵的多维数组 1.1 从标量到张量 在数学中,我们熟悉不同维度的对象: 图 1:张量的维度层级。从0阶标量(单个数字)到1阶向量、2阶矩阵,再到3阶及更高阶张量,维度不断增加。 *0阶张量:标量 标量只有一个数值,没有方向: $$a = 5, \quad T = 300\text{K}, \quad E = mc^2$$ 标量在坐标变换下不变——无论你从哪个角度看,温度始终是 $300$K。 ...

January 29, 2026 · 5 min · 1019 words · s-ai-unix
神经网络与深度学习

AlexNet:开启深度学习革命的里程碑

引言:一个时代的分水岭 $2012$ 年 $9$ 月 $30$ 日,多伦多大学的研究团队在 ImageNet 大规模视觉识别挑战赛(ILSVRC)上提交了一个卷积神经网络模型。当时,没有人意识到这将是一个历史性的时刻。 这个模型叫做 AlexNet,以第一作者 Alex Krizhevsky 的名字命名。它在图像分类任务上将 Top-5 错误率从上一年的 $25.8%$ 骤降至 $16.4%$——降幅接近 $10$ 个百分点,远超第二名近 $10%$。 这不是一次普通的进步,这是一次范式革命。 在此之前,深度学习经历了漫长的"寒冬"。尽管 $1986$ 年反向传播算法已被提出,$1998$ 年 LeCun 的 LeNet 已经证明了卷积神经网络的潜力,但深层网络的训练一直受困于梯度消失、计算资源匮乏和数据不足等问题。 AlexNet 的突破不仅在于它赢得了比赛,更在于它证明了:深度神经网络可以在大规模数据集上有效训练,并且性能远超传统方法。 这一证明,开启了人工智能的新纪元。 第一章:黎明前的黑暗——深度学习的寒冬 1.1 感知机的兴衰 要理解 AlexNet 的意义,我们需要回溯到神经网络的起源。 $1958$ 年,Frank Rosenblatt 提出了感知机(Perceptron),这是第一个能够学习的神经网络模型。Rosenblatt 乐观地宣称:“感知机最终将能够学习、做出决策和翻译语言。” 然而,$1969$ 年,Marvin Minsky 和 Seymour Papert 在《Perceptrons》一书中证明了感知机的局限性:它无法解决非线性可分问题,比如简单的异或(XOR)问题。 这个打击是致命的。神经网络研究陷入了第一次寒冬。 1.2 反向传播的曙光与困境 $1986$ 年,Rumelhart、Hinton 和 Williams 重新发现了反向传播算法(Backpropagation),为训练多层神经网络提供了理论基础。 反向传播的核心思想: 给定损失函数 $L$,网络参数 $\mathbf{W}$,反向传播通过链式法则计算梯度: $$\frac{\partial L}{\partial w_{ij}^{(l)}} = \frac{\partial L}{\partial z_i^{(l)}} \cdot \frac{\partial z_i^{(l)}}{\partial w_{ij}^{(l)}} = \delta_i^{(l)} \cdot a_j^{(l-1)}$$ ...

January 29, 2026 · 5 min · 1021 words · s-ai-unix
微分几何与深度学习

微分几何与深度学习:从流形假设到几何深度学习

引言:当深度学习遇见弯曲的空间 2012年,AlexNet 在 ImageNet 竞赛中以压倒性优势获胜,深度学习正式进入大众视野。此后,神经网络在各种任务上展现出惊人能力:图像识别、语音识别、机器翻译、游戏对战……但有一个问题始终困扰着研究者:为什么神经网络能够如此有效地学习? 答案或许藏在数据的本质结构中。想象你正在看一张人脸照片——1000 $\times$ 1000 像素的图像意味着这是一个百万维的空间中的点。但所有人脸照片都分布在这个百万维空间的一个极小子集上。为什么?因为真实的人脸受到物理规律的约束:两只眼睛在鼻子两侧,嘴巴在鼻子下方,等等。 这个子集不是随机的散点集合,而是一个流形(manifold)——一个局部看起来像欧几里得空间,但整体上可能弯曲、扭转的几何对象。 流形假设(Manifold Hypothesis)是连接微分几何与深度学习的桥梁: 真实世界的高维数据往往分布在一个低维流形上。 这个假设解释了为什么深度学习能够成功,也指明了改进的方向。从流形学习的早期算法,到现代的几何深度学习,微分几何正在成为理解神经网络本质的重要语言。 让我们从最基本的流形概念开始,逐步揭开这层神秘的面纱。 第一章:流形假设——数据的几何本质 1.1 什么是流形? 在正式定义之前,让我们从一个直观的例子开始。 想象一只蚂蚁生活在地球表面。对于这只蚂蚁来说,地面看起来是平的——它可以向前、向后、向左、向右移动。只有当它旅行了很长距离后,才会意识到这个世界是弯曲的(比如绕地球一圈回到原点)。 流形正是这种"局部平坦,整体弯曲"的空间。数学上,一个 $n$ 维流形 $\mathcal{M}$ 是一个拓扑空间,其中每一点 $p \in \mathcal{M}$ 都有一个邻域,同胚于 $\mathbb{R}^n$。 关键特性: 局部坐标:在任何小区域内,我们可以用 $n$ 个坐标 $(x^1, x^2, \ldots, x^n)$ 描述位置 过渡函数:不同坐标系统之间的变换必须是光滑的 全局结构:局部坐标片可以"缝合"成复杂的整体结构 图1:流形学习的核心思想——高维数据(如瑞士卷)实际上分布在一个低维流形上,学习的目标就是"展开"这个流形,发现其内在的低维结构。 1.2 数据流形:从高维到低维 现在回到深度学习。考虑以下例子: MNIST 手写数字:每个图像是 $28 \times 28 = 784$ 维的向量。但所有"3"的图像并不随机分布在 784 维空间中——它们形成了一个高度结构化的集合。写下"3"的方式虽然变化多端,但受到人体解剖学和书写习惯的约束。 人脸图像:如引言所述,人脸图像分布在由身份、表情、光照、角度等参数控制的低维流形上。这些参数可能有几十个,但远小于百万级的像素维度。 词向量:自然语言处理中的词嵌入将词汇映射到连续向量空间。语义相近的词在向量空间中也相近,形成某种几何结构。 流形维数的估计:如何确定数据流形的维数?这是一个活跃的研究领域。常用方法包括: 主成分分析(PCA):线性估计 本征维数估计:基于最近邻距离的统计方法 分形维数:对于复杂结构的数据 1.3 为什么流形结构重要? 理解数据的流形结构对深度学习有多方面的意义: 1. 维度灾难的缓解 在 $d$ 维欧几里得空间中,要覆盖单位立方体到精度 $\epsilon$,需要 $O(\epsilon^{-d})$ 个样本。这就是维度灾难。 ...

January 28, 2026 · 4 min · 738 words · s-ai-unix
微积分的几何美感

微积分与机器学习:从变化率到神经网络梯度的完整旅程

引言:为什么需要微积分? 想象你在山上,想找到最低点。你会怎么做?你会观察脚下的坡度,选择最陡峭的方向迈出一步,然后重复这个过程。这个简单的直觉——沿着负梯度方向走——正是现代人工智能的核心算法。 从ChatGPT的语言模型到AlphaGo的围棋策略,从图像识别到语音合成,所有这些技术背后都有一个共同的数学基础:微积分。 微积分研究的是变化。而机器学习本质上是关于优化——通过不断调整参数来减少错误。当我们在高维空间中优化复杂的神经网络时,微积分提供了描述和计算这种变化的精确语言。 这篇文章将带你深入理解微积分如何驱动现代人工智能。我们不会停留在表面,而是会深入到数学推导的核心,揭示梯度下降、反向传播等算法的数学本质。这是一次从17世纪牛顿和莱布尼茨的发明,到21世纪深度学习革命的完整旅程。 第一部分:微积分基础理论 1. 导数的本质:从变化率到瞬时变化率 1.1 变化率的直观理解 变化率是人类最早思考的数学问题之一。如果一辆车2小时行驶100公里,平均速度是50公里/小时。但它某一时刻的瞬时速度是多少? 微积分的答案是:用极限。考虑函数 $f(x)$ 在 $x_0$ 附近的平均变化率: $$ \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} $$ 当 $\Delta x \to 0$ 时,这个平均变化率的极限就是导数: $$ f^{\prime}(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} $$ 1.2 导数的几何意义 几何直观:导数是切线的斜率。在 $x_0$ 处,曲线 $f(x)$ 可以用直线(切线)逼近: $$ f(x) \approx f(x_0) + f^{\prime}(x_0)(x - x_0) $$ 这就是一阶泰勒公式,也是线性化的思想:局部用简单的线性函数逼近复杂的非线性函数。 严格定义($\epsilon-\delta$ 语言): $$ \forall \epsilon > 0, \exists \delta > 0 \text{ s.t. } |\Delta x| < \delta \implies \left|\frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} - f^{\prime}(x_0)\right| < \epsilon $$ ...

January 25, 2026 · 9 min · 1716 words · s-ai-unix
信息几何可视化

信息几何:在概率空间中寻找最短路径

引言:当概率成为空间上的点 想象一下,你站在一个巨大的画廊里。墙上挂着无数幅画,每一幅画都是一张概率分布的直方图。如果你要量化两幅画之间的"距离",你会怎么做?直接比较每个柱子的高度差异?还是考虑某种更本质的、统计学意义上的距离? 这个问题触及了统计学的核心:如何量化两个概率分布之间的差异。传统的做法是使用 KL 散度或互信息,但这些度量缺乏几何直观——它们不是真正的"距离",也不满足三角不等式。 信息几何给出了一种全新的视角:将所有概率分布看作一个黎曼流形,每个分布是流形上的一个点,Fisher 信息矩阵定义了这个流形上的度量张量。在这个框架下,我们可以谈论"两点之间的最短路径"(测地线),可以计算"梯度"(自然梯度),可以定义"曲率"(统计流形的曲率)。 这个领域的诞生可以追溯到 1945 年,印度统计学家 C. R. Rao 提出了 Fisher 信息度量可以作为微分几何的度量张量。此后,法国数学家 Amari 系统性地发展了信息几何的理论,并将其与神经网络、优化算法相结合。 在这篇文章中,我们将从基础概念开始,系统性地介绍信息几何的核心理论,探讨其在深度学习中的应用,并对未来的发展方向做出展望。 第一章:几何概率空间 1.1 概率分布作为流形 考虑一个简单的例子:所有零均值、单位方差的一维高斯分布 $\mathcal{N}(0, \sigma^2)$ 可以用一个参数 $\sigma$ 来表示。但如果我们考虑所有可能的高斯分布 $\mathcal{N}(\mu, \sigma^2)$,这就变成了一个二维的空间。 更一般地,考虑一个参数族 $\mathcal{P} = {p(x \mid \theta) : \theta \in \Theta}$,其中 $\theta \in \mathbb{R}^n$ 是参数。这个参数族可以看作一个 $n$ 维的流形——这就是统计流形。 关键洞察:每个概率分布不是孤立的对象,而是镶嵌在无穷维分布空间中的一个点。信息几何的任务就是给这个流形装备一个自然的几何结构。 1.2 Fisher 信息度量 1945 年,C. R. Rao 发现了一个重要的事实:Fisher 信息矩阵可以定义一个黎曼度量。 定义:对于参数族 $p(x \mid \theta)$,Fisher 信息矩阵定义为: $$ I(\theta){ij} = \mathbb{E}{p(x \mid \theta)}\left[\frac{\partial \log p(x \mid \theta)}{\partial \theta_i} \frac{\partial \log p(x \mid \theta)}{\partial \theta_j}\right] $$ ...

January 25, 2026 · 3 min · 483 words · s-ai-unix