文章列表

14k12 分钟

# 第一部分回顾:深度学习基础(Lecture2—Lecture4) 在进入卷积网络之前,先回顾前几讲建立的深度学习基础框架。 # 图像分类与线性分类器 第一步是定义问题:输入一张图像(展开为张量),输出一个分数向量,表示各标签与图像的匹配程度。通过权重矩阵 WWW 进行预测: f(x,W)=Wxf(x, W) = Wx f(x,W)=Wx 问题由此转化为:如何选择一个好的 WWW? 这便引入了损失函数。 # 损失函数 损失函数告诉我们:给定权重矩阵 WWW 与数据集,这个 WWW 在解决当前问题上表现如何。常用损失函数包括: 多分类 SVM 损失(Hinge
9.1k8 分钟

# 从线性分类器到神经网络 # 回顾:线性函数 线性分类器的核心公式: f(x,W)=Wxf(x, W) = Wx f(x,W)=Wx 其中 x∈RDx \in \mathbb{R}^Dx∈RD,W∈RC×DW \in \mathbb{R}^{C \times D}W∈RC×D。D 是输入维度,C 是类别数量(输出标签数量)。 在 Lecture 2 中我们看到,线性分类器每类只能学习一个模板,面对多模态分布、同心圆等问题完全无能为力——你无法用一条直线分开两个交替占据四个象限的类别。 # 双层神经网络 神经网络在线性分类器的基础上,在输入和输出之间插入了一个隐藏
19k17 分钟

# 正则化 Regularization # 为什么需要正则化? 在 Lecture 2 中我们定义了完整的损失函数: L(W)=1N∑iLi(f(xi,W),yi)+λR(W)L(W) = \frac{1}{N} \sum_i L_i(f(x_i, W), y_i) + \lambda R(W) L(W)=N1​i∑​Li​(f(xi​,W),yi​)+λR(W) 其中第一项是数据损失 Data Loss,衡量模型在训练集上的预测误差;第二项是正则化项 Regularization Term。 如果只最小化数据损失,模型会倾向于过拟合 Overfitting——
7.7k7 分钟

# 图像分类 Image Classification 图像分类的核心任务:给定一张图像和一组类别标签,设计算法将其中一个标签分配给此图像。 图像在计算机中就是一个巨大的数字网格,每个像素值介于 [0,255] 之间。对于一个 800×600 分辨率的彩色图像,其数据张量为 800 × 600 × 3,因为有 RGB 三个颜色通道(红、绿、蓝)。 语义鸿沟 Semantic Gap:人类看到图像能轻松识别物体,但计算机看到的只是一个巨大的整数矩阵。这个差距就是我们需要跨越的核心问题。 图像分类面临的六大挑战: 视角变化 viewpoint variation:即使物体完全静止,只要相机视角