回归

均方误差（Mean Squared Error，MSE）：用于回归任务，计算预测值与真实值之间的平方差，并取平均值。MSE的值越小，说明模型的预测越接近真实值。

平均绝对误差（Mean Absolute Error，MAE）：也用于回归任务，计算预测值与真实值之间的绝对差，并取平均值。与MSE不同，MAE的值对离群点不太敏感。

交叉熵（Cross-entropy）：用于分类任务，根据预测值和真实值计算两者之间的交叉熵。交叉熵的值越小，说明模型的预测越接近真实值。

对数似然（Log-likelihood）：也用于分类任务，计算模型预测的概率分布与真实的概率分布之间的相似度。对数似然的值越大，说明模型的预测越接近真实概率分布。

Hinge Loss：用于支持向量机（SVM）模型的训练，通过计算模型预测的结果与真实结果之间的差距，来调整模型的参数。Hinge Loss的值越小，说明模型的预测结果越接近真实结果。

KL散度（Kullback-Leibler Divergence）：用于衡量两个概率分布之间的相似度。KL散度的值越小，说明两个概率分布越相似。

SGD (Stochastic Gradient Descent)：随机梯度下降是最简单的优化器之一。它通过计算每个样本的梯度来更新权重，从而最小化损失函数。在SGD中，学习率是一个重要的参数，需要手动调整。由于SGD具有良好的数学基础和易于实现的特点，因此仍然是深度学习领域中最常用的优化器之一。

Adam (Adaptive Moment Estimation)：Adam是一种自适应学习率的优化器，它可以在训练过程中根据每个权重的历史梯度信息自适应地调整学习率。Adam结合了SGD和RMSprop的优点，同时具有计算效率高和易于实现的优点。

Adagrad (Adaptive Gradient)：Adagrad是一种自适应学习率的优化器，它通过累加每个权重的梯度平方和来自适应地调整学习率。Adagrad在处理稀疏数据时效果很好，但在处理非稀疏数据时可能会出现学习率衰减的问题。

Adadelta：Adadelta是一种自适应学习率的优化器，它是Adagrad的扩展。Adadelta不仅考虑了历史梯度平方和，还考虑了最近几个步骤的平均梯度平方和，从而解决了Adagrad中学习率衰减的问题。

RMSprop (Root Mean Square Propagation)：RMSprop是一种自适应学习率的优化器，它通过平均每个权重的历史梯度平方和来自适应地调整学习率。RMSprop具有自适应性和计算效率高的优点，适用于大规模数据集的训练。

AdamW：AdamW是Adam优化器的一种改进版本，主要解决Adam在权重衰减(weight decay)时可能会导致性能下降的问题。AdamW在Adam的基础上加入了权重衰减项，从而更好地控制模型的过拟合。

SparseAdam：SparseAdam是Adam的稀疏版本，适用于处理稀疏数据的优化问题。