机器学习小组知识点1:均方误差(MSE)

均方误差单独扽概念是很简单的,这里只做介绍,更深一步的内容会在后面列出来。
1. SSE(和方差、误差平方和):The sum of squares due to error
2. MSE(均方差、方差):Mean squared error
3. RMSE(均方根、标准差):Root mean squared error

数理统计中均方误差是指参数估计值与参数真值之差平方的期望值,记为MSE。MSE是衡量“平均误差”的一种较方便的方法,MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。 首先先回顾复习三个概念: 1)方差:方差是在概率论和统计方差衡量随机变量或一组数据的离散程度的度量方式,方差越大,离散度越大。求解方式为,各随机变量与平均值差值的平方和的平均数(先求差,再平方,再平均)

平均数:

    \[M=\frac{x_1+x_2+\cdots+x_n}{n}\]

差公式:

    \[s^2=\frac{(x_1-M)^2+(x_1-M)^2+\cdots+(x_n-M)^2}{n}\]

也可以通过以下的方式进行求解方差

    \[D(x)=E(x^2)-(E(x))^2\]

2)标准差:标准差就是方差的算术平方根,它反映组内个体间的离散程度。因此它的过程是与平均值之间进行差值计算。

标准差公式:

    \[\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\mu^2)}\]

3)样本方差

    \[\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\mu^2)\]

这里之所以列出样本方差的样子,是因为样本方差更多被采用,因为他是无偏估计的,只做了解。感兴趣的可以到网上搜下与方差的“无偏”证明。

1.SSE(和方差) 在统计学里,该参数计算的是拟合数据很原始数据对应点的误差的平方和,计算公式为,

    \[SSE=\sum_{i=1}^{m}w_i(y_i-\hat{y_i })^2\]

其中y_i是真实数据,\hat{y_i}是拟合的数据,w_i>0从这里可以看出SSE越接近于0,说明模型选择和拟合更好,数据预测也越成功。接下来的MSE和RMSE因为和SSE是同出一宗,所以效果一样。

2.MSE(均方方差) 该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是\frac{SSE}{n},和SSE没有太大的区别,计算公式为,

    \[MSE=\frac{SSE}{n}=\frac{1}{n}\sum_{i=1}^{m}w_i(y_i-\hat{y_i })^2\]

其中n为样本的个数。

3.MSE(均方根) 该统计参数,也叫回归系统的拟合标准差,是MSE的平方根,计算公式为

    \[RMSE=\sqrt{MSE}=\sqrt{\frac{SSE}{n}}=\sqrt{\frac{1}{n}\sum_{i=1}^{m}w_i(y_i-\hat{y_i })^2}\]

以上三个统计参数,虽然略有细微的差别,但是代表的都是数据拟合的好坏,只是标准不一样。