估计标准 : 实际值与值的总误差中,回归误差与剩余误差是此消彼长的关系标准误差计算公式。因而回归误差从正面测定线性模型的拟合优度,剩余误差则从反面来判定线性模型的拟合优度。统计上定义剩余误差除以自由度n – 2所得之商的平方根为估计标准误。: 其公式为 (5.10) 式中: 为估计标准误差,n-2是自由度。 在回归分析中,估计标准误差越小,表明实际值越紧靠估计值,回归模型拟合优度越好;反之,估计标准误差越大,则说明实际值对估计值越分散,回归模型拟合越差。 实际工作中也可用下列简捷公式 (5.11) 以例题2计算: (万元) 或 作为回归模型拟合优度的判断和评价指标,估计标准误显然不如判定系数r2. r2 是无量纲系数,有确定的取值范围 (0—1),便于对不同资料回归模型拟合优度进行比较;而估计标准误差是有计量单位的,又没有确定的取值范围,不便于对不同资料回归模型拟合优度进行比较。 但是,估计标准误差在回归分析中仍然是一个重要的指标,因为它还是用自变量估计因变量时确定置信区间的尺度,用X对Y进行估计的置信区间为: (5.12) 因此,可以推断有68.27%的Y落在Y±1SXY以内,有95.45%的Y落在Y±2SXY以内,有99.73%的Y落在Y±3SXY以内。这是在大样本条件下的区间估计。如果样本n<30,就要用 t 分布来确定置信区间,在给定置信度 1 – a时,Y的某一数值的置信区间为: (5.13) 其中ta/2(n-2)可查 t 分布表得到,X0为给定的自变量的某一数值。 如例2中: X0=8万件 Y0=150.51万元 SXY =9.77 X=5.04; 当a=0.05时,即以95%的置信度估计,查 t 表得 t0。025(5-2)=3.1824 。则Y的置信区间为: 也即当产量为8万件时,有95%的把握估计生产成本在107.23 ——193.79万元之间。
调用函数
STDEV
估算样本的标准偏差。标准偏差反映相对于平均值 (mean) 的离散程度。
语法
STDEV(number1,number2,…)
Number1,number2,… 为对应于总体样本的 1 到 30 个参数。也可以不使用这种用逗号分隔参数的形式,而用单个数组或对数组的引用。
说明
函数 STDEV 假设其参数是总体中的样本。如果数据代表全部样本总体,则应该使用函数 STDEVP 来计算标准偏差。
此处标准偏差的计算使用“无偏差”或“n-1”方法。
函数 STDEV 的计算公式如下:
其中 x 为样本平均值 AVERAGE(number1,number2,…),n 为样本大小。
忽略逻辑值(TRUE 或 FALSE)和文本。如果不能忽略逻辑值和文本,请使用 STDEVA 工作表函数。
先区别几个概念:
1、样本的标准偏差 ≠ 总体的标准偏差 ≠ 统计学标准偏差
2、在总体符合正态分布的前提下:总体的标准偏差=统计学标准偏差
3、当样本有代表性时:样本的标准偏差≈总体的标准偏差。即,通过样本的标准偏差可以估计总体的标准偏差。
然后要区分以上实用意义上的统计和数学意义上的统计:
要对实际情况进行数学上的统计处理,前提是符合正态分布函数,在这个前提下可以套用正态分布函数推导出来的一系列公式,包括标准偏差公式。
再说直白一点:对于实际统计对象,每个个体相对于平均值的离散程度可以用s=((X样品-X平均)^2/n)^0.5这个计算值来表示。对于正态分布函数,σ值可以表示函数图像的半高宽度。这两个本来没有任何联系。只有当实际的统计对象的分布符合正态函数时,这两个才具有相等的关系。
接下来针对问题讲:
标准偏差的公式是正态分布函数推导的结果,但是有适用条件。
对于总体,也就是n无限大。这个时候用除以n的公式计算,是符合公式适用条件的。
对于样本,n是有限值,不符合适用条件,所以不能直接套用除以n的公式。
为了能够从有限的样本中估算出无限的总体的标准偏差,必须使用近似计算。至于如何近似计算,理论上可以有很多种,而使用除以n-1计算的这个公式经过证明,在任何时候都是能够得到比较接总体标准偏差的结果,这就是所说的无偏估计。用数学的说法就是:这个估计值与正值之间的误差是收敛的。用通俗的话说,就是这个估计值比较靠谱。
数学上讲,当n越大时,这个估计值就越接近真值。实际意义就是,样本数量越大,就越能代表总体。
至于说这些公式具体的推导证明过程,其实我也忘记了。因为实际使用中基本上用不到,只用记住结果,明白意义就够了。