精算过程中谨慎性是每个从业人员最重视的,在保险行业如果出错,轻则出现重大赔付进入死亡螺旋,重则面临停业整顿或破产的境地。
今天就以统计分析建模简单了解一下谨慎性原则如何体现。
对于多元线性回归模型未知参数向量β的估计,最主要的方法是普通最小二乘估计。在运用普通最小二乘法估计未知参数时,应首先看具体问题的样本数据是否满足模型的基本假定,只有满足基本假定的模型才能应用普通最小二乘法。通常我们遇到的都是假设满足基本假定要求的,但是当看到不满足基本假定的情况时,如何估计未知参数。
当回归模型的未知参数估计出来后,我们实际上是由n组样本观测数据得到一个经验回归方程,这个经验回归方程是否真正反映了变量y和变量X1,X2,…,Xp之间的线性关系,这就需要进一步对回归方程进行检验。一种检验方法是拟合优度检验,即用样本决定系数的大小来衡量模型的拟合优度。样本决定系数R^2越大,说明回归方程拟合原始数据y的观测值的效果越好。但由于R^2的大小与样本量n以及自变量个数p有关,当n与p的数目接近时,R容易接近1,这说明R中隐含着一些虚假成分。因此,仅由R^2的值去推断模型优劣一定要慎重。
对于回归方程的显著性检验,我们用F统计量去判断假设H。:B1=B2=…= Bp=0是否成立。当给定显著性水平α时,若F>F(p,n-p-1),则拒绝假设H。,否则接受H。接受假设H。和拒绝假设H。对于回归方程来说意味着什么,仍需慎重对待。
一般来说,当接受假设H。时,认为在给定的显著性水平α下,自变量X1,X2,…,Xp对因变量y无显著影响,于是通过X1,X2,…,Xp去推断y也就没有多大意义。在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而我们误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,由于我们认识上的局限性把一些影响因变量的自变量漏掉了,这就从两个方面提醒我们重新考虑建模问题。
当拒绝了假设H。时,我们也不能过于相信这个检验,认为这个回归模型已经很完美了。其实当拒绝H。时,我们只能认为这个回归模型在一定程度上说明了自变量X1,X2,…,Xp与因变量y的线性关系。因为这时仍不能排除我们漏掉了一些重要的自变量。小编认为,此检验只宜用于辅助性的、事后验证性质的目的。研究者在事前根据专业知识及经验,认为已把较重要的自变量选了,且在一定误差限度内认为模型为线性是合理的。经过样本数据计算后,可以来验证原先的考虑是否周全。这时,若拒绝,可认为至少并不与其原来的设想矛盾。如果接受H。,可以肯定模型不能反映因变量y与自变量X1,X2,…,Xp的线性关系,这个模型就不能用于实际预测和分析。
当样本量n较小,变量个数p较大时,F检验或t检验的自由度太小,这时尽管样本决定系数很大,但参数估计的效果很不稳定,我曾发现一个实际应用例子暴露出这方面的问题。某新闻报道在研究建筑业降低成本率y与流动资金X1固定资金X2、优良品率X3竣工面积X4、劳动生产率X5、施工产值X6的关系时得到的回归方程也暴露了这方面的问题。