三种常用的不同变量之间相关系数的计算方法

来源:百度文库 编辑:神马文学网 时间:2024/04/28 12:43:39
第一,只有面板数据才会涉及到固定效应以及随机效应的问题;
第二,到底是使用固定效应还是随机效应要进行判断,判断的标准如下:首先使用Hausman检验,如果Hausman检验认为随机误差项与自变量相关的话,那么接下来使用固定效应模型建立回归模型;不相关的话,则仍然建立随机效应模型;
第三,建立固定效应模型到底是不是合适呢,使用F检验来判断,如果通过F检验的话,则建立固定效应是合适的,未通过的话,则建立混合模型;建立随机效应模型是不是合适呢,使用LM检验,未通过的话,则建立混合模型。
第三,固定效应模型又存在三种情况,亦即个体固定,时刻固定与个体时刻固定,那么到底是使用哪一种呢,此时只有进行一个一个的判断,开始建立个体时刻固定,首先使用F检验,如果该模型通过检验的话,则很好;如果没有通过,接下来考虑是建立个体固定以及时刻固定,通过检验的话,则很好;如果个体固定以及时刻固定都没有通过的话,则最终仍然是建立混合模型。
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,
就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。
 
用pearson处理的数据,必须满足一下条件:成对数据、连续、整体是正态分布的。
其实, Spearman 和Pearson相关系数在算法上完全相同. 只是PEARSON相关系数是用原来的数值计算积差相关系数, 而SPEARMAN是用原来数值的秩次计算积差相关系数.

三种常用的不同变量之间相关系数的计算方法
1.定类变量之间的相关系数.
定类变量之间的相关系数,只能以变量值的次数来计算,常用系数法,
其计算公式为:
                                             (3.2.12)
式中,为每一类x中y分布的众数次数;为变量y各分类次数的众数次数;n为总次数。一般来说,入系数在0~1之间取值,值越大表明相关程度越高。
例如,性别与对吸烟的态度资料见表3—2。
表3--2                        性别与对吸烟态度
态度y
性别x


合计(Fy)
容忍
反对
37
15
8
42
45
57
合计(Fx)
52
50
102
从y的分布来看,对吸烟的态度众数是“反对”,众数次数为57,即Fym=57。再从x的每一个分组(男、女)中y的次数分布来看,男性中y的分布众数是“容忍”,次数为37(f1m);女性中y的分布众数是“反对”,次数为42(f2m);总次数为102(n)。于是,

从计算结果可知,性别与对吸烟态度的相关程度为0.49,属于中等相关。
2.定序变量之间的相关系数
定序变量之间的相关测量常用Gamma系数法和Spearman系数法。Gamma系数法计算公式为:
                         (3.2.13)
式中,G为系数;Ns为同序对数目;Nd为异序对数目。
所谓序对是指表明高低位次的两两配对,如果一对个案在变量x,y的分类表现位次一致,则为同序对;如果位次相反,则为异序对。
G系数取值在—1--十1之间。G=1,表示完全正相关;G=-1,表示完全负相关;G=0,表示完全不相关;-1                                      (3.2.14)
式中,P为系数;D为所测定的两个数列中每对项目之间的登记差,这个差的正值之和等于负值之和;N为项数。系数p主要代表两个定序变量的等级相关程度,其取值范围和相关程度含义与G系数相同。
3.定距变量之间的相关系数
定距变量之间的相关测量常用Pearson系数法。对于未分组资料,Pearson系数法计算公式为:

对于已分组资料,Pearson系数法计算公式为

r 系数取值范围和相关程度的含义与G系数相同。