首页 06因子分析

06因子分析

举报
开通vip

06因子分析 1 因子分析专题 §8.1 引言 因子分析是主成分分析的推广,它也是一种把多个变量化为少数几个综合变量的多元 分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。 例 8.1.1 Linden对二次大战以来奥林匹克十项全能比赛的得分做了分析研究,他收集了 160组数据,这十个全能项目依次为:100米跑、跳远、铅球、跳高、400米跑、110米跨栏、 铁饼、撑竿跳高、标枪、1500 米跑。但是总的来说基本上可归结为他们的短跑速度、爆发 性臂力、爆发性腿力和耐力这四个方面...

06因子分析
1 因子分析专题 §8.1 引言 因子分析是主成分分析的推广,它也是一种把多个变量化为少数几个综合变量的多元 分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。 例 8.1.1 Linden对二次大战以来奥林匹克十项全能比赛的得分做了分析研究,他收集了 160组数据,这十个全能项目依次为:100米跑、跳远、铅球、跳高、400米跑、110米跨栏、 铁饼、撑竿跳高、标枪、1500 米跑。但是总的来说基本上可归结为他们的短跑速度、爆发 性臂力、爆发性腿力和耐力这四个方面,每一个方面都称为一个因子。用 1021 ,,, xxx L 分别 表示十个项目的得分,它们可以表示为含有上述四个因子的线性模型: iiiiiii fafafafax em +++++= 44332211 , 10,,2,1 L=i 其中 4321 ,,, ffff 表示 4个因子,称为公因子, ija 称为第 i个变量在第 j个因子上的载荷。 im 是总平均, ie 是第 i项得分不能被四个公因子解释的部分,称之为特殊因子。这个模型 形式上与线性回归模型几乎一样,但是它们有着本质的区别:回归模型中自变量是可以被观 测得到的,而上述因子模型中的 4321 ,,, ffff 是不可观测的隐变量,这使得该模型理解起来 较为困难;再者,两个模型的参数意义也很不相同。 例 8.1.2 为了评价高中学生将来进大学时的学习能力,抽了 200名高中生进行问卷调查, 共 50个问题。所有这些问题可简单地归结为阅读理解、数学水平和艺术修养这三个方面。 这也是一个因子分析模型,每一方面就是一个因子。 例 8.1.3 公司老板对 48名申请工作的人进行面试,并给出申请人在 15个方面所得的分 数,这 15个方面是:(1)申请信的形式;(2)外貌;(3)专业能力;(4)讨人喜欢的能力; (5)自信心;(6)洞察力;(7)诚实;(8)推销能力;(9)经验;(10)驾驶汽车本领;(11) 抱负;(12)理解能力;(13)潜力;(14)对工作要求强烈程度(15)适应性。这些问题可 以归结为如下的几个方面:申请者外露的能力,讨人喜欢的程度,申请者的经验,专业能力。 每一方面都是因子模型中的一个因子。 §8.2 因子模型 一、数学模型 设 p维可观测的随机向量 ),,,( 21 ¢= pxxxx L 的均值为 ),,,( 21 ¢= pmmmm L ,协方差 矩阵为 )( ijs=S ,因子分析的一般模型为 2 ï ï î ï ï í ì +++++= +++++= +++++= pmpmpppp mm mm fafafax fafafax fafafax em em em L M L L 2211 2222212122 1121211111 (8.2.1) 其中 mfff ,,, 21 L 为公因子, peee ,,, 21 L 为特殊因子,它们都是不可观测的随机变量。公 因子 mfff ,,, 21 L 出现在每一个原始变量 ix ),,2,1( pi L= 的表达式中,可理解为原始变量 共同具有的公共因素;每个公因子 jf ),,2,1( mj L= 至少对两个原始变量有作用,否则它 将归入特殊因子。每个特殊因子 ie ),,2,1( pi L= 仅仅出现在与之相应的第 i个原始变量 ix 的表示式中,它只对这个原始变量有作用。(8.2.1)式可用矩阵表示为 em ++= Afx (8.2.2) 式中 ),,,( 21 ¢= mffff L )( pm £ 为公因子向量, ),,,( 21 ¢= peeee L 为特殊因子向量, mpaA ij ´= :)( 称为因子载荷矩阵,并假设 A的秩为m。通常假定 [ ][ ]{ } { } [ ][ ]{ } { } [ ][ ]{ }ïï ï ï î ïï ï ï í ì =¢=¢--= ==¢=¢--= =¢=¢--= = = ´ ´ ´ ´ pm p mm p m fEEfEfEf diagDEEEEV IffEfEffEfEfV E fE 0)()()(),cov( ),,,()()()( )()()( 0)( 0)( 22 2 2 1 1 1 eeee ssseeeeeee e L (8.2.3) 同理易知 [ ][ ]{ } mpfEfEfEEf ´=¢=¢--= 0)()()(),cov( eeee ,注意两个协方差矩阵阶 数不一样。 由上述假定可以看出,公因子彼此不相关且具有单位方差,特殊因子彼此不相关且和公 因子也不相关。 因子分析与主成分分析是多元分析中两种重要的降维方法,但两者有很大的不同。主 成分分析不能作为一个模型来描述,它只能作为一般的变量变换,主成分是可观测的原始变 量的线性组合;而因子分析需要构造一个因子模型,公因子一般不能表示为原始变量的线性 组合。 二、因子模型的性质 1. x的协方差矩阵S的分解 由(8.2.2)式知 3 [ ][ ]{ } [ ][ ]{ } { } { } { } { } { } { } { } { } { } { } { } { } { } { } DAA VAA EAAAAI EAfEfAEAffAE EAfEAfEAfAfE EAfEAfEAfAfE AfAfE AfAfE AfEAfAfEAfE AfVxV mppmmm +¢= +¢= ¢+¢+´+¢= ¢+¢¢+¢+¢¢= ¢+¢¢+¢+¢¢= ¢+¢+¢+¢= ¢++= ¢-++-++= ¢++-++++-++= ++= ´´´ )( 00 )()())(( ))(( )()( )()()()( )()( e ee eeee eeee eeee ee memmem emememem em 即 DAA +¢=S (8.2.4) 这就是S的一个分解。如果 x为标准化了的随机向量,则S就是相关矩阵 ppijR ´= )(r ,即 有 DAAR +¢= (8.2.5) 2.模型不受单位的影响 将 x的单位作变化,就是作一变换 xx D=* ,这里 ),,,( 21 pdiag ddd L=D , 0>jd , ),,2,1( pi L= ,于是 emem D+D+D=++D=D= AfAfxx )(* ,令 mm D=* , AA D=* , ff =* , ee D=* ,则有 ***** em ++= fAx (仍然为因子分析模型) 这个模型能满足完全类似于(8.2.3)式的假定,即 ï ï ï ï î ïï ï ï í ì = ¢ = = = = = ´ ´ ´ ´ pm mm p m fEf DV IfV E fE 0)(),cov( )( )( 0)( 0)( **** ** * 1 * 1 * ee e e 其中 4 { } { } * * * * * * * * 2 2 2 1 2 2 2 2 2 2 2 1 1 2 2 *2 *2 * 2 1 2 ( ) ( ) ( ) ( )( ) ( , ) ( , , , ) ( , , , ) ( , , , ) p p p p V D E E E E E E D diag diag diag e e e e e e e e e e e s s s d s d s d s s s s = ¢ì üé ù é ù= - -í ýë û ë ûî þ ¢= ¢= D D ¢ ¢= D D ¢= D D ¢= D D = = L L L 即 ),,,( 2*2*2 2* 1 * pdiagD sss L= , 22 2* iii sds = , ),,2,1( pi L= 。 3.因子载荷是不唯一的 设T 为任意 mm´ 正交矩阵,令 ATA =* , fTf ¢=* ,则模型(8.2.2)式能表示为 em ++= ** fAx (8.2.6) 因为 0)()()( * =¢=¢= fETfTEfE mmITTTfVTfTVfV ´=¢=¢=¢= )()()( * 0)()(),cov( ** =¢¢=¢= eee fETfEf 所以仍满足条件(8.2.3)式。从(8.2.4)式可以看出,S也可分解为 DAA +¢=S ** (8.2.7) 因此,因子载荷矩阵 A不是唯一的,在实际应用中常常利用这一点,通过因子的变换,使 得新的因子有更好的实际意义。 三、因子载荷矩阵的统计意义 1. A的元素 ija ——原始变量 ix 与公因子 jf 之间的协方差函数 (8.2.1)式可以表示为 imimiiii fafafax em +++++= L2211 , ),,2,1( pi L= (8.2.8) 故 5 ij jij jijjij jijjij jimimiiiji a fVa fffa fffa ffafafafx = = += += +++++= )( ),cov(),cov( ),cov(),cov( ),cov(),cov( 2211 e e em L (8.2.9) 即 ija 是 ix 与 jf 之间的协方差函数。若 x为标准化了的随机向量,即 1)( =ixV ,则 ix 与 jf 之间的相关系数 ijji ji ji ji afxfVxV fx fx === ),cov( )()( ),cov( ),(r (8.2.10) 此时 ija 表示 ix 与 jf 的相关系数。 2. A的行元素平方和 å = = m j iji ah 1 2 ——原始变量 ix 对公因子依赖的程度 对(8.2.8)式两边取方差 222 2 2 1 22 2 2 21 2 1 2211 2211 )()()( )()()()()( )()( iimii imimii imimiii imimiiii aaa fVafVafVa VfaVfaVfaVV fafafaVxV s s em em ++++= ++++= +++++= +++++= L L L L ),,2,1( pi L= (8.2.11) 令 å = =+++= m j ijimiii aaaah 1 222 2 2 1 2 L , ),,2,1( pi L= ,于是 22 iiii h ss += , ),,2,1( pi L= (8.2.12) 2 ih 反映了公因子对 ix 的影响,可以看成是公因子对 ix 的方差贡献,称为共性方差;而 2 is 是 特殊因子 ie 对 ix 的方差贡献,称为个性方差。当 x为标准化了的随机向量时, 1=iis ,此 时有 122 =+ iih s , ),,2,1( pi L= (8.2.13) 3. A的列元素平方和 å = = p i ijj ag 1 2 ——公因子 jf 对 x的贡献 由(8.2.11)式得 6 222 2 2 1 1 22 2 2 21 2 1 1 2 1 2 2 1 2 21 1 2 1 1 2 1 2 1 2 2 2 1 1 2 1 111 22 1 11 1 1 2211 1 )()()( )()()( )()()( )()()()()( )()( im p i imm p i im p i im p i i p i i p i i p i mim p i i p i i p i i p i mim p i i p i i p i i p i imimiii p i i ggg fVgfVgfVg fVafVafVa fVafVafVa VfaVfaVfaVV fafafaVxV s s s s em em +++= ++++= +÷÷ ø ö çç è æ ++÷÷ ø ö çç è æ +÷÷ ø ö çç è æ = ++++= +++++= +++++= å åååå åååå ååååå åå = ==== ==== ===== == L L L L L L (8.2.14) 其中 å = = p i ijj ag 1 22 , ),,2,1( mj L= 从(8.2.14)式可见, A的第 j列元素的平方和 2jg 是 )( jfV 的系数, 2 jg 的值越大,反映了 jf 对 x的影响越大, 2 jg 是衡量公因子 jf 重要性的一个尺度,可视为公因子 jf 对 x的贡献。 §8.3 参数估计 设 nxxx ,,, 21 L 是一组 p维样本,则m 和S可分别估计为 å = = n i ixn x 1 1 和 å = ¢-- - = n i ii xxxxn S 1 ))(( 1 1 为了建立因子模型,首先要估计因子载荷矩阵 mpaA ij ´= :)( 和个性方差矩阵 ),,,( 222 2 1 pdiagD sss L= 。常用的参数估计方法有如下三种:主成分法,主因子法和极大 似然法。 一、主成分法 设样本协方差矩阵 S的特征值依次为 021 ³³³³ plll L ,相应的正交单位特征向 量为 pttt ,,, 21 L 。选取相对较小的主成分个数m,并使得累计贡献率 å å = = p i i m i i 1 1 l l 7 达到一个较高的百分比,则 S可作如下的近似分解 DAA Dtttttt D ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt ttttttttttS mmm pmmmmmm p p pmmpp mm mm ppppppp pmmm mpmmmmm ppppmmpm ppmmm ppmmm pmmmmmm p p pmmpp mm mm ppppppp mpmmmmm mpmmmmm pmmmmmm p p pppmpmmpm ppmmmm ppmmmm pmmpp mm mm pppmmmmmm ˆˆˆ ˆ ˆ 222111 21 22222122 11211111 2211 2222211 1122111 21 22222122 1,11,211,11 221,1 22221,21 11221,11 21 22222122 11211111 2211 2222211 1122111 21 2,22,222,12 1,11,211,11 21 22222122 11211111 2,21,1 22,221,21 12,121,11 2211 2222211 1122111 111222111 +¢= +¢++¢+¢= + ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ » ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ + ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ = ÷÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø ö çç ç ç ç ç ç ç ç ç ç ç ç è æ × ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ = ¢++¢+¢++¢+¢= +++ ++++++ +++ +++ +++ ++++++ ++++++ ++++ ++++ ++++ +++ lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lll lllll L L MOMM L L L MOMM L L L MOMM L L L MOMM L L L MOMM L L L MOMM L L L MOMM L L L MOMM L L L MOMM L L L MOMM L L LL 其中 8 ( ) ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ = ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ = = pmpp m m pmmpp mm mm mm aaa aaa aaa ttt ttt ttt tttA L MOMM L L L MOMM L L L 21 22221 11211 2211 2222211 1122111 2211 ,,,ˆ lll lll lll lll ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ = = 2 2 2 2 1 22 2 2 1 ˆ ˆ ˆ )ˆ,,ˆ,ˆ(ˆ p pdiagD s s s sss O L 易知, å = -= m j ijiii as 1 22 ˆsˆ , pi ,,2,1 L= 。证明如下。 证明: 因为 DAAS ˆˆˆ +¢» ,即 DAA Dtttttt Dtttttt ttttttttttS mmmm mmm pppmmmmmm ˆ ˆ)()()( ˆ 22221111 222111 111222111 +¢= +¢++¢+¢= +¢++¢+¢» ¢++¢+¢++¢+¢= +++ llllll lll lllll L L LL 又因为 ( ) ¢+¢= ÷ ÷ ø ö ç ç è æ ¢ ¢ 2211 2 1 21 , AAAA A AAA ,即 9 11 12 1 21 22 2 1 2 11 12 1 1, 1 1, 2 1 21 22 2 2, 1 2, 2 2 1 2 , 1 , 2 11 21 1 12 22 2 1 2 1, 1 2, 1 , p p p p pp m m m p m m m p p p pm p m p m pp p p m m pm m m p s s s s s s s s s a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a + + + + + + + + æ ö ç ÷ ç ÷ ç ÷ ç ÷ç ÷ è ø æ ö ç ÷ ç ÷= ×ç ÷ ç ÷ç ÷ è ø L L M M O M L L L L L M M O M M M O M L L L L M M O M L L 1 1, 2 2, 2 , 2 1 2 11 12 1 11 21 1 21 22 2 12 22 2 1 2 1 2 1, 1 1, 2 1 2, 1 2, 2 2 , m m m p m p p pp m p m p p p pm m m pm m m p m m p p m a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a + + + + + + + + æ ö ç ÷ ç ÷ ç ÷ ç ÷ ç ÷ ç ÷ ç ÷ ç ÷ ç ÷ ç ÷ ç ÷ è ø æ öæ ö ç ÷ç ÷ ç ÷ç ÷= ç ÷ç ÷ ç ÷ç ÷ç ÷ç ÷ è øè ø + L M M O M L L L L L M M O M M M O M L L L L M M O M 1, 1 2, 1 , 1 1, 2 2, 2 , 2 1 , 2 1 2 2 11 12 1 11 21 1 1 2 21 22 2 12 22 2 2 1 2 1 2 ˆ ˆ ˆ m m p m m m p m p m pp p p pp m p m p p p pm m m pm a a a a a a a a a a a a a a a a a a a a a a a a a a a a a s s + + + + + + + + æ öæ ö ç ÷ç ÷ ç ÷ç ÷ ç ÷ç ÷ ç ÷ç ÷ç ÷ç ÷ è øè ø æ öæ ö ç ÷ç ÷ ç ÷ç ÷» +ç ÷ç ÷ ç ÷ç ÷ç ÷ç ÷ è øè ø L L M M O M L L L L L L M M O M M M O M O L L 2 2 1 1 2 1 1 1 1 2 1 2 2 2 1 2 2 2 1 1 1 2 2 1 2 1 1 1 ˆ ˆ ˆ p m m m j j j j mj j j j m m m j j j j pj j j j pm m m pj j pj j pj j j j a a a a a a a a a a a a a a a s s s s = = = = = = = = = æ ö ç ÷ ç ÷ ç ÷ ç ÷ç ÷ è ø æ ö ç ÷ ç ÷ æ ö ç ÷ ç ÷ ç ÷ ç ÷= +ç ÷ ç ÷ ç ÷ ç ÷ç ÷ç ÷ è øç ÷ ç ÷ è ø å å å å å å å å å L L O M M O M L 对比等式两边,即得 å = -= m j ijiii as 1 22 ˆsˆ , pi ,,2,1 L= 。 10 证明完毕。 这里的 Aˆ和 Dˆ就是因子模型的一个解。因子载荷矩阵 Aˆ的第 j列与 S的第 j个主成分 的系数向量仅相差一个倍数 jl ( mj ,,2,1 L= ),因此这个解就称为主成分解。 若 p个原始变量的单位不同,则我们首先对原始变量作标准化变换,此时的样本协方 差矩阵即为原始变量的样本相关矩阵 Rˆ,用 Rˆ代替(8.3.1)式中的 S ,可类似地求得主成 分的解。 二、主因子法 主因子法是因子分析中一种最简单、最有效的方法,它已经得到了最普遍的应用。我 们这里假定原始变量 x已作了标准化变换。如果随机向量 x满足因子模型 em ++= Afx 则有, DAAR +¢= ,其中R为 x的相关矩阵,令 AADRR ¢=-=* (8.3.2) 即 ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ - - - = 2 21 2 2 212 112 2 1 * 1 1 1 ppp p p RR RR RR R s s s L MOMM L L 则称 *R 为 x的约相关矩阵。易见, *R 中的对角元素是 2ih ,而不是 1,非对角元素和R中 是完全一样的,并且 *R 是一个非负定矩阵。我们首先在相关矩阵R及个性方差矩阵 ),,,( 222 2 1 pdiag sss L 已知的条件下,求出因子载荷矩阵 A。 由上一节因子模型的性质 3 知, A的解是不唯一的,可以有许多。主因子法就是要求 得到的解能使第一个公因子 1f 对 x的贡献 å = = p i iag 1 2 1 2 1 达到最大,第二个公因子 2f 对 x的贡 献 å = = p i iag 1 2 2 2 2 次之,…,第m个公因子 mf 对 x的贡献 å = = p i imm ag 1 22 最小。 由于 mArankAArankRrank ==¢= )()()( * ,所以 *R 有m个正特征值,依次记为 0**2 * 1 >³³³ mlll L ,相应的正交单位特征向量为 ** 2 * 1 ,,, mttt L ,故 *R 的谱分解为 11 ( ) AA t t t ttt ttttttR mm mm mmm ¢= ÷ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç ç è æ = ¢ ++ ¢ + ¢ = ** * 2 * 2 * 1 * 1 *** 2 * 2 * 1 * 1 **** 2 * 2 * 2 * 1 * 1 * 1 * ,,, l l l lll lll M L L (8.3.3) 其中, ( )***2*2*1*1 ,,, mm tttA lll L= (8.3.4) 它就是我们所要求的主因子解。 A中的第 j列元素的平方和为 ( ) ( ) ***** jjjjj tt lll =¢ ,即 å = == p i ijjj ag 1 22*l (8.3.5) 在实际应用中,相关矩阵R和个性方差矩阵D一般都是未知的,它们可通过一组样本 nxxx ,,, 21 L 来进行估计。为了符号上的方便,我们将R(或 *R )的估计值仍记为R(或 *R )。 估计个性方差 2 is 等价于估计共性方差 2 ih ,这是因为由 1 22 =+ iih s , ),,2,1( pi L= 式知 22 1 ii h-=s , ),,2,1( pi L= 2 is (或 2 ih )的较好估计一般很难直接得到,通常是先给出它的一个初始估计 2ˆ is (或 2ˆ ih ), 待载荷矩阵 A估计好之后再作出 2is (或 2 ih )的最终估计。 个性方差 2 is (或共性方差 2 ih )的常用初始估计方法有如下几种: (1) 2ˆih 取为原始变量 ix 与其它原始变量 pii xxxxx ,,,,,, 1121 LL +- 的复相关系数的平 方,则 22 ˆ1ˆ ii h-=s 。 (2)取 iii r 1ˆ 2 =s ,其中 iir 是 1-R 的对角元素。 (3)取 ijiji rh ¹ = maxˆ2 ,则 22 ˆ1ˆ ii h-=s 。 (4)取 1ˆ 2 =ih ,则 0ˆ 2 =is ,得到的 Aˆ是一个主成分解。(因为此时 0=D , RR = * ) 因子的个数m应选取为多少呢?一般可采用主成分分析中确定主成分个数的原则,即 寻求一个较小的自然数m,使得 12 å å = = p j j m j j 1 * 1 * l l 达到一个较高的百分比(比如至少达到 85%)。需要指出的是, *R 的部分特征值可能是负 的。 最后,取 *R 的前m的正特征值 0**2 * 1 >³³³ mlll L 及其相应的正交单位特征向量 ** 2 * 1 ,,, mttt L ,可以得到近似分解式 AAR ˆˆ* ¢» 其中 ( ) )ˆ(,,,ˆ ***2*2*1*1 ijmm atttA == lll L 2 is 的最终估计为 å = -=-= m j ijii ah 1 222 ˆ1ˆ1sˆ , ),,2,1( pi L= (8.3.7) 我们称这样求得的 Aˆ和 )ˆ,,ˆ,ˆ(ˆ 222 2 1 pdiagD sss L= 为因子模型的主因子解。 如果我们希望求得近似程度更好的解,则可以采用迭代主因子法,即利用(8.3.7)式中 的 2ˆ is 再作为个性方差的初始估计,重复上述步骤,直至解稳定为止。 三、极大似然法 设公因子 ),0(~ INf m ,特殊因子 ),0(~ DN pe ,且相互独立,则原始向量 ),(~ S++= mem pNAfx 。样本 nxxx ,,, 21 L 的似然函数为 13 ú ú û ù ê ê ë é ÷ ÷ ø ö ç ç è æ ¢--+¢--S- ú ú û ù ê ê ë é ÷ ÷ ø ö ç ç è æ ¢--S- -S¢-- = -S¢-- = å S = å S = å S = S = =S = - = - = - - Õ Õ ))(())(( 2 1 22 ))(( 2 1 22 )()( 2 1 22 1 )()( 2 1 2 1 2 1 1 1 1 1 1 1 1 )2( 1 )2( 1 )2( 1 )2( 1 )(),( mm mm mm mm p p p p m xxnxxxxtr nnp xxtr nnp xx nnp n i xx p n i i n i ii n i ii n i ii ii e e e e xfL 容易知道,似然函数是 S,m 的函数。由于 DAA +¢=S ,故似然函数可确切地表示为 ),,( DAL m 。记 ),,( DAm 的极大似然估计为 )ˆ,ˆ,ˆ( DAm ,即有 ),,(max)ˆ,ˆ,ˆ( DALDAL mm = 可以证明, x=mˆ ,而 Aˆ和 Dˆ满足以下方程组 ïî ï í ì ¢-S= ¢+=S -- )ˆˆˆ(ˆ )ˆˆˆ(ˆˆˆˆ 11 AAdiagD ADAIAAD m (8.3.8) 其中 å = ¢--=S n i ii xxxxn 1 ))((1ˆ ,由于 A的解是不唯一的,为了得到唯一解,可附加计算上 方便的唯一性条件: ADA 1-¢ 是对角矩阵 (8.3.9) (8.3.8)式中的 Aˆ和 Dˆ一般可用迭代方法解得。 共性方差的极大似然估计为: å = = m j iji ah 1 22 ˆˆ , pi ,,2,1 L= 第 j个因子 jf 对总样本方差的贡献为 å å = = p i ii p i ij s a 1 1 2ˆ ,其中 iis 为第 i个变量的方差。 14 极大似然法在正态性假定能较好地被满足或者在大样本的情况下,能给出比主因子法 更好的估计,并且有令人满意的渐进性质。极大似然法的计算量大约是主因子法的 100倍, 这是由于极大似然估计需要用迭代方法计算并且要试着提取不同个数的因子。实际应用中, 在使用极大似然法之前,一般先使用主因子法进行分析,以便给出因子个数的初步估计。 §8.4 因子旋转 因子模型的参数估计完成之后,还必须对模型中的公因子进行合理的解释。进行这种解 释通常需要一定的专业知识和经验,要对每个公因子给出具有实际意义的一种名称,它可用 来反映在预测每个可观测的原始变量时这个公因子的重要性,也就是相应于这个因子的载荷。 因子的解释带有一定的主观性,我们常常通过旋转公因子的方法来减少这种主观性。 公因子是否易于解释,很大程度上取决于因子载荷矩阵 A的元素结构。假设 A是从相 关矩阵R出发求得的,则 12 1 2 £=å = i m j ij ha ,故有 1£ija ,即 A的所有元素均在 1- 和 1 之 间。如果载荷矩阵 A的所有元素都接近于 0或 1± ,则模型的公因子就容易解释。这时可将 原始变量 pxxx ,,, 21 L 分成m个部分,第一部分对应第一个公因子 1f ,第二部分对应第二 个公因子 2f ,…,第m部分对应第m个公因子 mf 。反之,如果载荷矩阵 A的多数元素居 中,不大不小,则对模型的公因子将难以作出解释,此时必须进行因子旋转,使得旋转之后 的载荷矩阵在每一列上元素的绝对值尽量拉开大小距离,也就是尽可能地使其中的一些元素 接近于 0,另一些元素接近于 1± 。 因子旋转方法有正交旋转和斜交旋转两类,本书中我们只讨论正交旋转。对公因子作正...... 交旋转就是对载荷矩阵..........A作一正交变换......,右乘正交矩阵T ,使 AT 能有更鲜明实际意义。 旋转后的公因子向量为 fTf ¢=* ,它的各分量 **2 * 1 ,,, mfff L 也是互不相关的公因子。正交 矩阵T 的不同选取法构成了正交旋转的各种不同方法,在这些方法中使用最普遍的是最大 方差旋转法(varimax),本节仅介绍这一种正交旋转法。 令 )( ** ijaATA == , i ij ij h a d * = , å = = p i ijj dp d 1 21 ,则 *A 的第 j列元素平方的相对方差 可定义为 2*2 *2 2 2 1 1 2 2 1 1 1 1 ( ) (8.4.1) p p ij ij j i ii i p jij i a a V p h p h d d p = = = æ ö = -ç ÷ç ÷ è ø = - å å å 取 2* ija 是为了消除 * ija 符号不同的影响,除以 2 ih 是为了消除各个原始变量对公共因子依赖程 度不同的影响。 备注: 15 *A 的第 i行平方和 2*ih 等于 A的第 i行平方和 2 ih ,因为 AAATATATATAA ¢=¢¢=¢=¢ )(** 两个矩阵相等,对应的对角线元素当然相等,即 22* ii hh = 。 备注完毕。 所谓最大方差旋转法就是选择正交矩阵T ,使得矩阵 *A 所有m个列元素平方的相对方 差之和 mVVVV +++= L21 (8.4.2) 达到最大。 当 2=m 时,设已求出的因子载荷矩阵为 ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ = 21 2221 1211 pp aa aa aa A MM 现选取正交变换矩阵T 进行因子旋转,T 可以表示为 ÷÷ ø ö çç è æ - = qq qq cossin sincos T 这里q是坐标平面上因子轴按逆时针方向旋转的角度,只要求出q,也就求出了T 。 ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ = ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ +-+ +-+ +-+ == * 2 * 1 * 22 * 21 * 12 * 11 2121 22212221 12111211 * cossinsincos cossinsincos cossinsincos pppppp aa aa aa aaaa aaaa aaaa ATA MMMM qqqq qqqq qqqq 再由(8.4.1)式和(8.4.2)式即可求得 *A 各列元素平方的相对方差之和V 。显然,V 是旋 转角度q的函数,按照最大方差旋转法的原则,应求出q,使V 达到最大。由微积分中求极 值的方法,将V 对q求导,并令其为零,可以推得q满足 p BAC p ABD tg )( 2 4 22 - - - =q (8.4.3) 其中 å = = p i iuA 1 , å = = p i ivB 1 , å = -= p i ii vuC 1 22 )( , å = = p i iivuD 1 2 而 16 2 2 2 1 ÷÷ ø ö çç è æ -÷÷ ø ö çç è æ = i i i i i h a h au , 2 212 i ii i h aav = 当 2>m 时,我们可以逐次对每两个公因子进行上述的旋转。对公因子 lf 和 kf 进行旋 转,就是对 A的第 l和 k两列进行正交变换,使这两列元素平方的相对方差之和达到最大, 而其余各列不变,其正交变换矩阵为 kl k l Tlk ÷÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø ö çç ç ç ç ç ç ç ç ç ç ç ç ç ç ç è æ - = 1 1 cossin 1 1 sincos 1 1 O O O qq qq 其中q是因子轴 lf 和 kf 的旋转角度,矩阵中其余位置上的元素全为 0。m个公因子的两两 配对旋转共需进行 2 )1(2 -= mmCm 次,称其为完成了第一轮旋转,并记第一轮旋转后的因 子载荷矩阵为 )1(A 。然后再重新开始,进行第二轮的 2mC 次配对旋转,新的因子载荷矩阵记 为 )2(A 。如此继续旋转下去,记第 s轮旋转后的因子载荷矩阵为 )(sA ,得到的一系列因子载 荷矩阵为 )1(A , )2(A ,…, )(sA ,… 记 )(sV 为 )(sA 各列元素平方的相对方差之和,则必然有 LL ££££ )()2()1( sVVV 这是一个有界的单调上升数列,因此一定会收敛到某一极限。在实际应用中,当 )(sV 的值变 化不大时,即可停止旋转。 §8.5 因子得分 17 一、因子得分的概念 我们再回过来看一下因子模型 em ++= Afx ,设 nxxx ,,, 21 L 为一组样本。在前面的 讨论中,我们根据这一组样本估计出了公因子个数m、因子载荷矩阵 A和个性方差矩阵D, 并试图对公因子 mfff ,,, 21 L 进行合理的解释,即给出具有实际意义的名称。如果对这些公 因子难以作出解释,则可以通过因子旋转的方法使得旋转后的公因子有着更鲜明的实际意义。 实际上,还有一个问题是令我们非常感兴趣的,就是给出每一个个体 ix 对m个公因子的得 分。必须指出的是,因子得分的计算并不是通常意义下的参数估计,而是对不可观测的随机 变量 mfff ,,, 21 L 作出估计。因子模型的式子意味着这些公因子一般不是可观测原始变量 pxxx ,,, 21 L 的线性组合,而是非线性组合。这些公因子的得分是无法直接计算得到的,但 它们可用各种不同的方法来进行估计。为了数学上处理的方便,人们一般还是将公因子得分 的估计值表达为原始变量 pxxx ,,, 21 L 的线性函数。以下我们介绍两种常用的因子得分估计 方法。 二、巴特莱特(Bartlett)因子得分 因子模型(8.2.1)式可以写为 ï ï î ï ï í ì ++++=- ++++=- ++++=- pmpmpppp mm mm fafafax fafafax fafafax em em em L M L L 2211 2222212122 1121211111 (8.5.1) 其中 2)( iiV se = , pi ,,2,1 L= 。我们可以采用与求解线性回归模型相同的方法来求得因 子得分 mfff ,,, 21 L 。由于 p个个性方差不全相等,因此应采用加权的最小二乘法,也就 是寻求 mfff ,,, 21 L 的一组取值 mfff ˆ,,ˆ,ˆ 21 L 使得加权的“残差”平方和 [ ]å = +++--p i i mimiiii fafafax 1 2 2 2211 )ˆˆˆ()( s m L (8.5.2) 达到最小,这样求得的解 mfff ˆ,,ˆ,ˆ 21 L 就称为巴特莱特因子得分。 (8.5.1)式用矩阵来表示就是 em +=- Afx (8.5.3) (8.5.2)式可用矩阵表示为 )ˆ()ˆ( 1 fAxDfAx --¢-- - mm (8.5.4) 其中 18 ÷÷ ÷ ÷ ÷ ÷ ø ö çç ç ç ç ç è æ = mf f f f ˆ ˆ ˆ ˆ 2 1 M 用微积分学求极值的方法可以解得巴特莱特因子得分为 )()(ˆ 111 m-¢¢= --- xDAADAf (8.5.5) 在实际应用中,用估计值 x、 Aˆ和 Dˆ分别代替上述公式中的m 、A和D,并将每个样品的 数据 ix 代入,便可得到相应的因子得分 fˆ 。 若将 f 和e 不相关的假定加强为相互独立,则在 f 值已知的条件下,由(8.5.5)式和 (8.5.3)式可得因子得分 fˆ 的条件数学期望 { } { } f AfDAADA fAfDAADAE fxDAADAEffE = ¢¢= -¢¢= -¢¢= --- --- --- 111 111 111 )( |)()( |)()()|ˆ( e m (8.5.6) 因此,从条件意义上来说巴特莱特因子得分 fˆ 是无偏的。我们再来计算反映 fˆ 估计精度的 平均预报误差 ])ˆ)(ˆ[( ¢-- ffffE ,由(8.5.5)式和(8.5.3)式得 e e 111 111 )( )()(ˆ --- --- ¢¢= -+¢¢=- DAADA fAfDAADAff 故 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ˆ ˆ[( )( ) ] ( ) ( ) ( ) ( ) ( ) ( ) E f f f f A D A A D E D A A D A A D A A D DD A A D A A D A ee- - - - - - - - - - - - - - ¢- - ¢ ¢ ¢ ¢= ¢ ¢ ¢= ¢= (8.5.7) 三、汤姆森(Thompson)因子得分 在因子模型(8.2.2)式中,假设 ÷÷ ø ö çç è æ x f 服从 )( pm + 元正态分布,由条件(8.2.3)式得 ÷÷ ø ö çç è æ =÷÷ ø ö çç è æ =÷÷ ø ö çç è æ m 0 )( )( xE fE x f E (8.5.8) 19 ( ) ÷÷ ø ö çç è æ S ¢ = ÷÷ ø ö çç è æ S ¢ = ÷÷ ø ö çç è æ S¢ ¢¢ = ÷÷ ø ö çç è æ S¢+¢ ¢+¢¢ = ÷÷ ø ö çç è æ S¢+¢ ¢+¢¢ = ÷÷ ø ö çç è æ S¢+ ¢+¢¢ = ÷÷ ø ö çç è æ S¢+ ¢+ = ÷÷ ø ö çç è æ = ÷÷ ø ö çç è æ ¢--¢- ¢-¢ = ÷÷ ø ö çç è æ ¢--¢- ¢-¢ = þ ý ü î í ì ¢--¢-- ¢--¢-- = þ ý ü î í ì ¢-¢-÷÷ ø ö çç è æ - - =÷÷ ø ö çç è æ A AI AI AII ffAE AffEI fEfAfE fEAffEI ffAfE fAffEI fAfE AffEI fAfE AffEI xVfx xffV xxEfxE xfEffE xxfx xfff E xxfx xfff E xf x f E x f V ][ )( ][][ )][][ ][ )][ ])[( )]([ ])[( ])([ )(),cov( ),cov()( ]))([(])[( ])([)( ))(()( )( ))((,)0)(( ))(0(,)0)(0( )(,)0( 0 e e e e e e e e mmm m mmm m mmm m m m 由(3.2.6)式知,在 x给定的条件下, f 的条件数学期望 )()|( 1 m-S¢= - xAxfE 再由(8.2.4)知, DAA +¢=S ,因此(8.5.10)式也可表示为 )()()|( 1 m-+¢¢= - xDAAAxfE (8.5.11) 或者 )()(~ 111 m-¢¢+= --- xDAADAIf (8.5.12) 易知,(8.5.11)式和(8.5.12)式相等。证明如下。 1111 )()( ---- ¢¢+=+¢¢ DAADAIDAAA 证明: 20 欲证明(8.5.11)式和(8.5.12)式相等,只需证明 1111 )()( ---- ¢¢+=+¢¢ DAADAIDAAA , 即 )()()()( 1111 DAADAADAIDAADAAA +¢¢¢+=+¢+¢¢ ---- 即 [ ]))( 1111 DDAAADAADAIIA ---- ¢+¢¢¢+=¢ 即 [ ]AAADAADAIA ¢+¢¢¢+=¢ --- 111 )( 即 [ ]AIADAADAIA ¢+¢¢+=¢ --- 111 )( 即 [ ]AADAIADAIA ¢¢+¢+=¢ --- 111 )( 即 AA ¢=¢ 证明完毕。 称 f~为汤姆森因子得分。在实际应用中,用估计值 x、 Aˆ和 Dˆ分别代替上述公式中的m 、 A和D,并将每个样品的数据 ix 代入,便可得到相应的因子得分 f ~ 。 由(8.5.12)式和(8.5.3)式得 { } { } fADAIf f
本文档为【06因子分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_348028
暂无简介~
格式:pdf
大小:257KB
软件:PDF阅读器
页数:21
分类:
上传时间:2013-01-22
浏览量:80