Este teorema demuestra que el estimador MCO de β es el que tiene
mínima varianza dentro de la familia de estimadores lineales e insesgados.
La varianza del estimador MCO de β tiene la expresión
var( β ) = σ 2 ( X T X ) −1 . La expresión del estimador MCO de β es β = WY donde W = ( X T X )−1 X T . Denotando por β * = CY , donde C ≠ W , tendré todos los estimadores de β distintos al MCO y lineales. Para que además, β * sea insesgado, se tendrá que cumplir que E (β * ) = β . Por tanto, la E (β * ) = E[C ( X β + ε )] = CX β y habrá que imponer que CX = I k .
La varianza del estimador de β llamado β * es:
var( β * ) = E[( β * − β )( β * − β )T ] = E (Cεε T C T ) = σ 2CC T
Aunque todavía no son comparables ambas matrices de varianzas y
covarianzas, es posible siempre descomponer una matriz fija como la C en la suma de otras dos: C = W + D , donde D ≠ 0 y postmultiplicando por la matriz X esa identidad, tenemos que CX = WX + DX . Como CX = I k , por insesgadez y WX = I k , por definición, es obvio que DX = 0 . Por tanto:
var( β * ) = σ 2CC T = σ 2 (W + D )(W + D)T = σ 2WW T + σ 2 DDT + σ 2 DW T + σ 2WDT
teniendo en cuenta que WW T = ( X T X ) −1 y DW T = WDT = 0 , se obtiene :
var( β * ) = σ 2 ( X T X )−1 + σ 2 DDT ⇒ var( β * ) = var( β ) + σ 2 DDT
y la matriz σ 2 DDT es definida positiva por construcción.