Академический Документы
Профессиональный Документы
Культура Документы
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/279517332
CITATION READS
1 103
1 author:
Ramn Piloto-Rodrguez
Universidad Tecnolgica de la Habana, Jos Antonio Echeverra
103 PUBLICATIONS 203 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Ramn Piloto-Rodrguez on 02 July 2015.
The user has requested enhancement of the downloaded file. All in-text references underlined in blue are added to the original document
and are linked to publications on ResearchGate, letting you access and read them immediately.
Curso de estadstica aplicada a anlisis bibliomtrico
Captulo 1
Qu es la Estadstica?
Objeto de la Estadstica
3. Prediccin.
La frontera entre la estadstica descriptiva e inductiva es cada vez ms pequea, debido a que
el objetivo final de compilar y presentar datos, casi siempre es tomar algn tipo de decisin.
Para comprender mejor la diferencia entre ambas, podemos recurrir al siguiente ejemplo:
Si se realiza un conteo del nmero de artculos publicados por todos los miembros de cada
departamento y se divide entre sus respectivos nmeros de miembros se obtienen las medias
1
aritmticas para cada uno de los departamentos, lo cual representa el nmero de publicaciones
por investigador. Este parmetro obtenido pertenece a la estadstica descriptiva.
Ahora supongamos que el primer departamento tuvo 3 publicaciones por investigador como
promedio, mientras el segundo tuvo 2 por investigador. Si deseamos conocer si existen o no
diferencias significativas entre los resultados obtenidos para ambos departamentos o cual de
estos tiene un mayor rendimiento, caemos en el campo de la estadstica inductiva. La
estadstica inductiva intenta dar respuesta a travs de sus mtodos, a preguntas planteadas con
anterioridad.
La estadstica es una ciencia que trabaja con datos previamente obtenidos. Los datos
bsicamente pueden ser de dos tipos:
Datos cualitativos
Datos cuantitativos
Los datos cuantitativos discretos son aquellos datos que solo pueden tomar un nmero finito o
numerable de valores reales.
Los datos continuos son aquellos que pueden tomar cualquier valor en un intervalo de
nmeros reales. Pueden tomar un nmero infinito de valores reales.
Los datos o variables discretos, tambin conocidos por datos no agrupados sern ilustrados
mediante el siguiente ejemplo, relativo al nmero de artculos publicados en un ao por 10
investigadores. La cantidad de publicaciones en ese orden son:
X1= 2 X2= 1 X3= 3 X4=1 X5=2 X6=1 X7=3 X8=0 X9=2 X10=1
Estos datos son discretos, ya que la variable solo admite valores aislados. La frecuencia
absoluta representada en la Tabla 1.1 para el ejemplo anteriormente expuesto. Estos datos
pueden ser presentados en forma de tabla de frecuencias. La frecuencia absoluta o repeticin,
es el nmero de veces que se repite un valor determinado de la variable.
2
Tabla 1.1
0 1
1 4
2 3
3 2
Total 10
Una propiedad importante que se observa en la Tabla 1.1 es que la suma total de las
frecuencias absolutas es igual al nmero total de mediciones (n).
n= (1)
K= (2)
3
frecuen cia
0
0 1 2 3 4
No. publicaciones
3
4
frecuencia 3
0
0 1 2 3 4
No. publicaciones
= = (3)
40
30
porciento
20
10
0
0 1 2 3 4
No. publicaciones
Fig.1.3 Histograma de frecuencias relativas
Tambin es til disponer de la frecuencia acumulativa (fac) que tiene como base a la
frecuencia absoluta.
= (4)
4
10
porciento
6
0
0 1 2 3 4
No. publicaciones
En cuanto a las variables continuas, un ejemplo sera la estatura de los individuos en un grupo
poblacional, que podra estar entre 1.50-1.90 m. Las estaturas pueden adoptar cualquier valor
en dicho intervalo. Los diferentes histogramas presentados para el ejemplo en variables
discretas son igualmente aplicables para la descripcin y organizacin de datos numricos en
el caso de variables continuas.
Aunque los histogramas de frecuencias son tiles para comparar y analizar conjuntos de
datos, no logran brindar suficiente informacin sobre el conjunto de datos en cuestin. Por
ejemplo, si deseamos conocer cul es el valor ms frecuente, cual el valor medio, si los datos
estn ms o menos dispersos, tendramos una descripcin ms completa del conjunto
numrico.
Existe un grupo de estadgrafos que nos permiten caracterizar mas adecuadamente los
conjuntos numricos y se denominan en general medidas de descripcin de los conjuntos
numricos. Como su nombre lo indica stos pertenecen a la estadstica descriptiva.
Medidas de dispersin.
= (5)
Propiedades de la media:
1. Si el conjunto de datos est formado por un solo valor que se repite, la media es ese mismo
valor.
2. Si se suma o resta un constante a todos los datos del conjunto, la media quedar aumentada
o disminuida en esa cantidad.
5
3. Si todos los datos son multiplicados o divididos por una constante, la media queda
multiplicada o dividida por esa constante.
Ej: 1, 4, 5, 4, 2, 4, 0, 1, 5, 6, 7, 4.
La moda es 4.
Ej: 2, 4, 5, 1, 2, 3, 5, 3.
Ej: 1, 3, 4, 5, 8, 7.
No hay moda.
0,1,2,3,4,5,5,5,7,8.
Como est formado el conjunto por diez datos, entonces la mediana es el promedio de los dos
nmeros centrales: (4.5)
Medidas de dispersin
Estas no dan idea de la posicin de los datos sino que dan una idea de su agrupamiento,
variacin o esparcimiento.
1. Recorrido o amplitud.
2. Dispersin o varianza.
6
Se define la dispersin o varianza muestral como:
= (7)
Equivalente a:
= (8)
La dispersin o varianza mide la desviacin de los datos respecto a su valor medio. Un valor
pequeo de S2 indica que los datos estn agrupados y uno alto indica que estn dispersos
alrededor de la media.
S= (9)
Sr = (10)
Sr = 100 (11)
Tanto las medias como las dispersiones pueden promediarse pero solo es esto posible
teniendo en cuenta el peso especfico de cada una de las medias o dispersiones participantes
en el clculo.
= (12)
7
Si cierras la puerta a todos los errores, dejas fuera la verdad. Rabindranath Tagore
Captulo 2
Esta separacin entre poblacin y muestra define su vez estadgrafos para un conjunto o el
otro.
Los valores calculados totalmente a partir de una muestra son conocidos con el nombre de
estadgrafo. Ej. Media, mediana, desviacin estndar, etc.
La forma de seleccin de una muestra es un factor importante ya que de ello dependen los
resultados que se obtienen. El procedimiento mediante el cual se seleccionan muestras de una
poblacin es conocido como muestreo.
El anlisis de los diferentes tipos de muestreo que se pueden realizar a una poblacin, se
estudiarn ms adelante.
8
En el Captulo 1 se estableci la diferencia entre la estadstica descriptiva en inductiva o
inferencia estadstica. A continuacin comenzaremos una descripcin breve de las principales
Pruebas de hiptesis que se pueden realizar al trabajar con muestras y algunos ejemplos
prcticos.
Pruebas de Hiptesis
Los fundamental en estas prueba es verificar si las diferencias observadas son casuales,
aleatorias o reales.
Para una discusin rigurosa de la base terica de las pruebas de Hiptesis recomendamos
consultar la bibliografa propuesta al final del Captulo.
Tenemos entonces que decidir a partir de los datos experimentales cual de las hiptesis es la
correcta con cierto margen de error.
Tipos de error
Dada la naturaleza probabilstica del problema, podemos en este anlisis cometer dos tipos de
error. Rechazar la hiptesis nula cuando debimos aceptarla, o aceptarla cuando realmente las
medias eran diferentes.
9
Nivel de significacin
El nivel de significacin no es ms que la probabilidad (en tanto por uno) de cometer un error
o de tipo 1, o sea, de rechazar la hiptesis nula siendo esta cierta.
Se utiliza cuando se sospecha que un valor del conjunto de datos es extremo o muy diferente
respecto al resto, sospechndose que es una equivocacin.
(13)
donde:
X1 es el valor dudoso, X2 es el valor vecino al dudoso, (estando ordenados los datos en forma
ascendente o descendente) y R es el recorrido.
Si el valor analizado es clasificado como error burdo, ste tiene que ser eliminado de los datos
y de ser posible repetir esa determinacin.
10
Si Q(0.05; n) Qexp Q(0.01; n) no debemos llegar a conclusiones definitivas y si es posible,
se debe aumentar el nmero de datos para mejorar el anlisis.
= = (14)
El intervalo de confianza para la media nos brinda los lmites (para un dado) dentro de los
cuales debe encontrarse el valor medio real o poblacional.
11
La ciencia es la progresiva aproximacin del hombre al mundo real. Max Planck
Captulo 3
Ejemplos de poblacin:
Una solucin a estos problemas consiste en medir solo una parte de la poblacin, denominada
muestra y tomar el peso en la muestra como una aproximacin del verdadero valor del peso
de la poblacin.
La muestra debe obtener toda la informacin deseada para tener la posibilidad de extraerla.
Esto slo se puede lograr con una buena seleccin de la muestra y un trabajo muy cuidadoso
en la recogida de los datos.
Para que los resultados obtenidos de los datos muestrales se puedan extender a la poblacin,
la muestra debe ser representativa de la poblacin en lo que se refiere a la caracterstica en
estudio. O sea, la distribucin de la caracterstica analizada en la muestra debe ser
aproximadamente igual a la distribucin de la caracterstica en la poblacin.
Tipos de muestreo
12
Muestreo aleatorio simple: Es aquel en que cada elemento de la poblacin tiene la misma
probabilidad de ser seleccionado para integrar la muestra.
Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el
muestreo aleatorio simple.
Existen a su vez dos formas de extraer una muestra de una poblacin: con reposicin y sin
reposicin.
Muestreo con reposicin: Es aquel en que un elemento puede ser seleccionado ms de una
vez en la muestra. Para ello se extrae un elemento de la poblacin, se observa y se devuelve a
la poblacin, por lo que de esta forma se pueden hacer infinitas extracciones de la poblacin,
aun siendo sta finita.
Muestreo sin reposicin: No se devuelve los elementos extrados a la poblacin hasta que no
termina el muestreo en s.
El mtodo de seleccin.
El tamao de la muestra
Mtodo de seleccin
Una forma de extraer una muestra aleatoria de una poblacin finita es enumerando todos los
elementos que conforman la poblacin, y mediante un generador de nmeros aleatorios
extraer tantos elementos de la poblacin como indique el tamao de muestra. En este caso los
elementos de la muestra lo constituirn los elementos de la poblacin cuyos nmero coincidan
con los extrados.
Otro procedimiento para obtener una muestra de una poblacin, ya sea el muestreo con
reposicin o sin reposicin, es mediante la utilizacin de la tabla de nmeros aleatorios pero
solamente para poblaciones finitas, la utilizacin de estas tablas puede realizarse de diferentes
modos pero en el presente trabajo solo expondremos el que consideramos ms eficiente ya
que no se necesita de la bsqueda de una gran cantidad innecesaria de nmeros aleatorios en
tabla.
13
Existen diferentes tablas de nmeros aleatorios, las cuales se pueden encontrar en la literatura
reportada al final del captulo, pero debido al avance de los medios informticos, hoy en da,
la generacin de nmeros aleatorios se realiza con el auxilio de un software de clculo o
mediante una calculadora cientfica.
Para ello se debe establecer un rango de valores que puede tomar la variable aleatoria, que
cubra el nmero total de valores en la poblacin.
El resultado de los cinco nmeros aleatorios, el cual establece el criterio de seleccin de estas
cinco hormigas en un milln quedara a modo de ejemplo:(319630, 729604, 747308, 575210,
246564).
El tamao de la muestra
Para la seleccin del tamao de una muestra de una poblacin tenemos que tener presente
adems si es conocida o no la varianza poblacional. Para determinar el tamao de muestra
necesario para estimar con un error mximo permisible d prefijado y conocida la varianza
poblacional (2) podemos utilizar la ecuacin:
2
Z (1 )
n= 2
(15)
d
donde d es el error estndar o error mximo prefijado y est dado por la expresin
d= Z (1 ) para el nivel de confianza 1-, y constituye una medida de la precisin de la
n 2
P{ x < d } = 1 (16)
14
La ecuacin (15) propuesta para determinar el tamao de muestra, es una ecuacin que
combina la estadstica con otra rama de las matemticas denominada teora de las
probabilidades. Esta ciencia estudia los modelos matemticos que permiten realizar
experimentos aleatorios o estimar la probabilidad de que ocurra un evento determinado para
un conjunto determinado de eventos, acorde a una funcin denominada distribucin de
probabilidad.
0 P(A) 1 (17)
P(S) = 1 (18)
P(AB)=P(A)+P(B) (19)
15
Fig. 3.2 Curva de distribucin Chi-cuadrado
Es muy importante puntualizar que las funciones densidad de probabilidad tambin responden
a este tipo de distribuciones de frecuencias. Las distribuciones de probabilidad nos muestran
la probabilidad de ocurrencia de eventos en un experimento. En este caso la variable X se
denomina como variable aleatoria.
16
As, la funcin de distribucin de probabilidad queda planteada de la siguiente forma:
17
Fig.3.6 Funcin de densidad de probabilidad en variables continuas para una distribucin
normal [Kreyszig]
Precisamente son las distribuciones binomial, Poisson e hipergeomtrica las mas empleadas
para variables discretas, mientras que para variables continuas es la distribucin normal. La
distribucin normal es la mas empleada debido a su mayor ocurrencia y simplicidad. Incluso
muchas funciones son aproximadas a una distribucin de Gauss para llevar a cabo un trabajo
menos engorroso.
La ecuacin (15) es muy utilizada para determinar el tamao de muestra, pero esto solo es
posible si el conjunto de datos est distribuido normal o si este tipo de distribucin es el mejor
ajuste para los datos.
2
Z (1 )
Retomando la ecuacin (15) n = 2 ; en sta el valor de Z (1 ) se extrae de la Tabla
d 2
de distribucin normal del Anexo 1. Tanto la desviacin estndar como la diferencia d entre
el valor del estadgrafo analizado y el valor poblacional deben ser establecidos por el
investigador.
Ejemplo: Se dispone de una poblacin de 1000 artculos almacenados en una base de datos.
Se desea realizar un estudio o evaluacin de un indicador x, lo cual no sera posible de realizar
para toda la poblacin debido a los costos y al tiempo empleado en la investigacin. Sin
embargo, se desea poder disponer de un resultado que sea vlido para todo el conjunto de
artculos que se encuentran en la base de datos.
d = 0.1
= 0.3
1- = 0.95
1- = 0.975
n= = 34.57
Debido a que el nmero de elementos no puede ser fraccionario, se toma el nmero entero que
viene a continuacin, es decir, por exceso. En este caso la muestra a tomar es de 35 artculos.
Primeramente, se toma una pequea muestra, que se le llama muestra piloto. Con ella se
estima la varianza poblacional ( 2 ) y con este valor se evala en la formula (15),
Para determinar el tamao de la muestra cuando los datos son cualitativos, es decir para el
anlisis de fenmenos sociales o cuando se utilizan escalas nominales para verificar la
ausencia o presencia del fenmeno a estudiar, se recomienda la utilizacin de la siguiente
ecuacin:
n'
n= (21)
1 + n' N
19
s2
siendo n' = donde:
2
2 = ( se )
2 (22)
( se ) 2 es el error estndar al cuadrado, que nos servir para determinar 2 , por lo que es la
varianza poblacional. se es error estndar que est dado por la diferencia entre ( x ) la
media poblacional y la media muestral (error estndar deseado).
Entonces:
N = 5000
se = 0.01
2
= ( se) 2 = (0.01) 2 = 0.0001
s2 0.047
entonces: n' = = = 470
2
0.0001
n' 470
n= = = 429
1 + N 1 + 470 5000
n '
Si se considera que la muestra es muy grande, el investigador entre sus opciones dispone de
cambiar a error estndar de 0.05 o cambiar el nivel de confianza. Para el primer caso el
tamao de muestra a escoger cambiara a n = 18.7. Es decir, se necesitaran 19 encuestas
realizadas.
Hasta aqu hemos podido determinar el tamao de una muestra a tomar dentro de una
poblacin garantizando ciertos valores prefijados por el investigados de desviacin estndar y
de niveles de confianza fundamentalmente.
20
La pregunta que an queda por responder es: una vez definido el nmero de elementos a
tomar de la poblacin: De qu forma tomo de la poblacin ese determinado nmero de
elementos? La respuesta a esta interrogante se expondr a continuacin.
Un procedimiento para extraer una muestra aleatoria de una poblacin finita es el de enumerar
todos los elementos que conforman la poblacin, escribir esos nmeros en papelitos, echarlos
en un bombo o bolsa, mezclarlos bien y sacar uno a uno tantos papelitos como lo indique el
tamao de la muestra. En este caso los elementos de la muestra lo constituirn los elementos
de la poblacin cuyos nmero coincida con los extrados de la bolsa.
Otro procedimiento para obtener una muestra de una poblacin es mediante la utilizacin de
tablas de nmeros aleatorios pero solamente para poblaciones finitas, debido a razones obvias.
Estas tablas pueden llegar hasta 1000 nmeros aleatorios dispuestos en filas y columnas.
=ALEATORIO( )
=ALEATORIO.ENTRE(1:1000)
As, una vez determinado el tamao de muestra a tomar de una poblacin, si se determina
utilizar el muestreo aleatorio simple es posible seleccionar todos los elementos de muestra
mediante nmeros aleatorios.
Siempre que se pueda, se recomienda la utilizacin del muestreo aleatorio simple, el cual
elimina todo sesgo. Sin embargo debido a diferentes razones prcticas y econmicas, en no
pocas ocasiones es necesario el empleo de otras tcnicas de muestreo que no emplean la
aleatorizacin completa en la seleccin. Un ejemplo de ello es el muestreo estratificado.
Muestreo Estratificado
A veces el estudio a realizar es complicado debido a que todos los elementos de la muestra n a
tomar deben poseer determinado atributo. Debido a ello, es necesario entonces estratificar la
muestra. Es decir, cuando no basta que cada uno de los elementos muestrales tengan la misma
probabilidad de ser escogidos, sino que adems es necesario estratificar la muestra en relacin
a estratos o categoras que se presentan en la poblacin y que son relevantes para los objetivos
del estudio. Entonces se disea una muestra probabilstica estratificada.
21
Lo que se hace es dividir a la poblacin en subpoblaciones o estratos, tantos como necesite el
investigador acorde al nmero de categoras establecidas por l y se selecciona la muestra
para cada estrato. La estratificacin aumenta la precisin de la muestra e implica el uso de
diferentes tamaos de muestra para cada estrato.
n
fh = = K Sh (24)
N
Nh fh = nh (25)
Es decir, el nmero de elementos que componen cada estrato se multiplica por el coeficiente
de estrato y da como resultado el nmero de elementos a tomar dentro de cada estrato
previamente conformado.
Ejemplo: Supongamos que trabajamos con la misma situacin del ejemplo anterior del
presente captulo. Es decir, se dispone de un poblacin de 5000 investigadores (N = 5000). Se
desea realizar un estudio de productividad cientfica para esta poblacin, pero sta es muy
grande e implica una tcnica de muestreo que difcilmente pueda ser totalmente al azar.
850 Doctores
22
1754 Mster
2396 Licenciados
Recordemos adems que el valor de n a tomar en la poblacin fue de 429. Ahora es necesario
determinar cuntos elementos es necesario tomar de cada estrato de manera que se garantice
un total de elementos entre los tres estratos de 429.
n 429
fh = = = 0.086
N 5000
Esto define los tamaos de muestra a tomar para cada estrato. Los resultados del clculo se
muestran en la Tabla 3.1. Los resultados dan un total de 432, valor mayor que 429 debido a
que la aproximacin del nmero decimal obtenido siempre es por exceso. Es necesario sealar
que la seleccin de los Nh elementos de cada estrato deben realizarse entonces por muestreo
aleatorio.
Este muestreo tambin es conocido por muestreo por grupos o conglomerados. Se utiliza en
casos donde el investigador se ve limitado por recursos financieros, por tiempo, por distancias
geogrficas o por una combinacin de estos y otros obstculos, se recurre a otra modalidad de
muestreo llamado por racimos. En este tipo de muestreo se reducen costos, tiempo y energa
al considerar que muchas veces nuestras unidades de anlisis se encuentran encapsuladas o
encerradas en determinados lugares fsicos o geogrficos que denominamos racimos.
23
A continuacin se muestran algunos ejemplos de racimos:
Se realiza eligiendo varios de los grupos que le componen al azar, y ya elegidos algunos
podemos estudiar a todos los elementos de los grupos elegidos o bien seguir aplicando dentro
de ellos ms muestreos por grupos, por estratos o aleatorios simples.
Al igual que en el muestreo estratificado, al extrapolar los resultados a la poblacin hay que
tener en cuenta el tamao relativo de unos grupos con respecto a otros.
El muestreo por racimos supone una seleccin en dos etapas, ambas con procedimientos
probabilsticos. En la primera, se seleccionan los racimos, siguiendo los pasos de una muestra
probabilstica simple. En la segunda, y dentro de estos racimos se seleccionan los elementos
que van a ser medidos. Para ello se hace una seleccin que asegure que todos los elementos
del racimo tienen la misma probabilidad de ser elegidos.
Se necesita saber con precisin, cual es nivel de lectura de revistas de corte cientfico-tcnico
por parte de 3.000.000 de habitantes que tiene una ciudad. Incluso se necesita saber que temas
prefieren y de qu forma acceden a dichas revistas.
Procedimiento: Se disea un cuestionario que pregunte sobre estos temas en particular. Los
cuestionarios se aplican por entrevistadores a una muestra de personas adultas.
Poblacin: Todas aquellas personas de ambos sexos que tengas 18 o ms aos de edad.
Anlisis por racimos: Se desconoce el nmero total de habitantes con las caractersticas arriba
sealadas. Sin embargo tenemos que tomar una muestra que abarque todos los adultos de la
ciudad.
Se puede decidir analizar por racimos donde cada racimo puede ser cada cuadra de la ciudad.
Supongamos que la ciudad tiene 8.000 cuadras. Es decir, las cuadras se utilizan como
unidades muestrales, a partir de las cuales se obtiene finalmente cada elemento muestral.
N = 8000 (es en este caso la unidad muestral es el nmero de cuadras y no los habitantes)
se = 0.1
2
= ( se) 2 = (0.1) 2 = 0.01
s 2 0.16
entonces: n' = = = 16
2 0.01
n' 16
n= = = 16
1 + N 1 + 16 8000
n '
Se sabe adems que la poblacin de las 8000 cuadras est dividida socialmente por estratos
socioeconmicos, segn su nivel de ingresos. Se pueden clasificar estos niveles de ingresos en
cuatro estratos (muy alto, alto, medio, bajo). Se conoce adems que las 8000 cuadras se
distribuyen por estratos de la siguiente forma.
1 120
2 2364
3 3440
4 2076
T = 8 000
Estratificacin de la muestra:
n
fh = = KSh
N
16
fh = = 0.002
8000
1 120 (0.002) 1
2 2364 (0.002) 5
3 3440 (0.002) 7
4 2076 (0.002) 4
T = 8 000 n = 17
Tenemos que en principio, se seleccionarn de un total de 8000 cuadras, una del primer
estrato, 5 del segundo, 7 del tercero y 4 del cuarto estrato. Estas cuadras a seleccionar por
estrato se deben elegir aleatoriamente.
Por ltimo, se seleccionan a los sujetos dentro de cada conglomerado. Este procedimiento
tambin se hace de manera aleatoria, hasta lograr el nmero de sujetos determinados en cada
conglomerado acorde al procedimiento expuesto en la siguiente tabla.
1 120 1 20 20
2 2364 5 30 150
3 3440 7 45 315
4 2076 4 55 220
Se elige un elemento al azar y a partir de l, a intervalos constantes, se eligen los dems hasta
completar la muestra.
Por ejemplo si tenemos una poblacin formada por 5000 elementos y queremos extraer una
muestra de 25 elementos, en primer lugar debemos establecer el intervalo de seleccin que
ser igual a 5000/25 (N/n) = 200. A continuacin elegimos el elemento de comienzo, tomando
aleatoriamente un nmero entre 1 y 200, y a partir de l obtenemos los restantes elementos de
la muestra sumando al primer nmero el intervalo calculado.
26
33, 233, 433,..,4833.
La seleccin del tamao de una muestra tal como ha sido ilustrado en este captulo, depende
tanto del tipo de datos, como de la desviacin estndar, probabilidad, etc. Estos parmetros
estadsticos son prefijados por el investigador acorde a sus necesidades o a su experiencia
previa en el tipo de investigacin que el mismo realiza.
La seleccin del tamao de muestra es en muchos casos independiente del tipo de muestreo a
emplear. Este ltimo es tambin seleccionado por el investigados acorde a los objetivos de su
investigacin y a la complejidad de la misma y de la poblacin en s. Es posible incluso la
utilizacin de varios procedimientos de muestreo dentro de un mismo anlisis estadstico.
Es oportuno sealar que aunque no fue tratado en el captulo, existe un tipo de muestreo
denominado muestreo errtico, tambin conocido como muestreo sin norma. En l la muestra
se obtiene de cualquier forma, valorando nicamente la comodidad o la posibilidad en
trminos de costo de la investigacin, tiempo u otro factor no estadstico. Siempre que sea
posible se debe evitar este tipo de muestreo.
27
Duda siempre de ti mismo, hasta que los datos no dejen lugar a dudas. Louis Pasteur
Captulo 4
Regresin
En casi todos los campos del conocimiento humano, es necesario establecer y caracterizar
relaciones entre variables o conjuntos de datos. Establecer estas relaciones implica la
obtencin de modelos matemticos simples con constantes de modelo que generalmente
poseen un significado fsico de inters y para los cuales en muchas ocasiones es necesario
evaluar su intervalo de confianza, dispersin, desviacin estndar, etc. Estos problemas
pueden ser resueltos aplicando el llamado anlisis de regresin.
El anlisis de regresin puede ser aplicado siempre que se conozca cual es la dependencia
entre dos o ms variables. Es decir, se establece antes de este anlisis cuales son las variables
independientes (x) y cuales las dependientes (y). Se establece que los valores de las variables
independientes son despreciables en comparacin con los de las dependientes.
Regresin lineal
En muchos campos es frecuente encontrarse con relaciones lineales entre dos o ms variables.
y = a + bx (26)
El problema general de hallar las ecuaciones de las curvas propuestas que se ajustan mejor al
conjunto numrico analizado se denomina ajuste de curvas. El anlisis de la lnea recta o
regresin lineal se realiza en la estadstica bsica mediante el mtodo conocido como mnimos
cuadrados. Esta es una forma de definir la curva optima.
Para cada valor de x existe un valor de y terico (predicho por la ecuacin), cuyo smbolo es
. Adems de ello, existe para cada valor de x un valor de y real o experimental. La diferencia
entre estos dos valores es conocida en estadstica como residual. Cada valor de residual queda
Estos residuales son calculados para cada punto analizado dentro del conjunto de datos, al
igual que su valor al cuadrado.
28
Estos residuales al cuadrado = son analizados grupalmente para saber
cuan adecuado es el ajuste realizado.los valores de los residuales al cuadrado (mnimos
cuadrados) sern mayores mientras peor sea el ajuste. De la infinita cantidad de posibilidades
de trazo de una recta, ser seleccionada la recta optima, la cual corresponder a los valores
menores de los mnimos cuadrados o residuales al cuadrado.
Acorde al mtodo de los mnimos cuadrados, las ecuaciones de ajuste de la lnea recta son:
b= (27)
para la pendiente y:
a= (28)
para el intercepto.
Los coeficientes a y b son variables aleatorias, obtenidas a partir de conjuntos de datos que
contienen errores. Es posible determinar los errores estndar correspondientes a ambos, as
como sus intervalos de confianza. Las ecuaciones respectivas pueden encontrarse en las
referencias bibliogrficas.
Un ejemplo de lo expuesto hasta aqu en el presente captulo puede ser enfatizado mediante
un ejemplo.
Se desea conocer la relacin matemtica existente entre el nmero de artculos publicados por
cada autor en un perodo de tiempo determinado (variable independiente) y un ndice creado
para evaluar la productividad cientfica de los autores. El ndice analizado es referido como
ndice P (IndP). Para ello se analiza un total de 20 autores y su correspondiente ndice
calculado.
Para ello lo ms adecuado es realizar un anlisis de regresin simple. Los datos del nmero de
artculos publicados por los 20 autores y sus respectivos ndices P calculados se muestran en
la Tabla 4.1.
29
Tabla 4.1 Numero de artculos publicados e ndice P por autor
2 1 3.2
2 1 3.0
3 0 3.5
1 0 2.1
4 0 3.4
3 1 4.0
7 2 4.6
8 4 5.2
4 3 4.6
5 1 4.0
4 1 4.0
3 1 3.0
4 2 2.8
2 2 2.6
3 0 2.6
2 0 2.7
1 6 2.0
2 3 2.6
3 4 3.2
1 1 1.2
Los resultados fundamentales del anlisis de regresin se muestran en la Tabla 4.2. En ella se
muestra el valor obtenido para los coeficientes del ajuste, as como el error estndar y la
probabilidad.
30
Tabla 4.2 Anlisis de Regresin
Los resultados obtenidos primeramente nos dicen que la relacin entre el nmero de artculos
publicados y el ndice P es la siguiente:
Este tipo de ecuacin obtenida para un anlisis de correlacin permite establecer y calcular
numricamente un indicador o variable cualquiera una vez determinada su relacin
cuantitativa con determinado nmero de factores o variables independientes. En este caso con
la ecuacin obtenida se puede calcular el ndice P para cualquier cantidad n de artculos
publicados.
La columna de errores estndar dan un estimado del error en el valor reportado para cada uno
de estos coeficientes. Es decir, el valor real de a est en el intervalo 1.8 0.2. En el caso de b
el valor real est en el intervalo 0.4 0.01.
6
5
4
IndP
3
2
1
0
0 2 4 6 8
articulos
Fig.4.1 Ajuste lineal para los datos de artculos publicados versus ndice P
31
obtenido para la regresin lineal. El grfico de los datos as como su ajuste lineal se muestra
en la Fig.4.1.
En la figura mostrada se observan los valores obtenidos para cada autor evaluado, as como la
lnea recta en negro que representa la regresin lineal para el mejor ajuste mnimo cuadrtico.
En el grfico se observan dos regiones bien limitadas en azul y rojo. Las lneas azules
representan para un 95 % de confianza, los lmites de prediccin. Esta regin representa los
valores por debajo de 1.5, mientras que entre las lneas azul y rojo se encuentra la regin
comprendida entre 1.5 3. Valores por encima de este intervalo caen por fuera de la
frontera en rojo, la cual se denomina lmite de confianza o de accin. Valores que exceden
este lmite deben ser primero que todo analizados como posibles errores burdos y revisarlos o
repetir la determinacin. Es por ello que se suele llamar lmite de accin. No obstante ello no
quiere decir que el valor deba ser eliminado, sino solo analizado.
Otro anlisis que se realiza con mucha frecuencia en la regresin es el anlisis de residuales.
El diagrama de residuales para el ejemplo tratado se muestra en la Fig. 4.2.
2,6
1,6
residuales
0,6
-0,4
-1,4
-2,4
2,2 3,2 4,2 5,2 6,2
Ind P
La lnea horizontal representa residual cero que es el valor ideal para todo modelo o relacin
matemtica obtenida. Los valores de residuales obtenidos quedan as distribuidos por encima
y por debajo de esa lnea, pues es natural que algunos valores predichos excedan el valor real
y otros le aproximen por defecto.
Lo cierto es que el anlisis de residuales es un recurso bastante fiable para analizar si el ajuste
es adecuado o no. Incluso permite determinar si es necesario cambiar el modelo matemtico a
otro que no sea lineal.
Los errores aleatorios tienen que ser independientes entre s. Por lo que debemos esperar no
encontrar ninguna seria relacin entre los residuos. Debemos esperar entonces que los
residuos positivos y negativos se mezclen de una forma totalmente aleatoria. Si encontramos
por ejemplo que la lista de residuos contiene grupos claros o tendencias es de esperar que:
En resumen, un buen anlisis de residuales debe buscar valores pequeos de residuales. Los
valores recomendados estn generalmente entre 2 para el 96 % de los puntos, debe haber
adems consistencia en la magnitud del residuo y ausencia de tendencias en su signo. Esto
ltimo normalmente se analiza como una tendencia a 50 % de los datos para cada signo con
determinado margen de variacin.
En nuestro ejemplo todos los residuales estn por debajo de 2.6 y el 90 % por debajo de 2, lo
cual es muy adecuado. Adems de ello hay 11 de 20 valores con residual negativo lo cual
ilustra la paridad en el cambio de signos.
El anlisis anterior es aplicable cuando solo hay una variable independiente. Pero en
ocasiones es necesario correlacionar ms de una variable independiente en su relacin con una
variable dependiente. En este caso estamos en presencia de un anlisis de regresin mltiple.
Este anlisis bsicamente tiene el mismo tipo de anlisis anteriormente expuesto pero la
regresin lineal, pero buscando una ecuacin matemtica del tipo:
y = a +a1x1+a2x2+.+anxn (29)
Es posible realizar anlisis de mnimos cuadrados tambin en este ajuste, as como anlisis de
residuales y de valores de probabilidades para determinar que coeficientes son significativos
y cules no.
Analicemos el mismo ejemplo anterior para el caso que deseramos hacer una anlisis ms
complejo. Es decir, queremos aadir otra variable independiente para ajustar
matemticamente al ndice en estudio. Se aade la variable nmero de citas recibidas.
33
En este caso tenemos entonces dos variables independientes y una dependiente. Se desea as
obtener la ecuacin que relaciona al ndice P y estas dos variables independientes. Las citas
recibidas se presentan en la Tabla 4.1.
6
5
4
IndP
3
2
1 6
0 3 4 5
0 2
2 4 6 0 1 citas
8
articulos
El anlisis de residuales tiene el mismo significado y criterios que para el caso de regresin
lineal. El diagrama de residuales para la regresin mltiple se muestra en la Fig.4.4.
El anlisis de residuales muestra valores menores de 1.3 en todos los casos. Adems de ello
no hay tendencia alguna a un patrn en los residuales y hay 11 de 20 valores por debajo de la
34
lnea que representa residual cero, por lo que el ajuste parece ser bastante adecuado a los
datos.
1,7
1,3
0,9
residual
0,5
0,1
-0,3
-0,7
-1,1
0 1 2 3 4 5 6
Ind P predicho
El anlisis de regresin, nos permite establecer la relacin entre variables mediante el ajuste
de modelos matemticos pre-establecidos. La forma de determinar si el ajuste es adecuado o
no se ha basado en el anlisis de mnimos cuadrados, residuales y sus distribuciones o
comportamiento, valores de probabilidades y anlisis de los grficos obtenidos. Aunque un
anlisis de regresin que comprenda todo lo antes expuesto es bastante completo, requiere de
un anlisis adicional que viene a complementar adecuadamente este tipo de estudio que se
denomina anlisis de correlacin. Estadsticamente hablando, es prcticamente imposible ver
un estudio profundo de anlisis de regresin que no incluya anlisis de correlacin y
viceversa.
Es por ello que la parte restante del presente captulo est dedicada al anlisis de correlacin.
Anlisis de correlacin
El anlisis de correlacin comprende la evaluacin del grado de relacin existente entre las
variables estudiadas. Esto se realiza con el objetivo de ver hasta qu punto estn realmente
relacionadas las variables del modelo que se obtiene en el anlisis de regresin.
Para el anlisis de regresin simple se aplica la correlacin simple, la cual define que si todos
los pares de valores (x-y) satisfacen exactamente una ecuacin dada de dos variables, entonces
se dice que dichas variables estn perfectamente correlacionadas.
r2 = (30)
r= (31)
Existen otras ecuaciones derivadas de estas ms fciles de trabajar cuando los clculos son
manuales y en dependencia del tipo de correlacin que se aplique se deber usar una ecuacin
diferente para la evaluacin de estos estadgrafos.
Pongamos un ejemplo donde el investigador investiga la relacin entre sus variables mediante
regresin y correlacin simples.
Los resultados primarios del estudio se muestran en la Tabla 4.4. En la Fig.4.5 se muestra el
grfico correspondiente al ajuste lineal de los valores de la tabla anterior.
Tabla 4.4 Acumulado de artculos publicados para una revista por aos
3 25
5 40
10 100
15 180
20 250
25 344
36
Fig.4.5 Acumulado de artculos publicados
Es de notar que en este resultado dada la ecuacin y lnea de ajuste, el intercepto (lugar donde
la lnea recta corta el eje de las ordenadas) es negativo (-32.1) y ello para este estudio no tiene
significado fsico. Este problema que no es estadstico pero s prctico, se puede resolver
incluyendo en los datos el par ordenado (0;0) debido a que cuando comenz la revista, ao
cero, no se haba publicado ningn artculo. Una vez aadido el par ordenado el ajuste lineal
queda segn el siguiente grfico:
r 0.9936 - -
r2 98.73 - -
37
Los resultados de la Tabla 4.5 indican que el intercepto no es significativo. Para un 95 % de
intervalo de confianza el valor de la Probabilidad debe ser menor que 0.05 para ser
significativo. Es importante observar que en magnitud (tomando valores modulares) el
intercepto es bastante mayor que la pendiente, sin embargo esta ltima es significativa
estadsticamente y el intercepto no. Ello se debe a que el anlisis de significancia no depende
de la magnitud del valor en s, sino de su probabilidad basada en pruebas de hiptesis. Debido
a que el intercepto no es significativo podemos dejar la relacin entre las variables como:
y = bx
donde x son los aos e y es el acumulado de artculos publicados. Mediante esta ecuacin se
puede analizar la tendencia de la revista para un futuro cercano (extrapolacin) acorde a la
tendencia natural de la misma, pero ello solo sera un pronstico.
El coeficiente de correlacin obtenido refleja buena correlacin entre las variables analizadas
(99.36 %) por lo que existe una fuerte relacin entre ambas para una relacin lineal. Sin
embargo al observar con detenimiento tanto las Fig.4.5 y 4.6 puede haber duda si el modelo
ms adecuado para relacionar las variables es el lineal. Para ello se debe hacer un anlisis de
modelos alternativos y comparar con el lineal ya obtenido basando la comparacin
fundamentalmente en los coeficientes de correlacin. A continuacin se muestra una tabla con
los coeficientes obtenidos para 10 modelos.
modelo r r2
0.9839 96.80
0.9219 85.00
Los resultados de dicha tabla nos muestran que al parecer el mejor ajuste para esos datos es
mediante regresin lineal debido a que es el que correlaciona mas fuertemente las variables
38
analizadas. Sin embargo el anlisis del grafico de residuales que se muestra a continuacin
correspondiente a la regresin lineal puede generar dudas debido a que no parecen estar del
todo distribuidos aleatoriamente los residuales, aunque s presentan valores pequeos y se
distribuyen de igual forma por encima y debajo de la lnea de residual cero.
2,7
1,7
residuales
0,7
-0,3
-1,3
-2,3
-20 80 180 280 380
Y predicho
Fig.4.7 Anlisis de residuales para la regresin lineal
No obstante, un anlisis de residuales para los otros dos modelos alternativos muestra
tendencias ms fuertes a ser ajustables matemticamente por lo que se concluye que la
relacin ms probable es la lineal.
Anlisis de residuales.
Una vez analizados todos los elementos antes expuestos es muy difcil que un investigador
elija el modelo de ajuste menos adecuado para su investigacin.
39
El precio que hay que pagar por abandonar el lenguaje matemtico,
consiste en una prdida de precisin y en la necesidad de mencionar
resultados sin indicar como se obtuvieron. Albert Einstein
Captulo 5. Diseos de experimentos
El proceso puede ser una combinacin de maquinas, mtodos, personas, objetos, etc., y otros
que transforman la entrada en una salida que tiene una o ms respuestas observables. Tal
como seala la Fig.5.1 algunas variables del proceso pueden ser controlables y otras no.
Factor
Son las variables independientes que influyen o pueden influir en el proceso investigado. Los
factores pueden ser variables cualitativas o cuantitativas.
Espacio factorial
Es el espacio comprendido entre los ejes del sistema de coordenadas en el que se representan
los valores de los factores. Este no tiene porque constituir un espacio real pues los factores
pueden no serlo y entonces estamos hablando de espacio matemtico imaginario. Una forma
muy utilizada para representar los espacios factoriales es mediante curvas de nivel o
40
simplemente mediante rectngulos. Dos ejemplos de curvas de nivel se muestran en la
Fig.5.2.
41
Fig.5.3 Diagrama de superficie de respuesta
Modelo matemtico
42
Aplicaciones del diseo experimental
Los mtodos de diseo experimental tienen amplia aplicacin en muchas disciplinas. Por lo
general su mtodo consiste en realizar una serie de actividades en las cuales hacemos
conjeturas acerca de un proceso, realizamos experimentos para generar datos a partir del
proceso, y entonces usamos la informacin del experimento para establecer nuevas conjeturas,
que llevan a realzar nuevos experimentos.
1. Obtencin de rplicas.
2. Aleatorizacin.
3. Anlisis por bloques.
La rplica se refiere a una o ms repeticiones para cada experimento bsico a realizar. El uso
de replicas permite tener una estimacin del error experimental. Tal estimacin permite
determinar si las diferencias observadas entre replicas son estadsticamente significativas. En
segundo lugar, el uso de rplicas permite al investigador calcular una estimacin ms precisa
del efecto de un factor en el experimento.
El anlisis por bloques es una tcnica que se usa para incrementar la precisin del
experimento. Un bloque es una porcin del material experimental que sea ms homognea
que el total del material. Al realizarse un anlisis por bloques se hacen las comparaciones
entre las condiciones de inters del experimento dentro de cada bloque.
43
menudo en forma sustancial a un mejor conocimiento del fenmeno y de la solucin final
del problema.
2. Eleccin de factores y niveles. El experimentador debe elegir los factores que variarn
en el experimento, los intervalos de dicha variacin y los niveles especficos para los
cuales se har el experimento. Tambin debe considerarse la forma en que se controlarn
estos factores para mantenerlos en los valores deseados, y cmo se les medir.
3. Seleccin de la variable respuesta. Al seleccionar la variable respuesta o variable
dependiente, el investigador debe estar seguro de que la respuesta seleccionada brinda
informacin realmente til sobre el proceso en estudio.
4. Eleccin del diseo experimental. Si los tres pasos anteriores se han seguido de forma
correcta, este paso resulta relativamente fcil. Para elegir el diseo es necesario considerar
el tamao de la muestra, numero de factores y niveles, as como la presencia o no de
bloques.
5. Realizacin de los experimentos.
6. Anlisis de datos. Deben emplearse mtodos estadsticos para analizar los datos, de modo
que los resultados y conclusiones sean objetivos ms que apreciativos. Si el experimento
fue diseado correctamente y si se ha realizado conforme al diseo, los mtodos
estadsticos que se requieren no son complicados. Existen muchos paquetes de software
para el anlisis de datos, y varios mtodos grficos que son importantes en la interpretacin
de tales datos. El anlisis de residuos y la verificacin de la idoneidad del modelo son
tambin tcnicas de gran utilidad.
7. Conclusiones y recomendaciones.
Durante todo el proceso es necesario saber que la experimentacin es parte importante del
proceso de aprendizaje, en el cual formulamos tentativamente hiptesis acerca de un sistema
y realizamos experimentos para investigar dichas hiptesis, y con los en los resultados
formulamos nuevas hiptesis, etc. La experimentacin es por ende un proceso iterativo.
Para que un experimento sea exitoso es necesario conocer los factores importantes, los
intervalos en los cuales deben hacerse variar esos factores, la cantidad adecuada de niveles a
usar y las unidades de medida a emplear.
Es frecuente que cuando se trabajan los diseos factoriales o experimentales, los factores o
variables sean transformados o codificados. Es decir, se transforman de variables reales a
variables codificadas. Esto origina un nuevo sistema coordenado que se denomina sistema
coordenado en variables codificadas. Esto permite desde el punto de vista del algebra
matricial simplificacin de procesos y clculos. No obstante, la ecuacin obtenida despus
debe nuevamente ser descodificada para aplicarla a la realidad de la investigacin.
= (5.1)
donde Xi representa el valor del factor en variable codificada, xi es el valor del factor en
variable real, xoi representa el valor del factor i en el centro del diseo en variable real y xi
representa la semi-escala del eje del factor i.
44
Un ejemplo de codificacin de variables sera el siguiente:
Uno de los factores a analizar en un diseo experimental que estamos creando es el nmero de
citas recibidas por los autores en un ao (x1). Entre un gran nmero de autores se ha escogido
un espacio factorial que va desde cero citas recibidas hasta 10. El otro factor a analizar seria el
nmero de artculos publicados (x2) que podra variar de 2 hasta 20. Esto nos define un
espacio factorial real y como consecuencia un espacio factorial en variables codificadas, tal
como se muestra en la Tabla 5.1.
Factor X1 X2
xi 5 11
Una vez codificadas las variables o aun manteniendo las mismas en variables fsicas reales se
procede a la obtencin de la matriz del diseo factorial que se seleccione y la realizacin de
los experimentos o pruebas.
Los diseos factoriales completos tienen bsicamente una estructura en potencias, para la
determinacin del nmero de experimentos a realizar. La estructura de la potencia consta de
una base y un exponente (bn), donde la base b representa el nmero de niveles de variacin de
los factores y el exponente n representa el nmero de factores a analizar en el diseo. As el
diseo define una cantidad de experimentos N = 2n.
Diseos de tipo 2n
El diseo factorial completo de tipo 2n permite obtener un modelo matemtico del proceso
estudiado en una regin del espacio factorial. En este tipo de diseo se trabaja a dos niveles
por cada factor y el nmero de factores debe primero que todo, ser determinado por el
investigador.
Mediante estos diseos, la variable respuesta queda representada en forma de series de Taylor
mediante:
45
y = A0 +A1X1+A2X2++AnXn+A12X1X2+A(n-1) nXn- Xn+A11X12+A22X22++AnnXn2 (5.2)
En el diseo de tipo 2n cada uno de los n factores toma solo dos valores en todo el conjunto
experimental. Es decir, varan solo en dos niveles. Estos dos niveles para cada factor (nivel
inferior y nivel superior) corresponden a -1 y +1 respectivamente. A continuacin se analizar
un ejemplo en el que se utiliza el anlisis factorial de tipo 22.
Ejemplo:
Se desea realizar un anlisis de la influencia de factores sobre el ndice H de autores. Para ello
el investigador desea investigar cual es la influencia real que ejercen sobre esta variable o
indicador dos factores (el factor de impacto de las revistas donde publican los autores y el
nmero de autocitas).
Debido a que se analizan dos factores, un diseo apropiado podra ser el 22 = 4 experimentos
bsicos (dos factores variando a dos niveles). Los valores correspondientes al nivel bajo y alto
de cada factor son definidos por el investigador.
En este caso quedaron los factores y el espacio factorial definidos de la siguiente forma:
(factor de impacto)
Las condiciones de realizacin de cada uno de los experimentos queda determinada por la
matriz del diseo factorial seleccionado tal como muestra la Tabla 5.3.
Experimento X1 X2 (yj)
1 -1 -1 Y1
2 -1 +1 Y2
3 +1 -1 Y3
4 +1 +1 Y4
Una vez establecida la matriz del diseo, el siguiente paso es la realizacin de cada
experimento o la sustraccin de la informacin correspondiente de una base de datos, de
forma totalmente aleatoria.
46
Los resultados del diseo sumando dos rplicas por cada punto experimental son los
siguientes:
Experimento X1 X2 (yj)
1 -1 -1 5
2 -1 +1 5
3 +1 -1 7
4 +1 +1 7
5 -1 -1 5
6 -1 +1 6
7 +1 -1 6
8 +1 +1 8
9 -1 -1 5
10 -1 +1 5
11 +1 -1 6
12 +1 +1 7
En la Tabla 5.4 se han presentado los resultados de los experimentos realizados y las dos
rplicas por cada punto o condicin de trabajo. Uno de los primeros anlisis a realizar en un
diseo factorial es el correspondiente al estimado de cada factor as como su error estndar.
Promedio 6 6 0.14 -
r2 =87.50 %
Durbin-Watson = 3.13
47
Tambin es muy importante el anlisis de la probabilidad de cada factor para determinar
cules son estadsticamente significativos y cules no. Este resultado puede ser extrado de la
tabla referida como ANOVA (anlisis de varianza) que ofrecen muchos paquetes estadsticos.
De la Tabla 5.5 se puede concluir que solo el factor de impacto (FI) es estadsticamente
significativo en el ndice H, debido a los valores de probabilidades, que debido a que se
trabaja en este ejemplo con un nivel de significacin de 0.05, el valor de probabilidad que
define significacin estadstica es P 0.05.
48
correlacin entre los residuales obtenidos segn el modelo propuesto por el diseo aplicado.
El grafico de residuales se muestra en la Fig.5.5.
49
Fig.5.7 Superficie de respuesta para influencia de factores en ndice H
Ejemplo:
El anlisis realizado para el diseo 22 pudo haber sido definido por el investigador con mayor
complejidad. Supongamos que adems del FI y las autocitas, se desea incluir la influencia de
la posicin que ocupa la revista en el ranking dentro de una temtica. Para poder aplicar un
diseo de tipo 2k es necesario que todos los factores tengan solo dos niveles de variacin. Si
queremos analizar tres niveles, entonces es un 23 que define una matriz bsica de 8
experimentos. Debido a que son definidos dos niveles, se separa el ranking en este caso en
dos mitades. La mitad superior del ranking (-1) y la mitad superior (+1), lo cual tal como se
ha definido es un factor cualitativo.
(factor de impacto)
50
Las condiciones del diseo y su matriz correspondiente se muestran en la Tabla 5.8.
Experimento X1 X2 X3 (yj)
1 -1 -1 -1 Y1
2 -1 -1 +1 Y2
3 -1 +1 -1 Y3
4 -1 +1 +1 Y4
5 +1 -1 -1 Y5
6 +1 -1 +1 Y6
7 +1 +1 -1 Y7
8 +1 +1 +1 Y8
Los datos extrados de la base de datos correspondientes para completar la matriz de diseo
sumando una rplica por punto se muestran en la Tabla 5.9.
51
Tabla 5.9 Resultados del diseo 23 para ndice H
Experimento X1 X2 X3 (yj)
1 -1 -1 -1 6
2 -1 -1 +1 6
3 -1 +1 -1 4
4 -1 +1 +1 8
5 +1 -1 -1 6
6 +1 -1 +1 7
7 +1 +1 -1 7
8 +1 +1 +1 8
9 -1 -1 -1 5
10 -1 -1 +1 6
11 -1 +1 -1 5
12 -1 +1 +1 7
13 +1 -1 -1 7
14 +1 -1 +1 6
15 +1 +1 -1 7
16 +1 +1 +1 6
52
r2 =75.00 %
Durbin-Watson = 1.17
Debido a que el estadgrafo de Durbin Watson es menor de 1.4, se sospecha que podra haber
autocorrelacin entre los residuales, lo cual debe ser corroborado o descartado con el anlisis
del grfico de residuales mostrado a continuacin. Es evidente en la Fig.5.8 que no hay
autocorrelacin entre residuales.
53
Fig.5.10 Diagrama de efectos principales en el ndice H
El anlisis por bloques se utiliza cuando se sospecha que un factor no analizado directamente
podra tener influencia en los resultados obtenidos, por lo que no se descarta. Es una forma de
organizar la informacin o los experimentos haciendo el proceso de experimentacin o
seleccin ms eficiente y menos engorroso. Por ejemplo, el estudio representado
anteriormente de tres factores en la variable respuesta ind H podra sospecharse que tambin
es dependiente o se ve influenciado por la base de datos empleada. Esto hace que el
investigador no quiera a priori descartar la base de datos de la que se extrae la informacin y
solo los resultados del diseo factorial dirn si el factor bloque (tipo de base de datos) es o no
significativa.
En el ejemplo anterior se extrajeron datos de una base de datos nica. Pero bien pudo
disearse la investigacin extrayendo los experimentos de la matriz bsica (bloque 1) de una
base de datos (base A) y los que correspondan a la rplica podran ser en este caso los
extrados de la segunda base de datos (base B). As la matriz del diseo 23 por bloques
quedara expresada segn la Tabla 5.11.
Es necesario sealar que las matrices de los diseos han sido organizadas para un mejor
entendimiento del lector de los experimentos a realizar, pero en el momento de realizar stos,
54
su seleccin tiene que ser al azar. En el caso del uso de bloques la aleatorizacin se llevara a
cabo dentro de cada bloque y se comenzara a trabajar con el siguiente bloque una vez
terminado con el primero de estos.
Se puede comprobar que si el plan factorial hubiera sido diseado tal y como muestra la Tabla
5.11 siendo los datos de bloque 1 extrados de la base de datos A y los del bloque 2 extrados
de la base de datos B, el factor bloque analizado en la Tabla ANOVA al igual que cualquier
otro factor, no seria significativo P = 1.000 > 0.05, por lo que se concluira en este caso que la
base de datos utilizada no influira en el ndice H. En caso que el factor bloque sea
significativo, se debe concluir que el tipo de base de datos s ejerce influencia en el ndice H y
por ende o se decide incluir esta variable como factor en posteriores anlisis de ndice H o se
decide siempre trabajar dentro de una nica base de datos para cada investigacin, de forma
que sea eliminada esa influencia indirecta.
1 1 -1 -1 -1 6
2 1 -1 -1 +1 6
3 1 -1 +1 -1 4
4 1 -1 +1 +1 8
5 1 +1 -1 -1 6
6 1 +1 -1 +1 7
7 1 +1 +1 -1 7
8 1 +1 +1 +1 8
9 2 -1 -1 -1 5
10 2 -1 -1 +1 6
11 2 -1 +1 -1 5
12 2 -1 +1 +1 7
13 2 +1 -1 -1 7
14 2 +1 -1 +1 6
15 2 +1 +1 -1 7
16 2 +1 +1 +1 6
55
Diseos factoriales de tipo 3n
La diferencia ms importante entre los diseos factoriales vistos hasta ahora y los diseos de
tipo 3n radica en la base tres en la potencia y ello define tres niveles de variacin por factor en
lugar de dos.
Estos son utilizados cuando el investigador est preocupado por la curvatura de la superficie
de respuesta. Para ello es usual emplear el diseo de tipo 3n. La adicin de un tercer nivel
permite modelar mediante una relacin cuadrtica la relacin entre la variable respuesta y
cada factor. Otra va para obtener ms informacin sobre la curvatura de la superficie es
mediante el empleo del 2n aadiendo al mismo varios puntos centrales. Esto permite
manteniendo reducidos la complejidad y el tamao del diseo, obtener informacin sobre la
curvatura.
El ms simple de estos diseos es el 32, el cual consta de dos factores variando cada uno a tres
niveles y un total de 9 experimentos para conformar la matriz bsica del diseo. Normalmente
una variacin a tres niveles en variables codificadas se representa por [-1, 0, +1], pero no
necesariamente el nivel intermedio tiene que ser central. Es decir, es posible establecer un
nivel medio ms cercano a uno de los extremos del espacio factorial, Ej.+ 0.5. En cualquier
caso, se debe utilizar la Ecuacin 5.1 para la codificacin de variables cuando hay dudas
acerca de la codificacin de un factor acorde a su posicin en el espacio factorial codificado.
Si tomramos el mismo ejemplo que ha sido tratado hasta el momento para el anlisis de
influencia de factores en el ndice H, pero con la complejidad adicional que cuando el
investigador estaba diseando y planificando sus experimentos, determin que era muy
importante el anlisis de la curvatura de la superficie de respuesta. Por ello determin que en
lugar de un 22 utilizara un 32 (cada factor variando a tres niveles). Entonces define las
condiciones del diseo segn la Tabla 5.12. Las condiciones de realizacin de cada uno de los
experimentos queda determinada por la matriz del diseo factorial seleccionado tal como
muestra la Tabla 5.13.
56
Tabla 5.13 Matriz del diseo 32 para ndice H
Experimento X1 X2 (yj)
1 -1 -1 Y1
2 -1 0 Y2
3 -1 +1 Y3
4 0 -1 Y4
5 0 0 Y5
6 0 +1 Y6
7 +1 -1 Y7
8 +1 0 Y8
9 +1 +1 Y9
Una vez establecida la matriz del diseo, el siguiente paso es la realizacin de cada
experimento o la sustraccin de la informacin correspondiente de una base de datos, de
forma totalmente aleatoria. Los resultados del diseo sumando una rplica por cada punto
experimental se muestran en la Tabla 5.14.
57
Tabla 5.14 Resultados del diseo 32 para ndice H
Experimento X1 X2 (yj)
1 -1 -1 7
2 -1 0 5
3 -1 +1 4
4 0 -1 9
5 0 0 6
6 0 +1 7
7 +1 -1 8
8 +1 0 9
9 +1 +1 8
10 -1 -1 6
11 -1 0 6
12 -1 +1 4
13 0 -1 6
14 0 0 6
15 0 +1 6
16 +1 -1 6
17 +1 0 7
18 +1 +1 7
58
Tabla 5.15 Sumario estadstico del diseo 32 aplicado a ndice H
r2 =76.33 %
Durbin-Watson = 2.15
Debido a que el estadgrafo de Durbin Watson es mayor que 1.4, no debe haber
autocorrelacin entre los residuales, lo cual puede ser comprobado con el anlisis del grfico
de residuales mostrado a continuacin. Es evidente en la Fig.5.8 que no hay autocorrelacin
entre residuales.
El resto de los grficos que pueden obtenerse para este tipo de diseo factorial es equivalente
a los previamente analizados. Los diagramas correspondiente al diseo 32 del ejemplo tratado
se muestran a continuacin. De particular inters es en este caso el diagrama de superficie de
respuesta, el cual muestra la curvatura que determina la influencia de los factores analizados
en el ndice H. Este grado de curvatura no hubiera sido observado ni cuantificado a travs de
59
los coeficientes cuadrticos de la ecuacin de regresin si se hubiese empleado el diseo solo
a dos niveles de variacin de factores.
60
Fig.5.15 Superficie de Respuesta para el diseo factorial 32 respecto al ndice H
Diseo Factorial 33
La diferencia entre el 32 y el 33 radica en que este ultimo presenta tres factores variando a tres
niveles. Es decir, sera apropiado para el anlisis de influencia de FI, autocitas y Ranking en
el ndice H pero definiendo tres niveles de variacin por cada factor. Esto implicara separar
el Ranking de revistas en tres clases (-1, 0, +1). El diseo 33 consta de 27 experimentos para
la matriz bsica sin contar las replicas. Solamente realizando una rplica sera necesario
trabajar con un total de 54 experimentos. El anlisis por bloques es tambin aplicable a este
diseo. Cada bloque podra ser el nmero de experimentos correspondientes a una rplica. La
matriz bsica de un 33 totalmente aleatorizado y sin replicas se muestra en Tabla 5.16.
El diseo desbalanceado se aplica cuando no es posible o no se desea variar todos los factores
en igual cantidad de niveles de variacin. Sin embargo el anlisis de resultados es similar a los
tipos de diseos factoriales analizados anteriormente. Debido a que la matriz no es simtrica
respecto a los niveles de variacin de factores, ello implica una matriz ms compleja
numricamente y en la codificacin de las variables.
Podramos continuar con el mismo ejemplo de anlisis de ndice H, pero ahora en su variante
ms compleja. Se desea analizar la influencia en este ndice de 4 factores variando a
diferentes niveles. El factor cualitativo (Ranking o cuarto) se analizar en 4 niveles de
variacin,. Esto es lo ms cercano a la realidad pues existen 4 cuartos en el ranking de
revistas. El factor de impacto variar a dos niveles al igual que el nmero de autocitas y el
ndice H de la revista, un nuevo factor que ahora se incluye. Es espacio factorial creado para
este plan factorial se muestra en la Tabla 5.17.
61
Tabla 5.16. Matriz bsica para factorial 33 de influencia de factores en el ndice H
62
Tabla 5.17 Condiciones de realizacin de los experimentos en el diseo desbalanceado
Se trata de mantener la variacin de algunos factores solo a dos niveles pues el nmero de
experimentos a realizar y la complejidad de la matriz son directamente proporcionales al
nmero de factores y niveles de variacin de stos. La matriz del diseo tiene que reproducir
todas las combinaciones posibles de factores.
La complejidad en este tipo de diseo desbalanceado radica en poder crear la matriz completa
que incluya todas las combinaciones de factores a todos sus correspondientes niveles de
variacin.
En este caso, tal como queda diseado el plan o anlisis factorial a realizar mostrado en la
Tabla 5.17, para determinar el nmero de experimentos bsicos a realizar en la matriz del
diseo, podemos partir del 24 = 162 = 32 experimentos para la matriz bsica sin replicas. La
matriz correspondiente a los 32 experimentos se muestra en el Anexo 2.
64
Todo lleva ms tiempo del que usted piensa.
Segunda Ley de Murphy
Captulo 6
Consideraciones finales
Es necesario recalcar una vez ms que la estadstica es solo una herramienta, es un medio y no
un fin en la investigacin cientfica o en cualquier tarea a cumplir. Solo es necesario utilizarla
cuando se necesita y siempre que los resultados de ella derivados sirvan para brindar
conclusiones o den lugar a nuevas ideas dentro de la investigacin que se realiza que sin su
utilizacin no sera posible obtener o sostener.
Casi todos los temas han sido abordados brevemente acorde al tiempo disponible para la
ejecucin del presente curso. La profundizacin en los temas abordados queda en manos del
lector, la cual puede realizar haciendo uso de la bibliografa recomendada o de otro nmero
grande de bibliografa disponible en la temtica.
No podemos dejar de mencionar una vez ms que la estadstica es una ciencia inexacta y esto
es algo que quien se vale de ella debe tener bien claro al mostrar y argumentar resultados.
65
Referencias
5. [Kreyszig] E. Advanced Engineering Mathematics. 9th Edition. John Wiley & Sons. 2006.
66
Anexo 1. Distribucin normal [Kreyszig]
67
Anexo 2. Matriz del diseo experimental para el ejemplo de diseo desbalanceado con
cuatro factores
Experimento X1 X2 X3 X4 (yj)
1 -1 -1 -1 -1 Y1
2 -1 -1 +1 -1 Y2
3 -1 +1 -1 -1 Y3
4 -1 +1 +1 -1 Y4
5 +1 -1 -1 -1 Y5
6 +1 -1 +1 -1 Y6
7 +1 +1 -1 -1 Y7
8 +1 +1 +1 -1 Y8
9 -1 -1 -1 -0.5 Y9
10 -1 -1 +1 -0.5 Y10
11 -1 +1 -1 -0.5 Y11
12 -1 +1 +1 -0.5 Y12
13 +1 -1 -1 -0.5 Y13
14 +1 -1 +1 -0.5 Y14
15 +1 +1 -1 -0.5 Y15
16 +1 +1 +1 -0.5 Y16
17 -1 -1 -1 +0.5 Y17
18 -1 -1 +1 +0.5 18
19 -1 +1 -1 +0.5 Y19
20 -1 +1 +1 +0.5 Y20
21 +1 -1 -1 +0.5 Y21
22 +1 -1 +1 +0.5 Y22
23 +1 +1 -1 +0.5 Y23
24 +1 +1 +1 +0.5 Y24
25 -1 -1 -1 +1 Y25
26 -1 -1 +1 +1 Y26
68
27 -1 +1 -1 +1 Y27
28 -1 +1 +1 +1 Y28
29 +1 -1 -1 +1 Y29
30 +1 -1 +1 +1 Y30
31 +1 +1 -1 +1 Y31
32 +1 +1 +1 +1 Y32
69