Вы находитесь на странице: 1из 24

ESTADSTICA DESCRIPTIVA

BOTELLA
CAPTULO 1: Conceptos Generales
La estadstica actual no slo es un conjunto de tcnicas para resumir y transmitir informacin cuantitativa, sino
que sirve tambin, y fundamentalmente para hacer inferencias, generalizaciones y extrapolaciones de un conjunto
relativamente pequeo de datos a un conjunto mayor. Clsicamente la estadstica se ha dividido en dos partes, la
estadstica descriptiva y la estadstica inferencial. Para hacer un estudio inferencial primero hay que hacer un
estudio descriptivo de los datos. Es decir, un estudio descriptivo se agota en la descripcin, mientras que uno
inferencial comienza por la descripcin y luego aborda la inferencia. Mientras que la estadstica descriptiva puede
abordarse sin conocimientos tcnicos previos, aparte del lgebra elemental, para el estudio de la estadstica
inferencial es imprescindible adquirir nociones bsicas de probabilidad.
Estadstica es la ciencia que se ocupa de la ordenacin y anlisis de datos procedentes de muestras, y de
la realizacin de inferencias acerca de las poblaciones de las que stas proceden.

Otro conjunto de tcnicas ms sofisticadas y desconocidas de la estadstica, y que se utilizan para extraer
conclusiones de poblaciones a partir de la observacin de unos pocos casos, son las que integran la estadstica
inferencial.
Distincin entre estadstica terica y estadstica aplicada: la primera se dedica al estudio de los mtodos
formalmente vlidos para la realizacin de inferencias. La segunda se dedica a la aplicacin de esos mtodos y
modelos de actuacin a campos reales.
Cualquier trabajo en el que se aplica la estadstica se refiere a un conjunto de entidades, conocido con el nombre
de poblacin.
Se llama poblacin estadstica al conjunto de todos los elementos que cumplen una o varias
caractersticas o propiedades
A los elementos que componen una poblacin se les denomina entidades estadsticas o individuos. Dependiendo
del nmero de elementos que la compongan, la poblacin puede ser finita o infinita. La mayor parte de las
poblaciones con las que solemos trabajar son finitas, pero tan numerosas que a la hora de hacer inferencias acerca
de ellas se pueden considerar infinitas a efectos prcticos. Cuando un investigador aborda un trabajo emprico debe
definir claramente la poblacin sobre la cual se interesa.
La poblacin ha de ser el marco o conjunto de referencia sobre el cual van a recaer las conclusiones e
interpretaciones, y stas no pueden exceder ese marco. El hecho de que las poblaciones sean, por lo general, muy
numerosas, suele hacer inaccesible la descripcin de sus propiedades. De ah que se trabaje fundamentalmente con
muestras.
Una muestra es un subconjunto de los elementos de una poblacin
La muestra nos va a ofrecer una serie de datos que podemos ordenar, simplificar y describir. Pero el objetivo
fundamental es el poder describir la poblacin de partida mediante lo que podamos encontrar en la muestra. Y para
poder extraer esas conclusiones lo ms importante es que las muestras de observaciones sean representativas.
Existe todo un campo de la estadstica, llamado muestreo, dedicado a estudiar los procedimientos de extraccin
de muestras encaminados a maximizar la representatividad de las mismas. Por ello un primer objetivo de la
estadstica descriptiva consiste en conseguir resmenes de los datos en ndices compactos y de gran calidad
informativa.
Las poblaciones pueden caracterizarse a partir de unas constantes denominadas parmetros. Como normalmente
los parmetros son desconocidos, una de las tareas de la estadstica es la de hacer conjeturas lo ms acertada
posibles acerca de esas cantidades. Para ello se utilizan cantidades anlogas obtenidas en las muestras, que se
denominan estadsticos.
Un parmetro es una propiedad descriptiva de una poblacin
Un estadstico es una propiedad descriptiva de una muestra
Los parmetros y estadsticos no slo son medias, sino que pueden ser otros tipos de cantidades, como
porcentajes. Desde un punto de vista simblico, conviene indicar, para distinguirlos, que los parmetros se suelen
representar por letras griegas mientras que los estadsticos se suelen simbolizar por letras latinas. En la primera fase
de una investigacin se obtienen los estadsticos, y en la segunda se utilizan los valores obtenidos para hacer
inferencias acerca de los parmetros.
Cuando estudiamos las entidades que conforman una poblacin nos interesamos por algunas de las propiedades
de sus elementos, y esas propiedades adoptan distintas variedades.
Una caracterstica es una propiedad o cualidad de un individuo.
Una modalidad es cada una de las maneras como se presenta una caracterstica

MEDICIN
La estadstica no realiza sus funciones directamente sobre las modalidades observadas, sino que stas se
representan por nmeros, y la estadstica realiza sus funciones sobre esos nmeros.
Se llama medicin al proceso de atribuir nmeros a las caractersticas
La asignacin de nmeros a las caractersticas se hace siguiendo unas reglas; del estudio de los modelos mediante
los cuales conocemos las reglas para una correcta atribucin de los nmeros se ocupa la Teora de la Medida.
El sistema numrico est formado por un conjunto de entidades (nmeros) y unas relaciones entre ellos. Es decir,
que se trata de un sistema relacional numrico. El objetivo de la medicin de una caracterstica es conectar un
sistema relacional emprico y un sistema relacional numrico, de tal forma que las relaciones entre las entidades se
reflejen en las relaciones entre los nmeros que los simbolizan. Slo si se consigue este objetivo ocurrir que de las
relaciones entre los nmeros podrn hacerse inferencias vlidas acerca de las relaciones entre las entidades. Por
ejemplo: las modalidades que adopta la variable estatura son tales que se podra decir que una determinada
modalidad es una estatura superior a otra determinada modalidad. Pues bien, los nmeros que se atribuyan a esas
modalidades en el proceso de medicin deben reflejar esa superioridad. Por el contrario, lo nico que podemos decir
al comprar las modalidades de dos individuos en la variable sexo es si esas modalidades son la misma o no; no tiene
sentido decir que una de las modalidades supone tener ms sexo que la otra.
La medicin estudia las condiciones de construccin de representaciones numricas, y los modelos desarrollados
para la medicin se llaman escalas: nominales, ordinales, cuantitativas de intervalo y cuantitativas de razn.
Se utiliza una clase por cada una de las modalidades que adopta la caracterstica que se est estudiando. Las
clases son mutuamente exclusivas y exhaustivas, es decir, cada observacin es incluida en una y slo una clase.
Transformacin admisible: es un concepto ligado al concepto de escala y que de hecho las se caracteriza, que
hace referencia al problema de la unicidad de la medida. La cuestin de la unicidad puede plantearse de la siguiente
manera: es la representacin numrica que hemos construido la nica posible? En general la respuesta ser
negativa. Sern muchas las representaciones alternativas que seran correctas. De un conjunto de valores
correctamente atribuidos se puede pasar a otro tambin correctamente atribuido mediante una transformacin
admisible. Se dice que una transformacin de los nmeros asignados en una escala es una transformacin admisible
si preserva las caractersticas que definen a esa escala, es decir, si los nmeros transformados tambin representan al
sistema emprico.
- ESCALA NOMINAL: supongamos que se tiene un conjunto de objetos cuya caracterstica nos interesa para su
estudio. sta adopta un nmero k de modalidades distintas; representamos por m a la modalidad del objeto.
Asignamos nmeros a los objetos en funcin de la modalidad que presentan en esa caracterstica; representamos por
n al nmero asignado al objeto. Al tipo de medicin que cumple estas condiciones se le llama escalamiento
cualitativo o nominal. Podran tambin utilizarse otros smbolos, como letras, palabras, etc., puesto que los nmeros
asignados no se van a utilizar como tales, sino como simples cdigos de identificacin. Por ejemplo: el sexo, los
diagnsticos psicopatolgicos (neurosis, psicosis, psicopatas, etc.). La clave de estas escalas de medidas es que solo
informan de la igualdad o desigualdad de los individuos en una caracterstica, pero no de posibles ordenaciones,
puesto que la caracterstica a la que se refieren no se tiene en mayor o menor medida, sino que simplemente adopta
formas cualitativamente distintas.
En una escala nominal son admisibles todas las transformaciones que supongan aplicaciones inyectivas. El
conjunto de transformaciones admisibles determina el tipo de escala o grado de unicidad de la medida.
- ESCALAS ORDINALES: supongamos que contamos de nuevo con un conjunto de objetos que difieren en una
caracterstica que cada uno posee en una cierta cantidad. De nuevo el proceso de medicin debe consistir en la
aplicacin de una regla de asignacin de nmeros a las diferentes cantidades, pero ahora de tal forma que los
nmeros asignados a los objetos reflejen esos distintos grados en los que se presenta la caracterstica. Los nmeros
asignados nos permitirn extraer conclusiones acerca de las magnitudes. Sin embargo, a veces lo nico que esos
nmeros nos permiten inferir son relaciones del tipo "mayor que" o "menor que". Los objetos pueden ordenarse,
puede decirse cul de esos objetos presenta una mayor o menor magnitud de esa caracterstica. Ejemplo: un
individuo es ms extravertido que otro, que un nio es ms hiperactivo que otro, o que el aprendizaje es ms rpido
con el mtodo A que con el mtodo B.
Al igual que en las escalas nominales, las ordinales tienen transformaciones admisibles, que lgicamente sern
todas aquellas que preserven las caractersticas de la escala ordinal. Se puede demostrar que esto ocurre con todas
aquellas transformaciones que cumplan con la condicin de ser transformaciones crecientes.
La limitacin de estas escalas es que aunque nos informa de que un objeto presenta la caracterstica en cuestin
en una mayor magnitud que otro objeto, no nos dice en cuanto mas.
- ESCALA DE INTERVALO: supone una mejora sustancial con respecto a las escalas ordinales, es que se cuenta
con una unidad de medida, sin importar que tanto esta unidad de medida como el origen de la escala sean
arbitrarios.
La diferencia entre los nmeros asignados a dos objetos es igual a la diferencia entre los nmeros asignados a
otros dos, entonces tambin son iguales las diferencias en magnitudes entre estos dos pares. Y, por el contrario, una
mayor diferencia entre los nmeros asignados implica una mayor diferencia entre las magnitudes representadas.
Ejemplo: la temperatura. Para construir la escala centgrada se enfra el agua hasta la temperatura de congelacin,
y se pone un cero en la altura que alcanza la columna de mercurio. Despus se calienta el agua hasta el punto de
ebullicin, y donde se encuentre la altura de la columna de mercurio se marca cien., Posteriormente se divide el
espacio entre esas dos marcas en cien partes iguales, a las que se llama grados centgrados.
La condicin para que una transformacin de los nmeros asignados en una escala de intervalos sea una
transformacin admisible es que los nmeros asignados deben ser transformaciones lineales de las magnitudes
reales, entonces son admisibles las transformaciones que sean tambin son lineales. Las transformaciones admisibles
para las escalas de intervalo no significan ms que un cambio en la unidad de medida y en el origen asignado a la
escala, valores ambos arbitrarios en ese tipo de escalas.
La principal limitacin de este tipo de escalas es que, aunque cuenta con una unidad de medida, no tiene un cero
absoluto. Es decir, el nmero cero no representa realmente la ausencia de esa caracterstica. Un ejemplo de
transformacin admisible es su traduccin a grados Fahrenheit.
- ESCALA DE RAZN: cumple la funcin de preservar el significado del valor cero, de forma que siempre
represente la ausencia de esa caracterstica. La consecuencia fundamental de la presencia de un origen absoluto, y
no arbitrario, es que a dems de poder extraer conclusiones acerca de la igualdad o desigualdad de diferencias,
tambin puede hablarse de desigualdad o igualdad de razones.
La nica transformacin admisible es la multiplicacin por una constante positiva, puesto que solo estas
transformaciones preservan el cero, mientras que permiten un cambio en la unidad de medida.

Tipo Informacin Transformacin Ejemplos


deducible Admisible
Nominal Relaciones igual Aplicaciones Sexo, estado civil,
que o distinto que inyectivas diagnstico clnico
Ordinal Relaciones mayor Funciones crecientes Dureza, nivel
que o igual que socioeconmico, grado
de asertividad
Intervalo Igualdad o A + b x (b > 0) Temperatura,
desigualdad de calendario, inteligencia
diferencias
Razn Igualdad o B x (b > 0) Longitud, peso
desigualdad de razones

VARIABLES
En el proceso de medicin se asignan nmeros a los objetos segn unas reglas, y el conjunto de valores numricos
atribuidos a las modalidades de una caracterstica constituyen lo que llamamos variable estadstica.
Una variable es una representacin numrica de una caracterstica
Los valores atribuidos a las correspondientes modalidades de una caracterstica permiten diferenciar a los
objetos, que varan entre s en esa caracterstica. Por el contrario, hay veces que una caracterstica tiene una nica
modalidad, en ese caso todas las entidades estudiadas adoptaran el mismo valor numrico, y decimos que se trata
de una constante.
Las variables pueden clasificarse de varias formas: las variables cuantitativas (sean de intervalo o razn) pueden a
su vez clasificarse en variables discretas y variables continuas, en funcin del nmero de valores asumibles por ellas.
Una variable discreta es aquella que adopta valores aislados. Por tanto, fijados dos consecutivos, no puede tomar
ninguno intermedio. Ejemplo: hijos de las familias espaolas, el nmero de piezas dentales que conservan los
internos de una residencia de ancianos, el numero de libros ledos pasado el verano, etc. En las variables continuas
entre dos valores cualesquiera, por prximos que sean, siempre pueden encontrarse valores intermedios. Ejemplo: la
longitud, la duracin de los sucesos o el peso. Las variables estadsticas se simbolizan por letras maysculas latinas, y
generalmente con un subndice, para distinguirlas de las constantes.
En la prctica las variables continuas no pueden representarse numricamente como tales. Los instrumentos de
medida son imprecisos y solo permiten atribuir nmeros discretos. Cuando decimos que un suceso ha durado 20
segundos lo que queremos decir es que el numero de segundos mas cercano a su duracin es 20; es decir, que su
duracin esta en el intervalo 20 +/- 0,5. El 20 se llama valor informado, mientras que los valores 19,5 y 20,5 se llaman
lmites exactos de la medida, y se obtienen sumando y restando el valor informado la mitad de la unidad de medida
utilizada, que pueden ser unidades, decimas, centsimas, etc.

CAPTULO 2: organizacin y representacin de datos


Luego de obtener un conjunto de valores tomados en una o varias variables hay que empezar por inspeccionar los
datos. Cuando la cantidad de nmeros recolectados es demasiado grande, se hace difcil hacer una inspeccin directa
que sea realmente comprensiva. Por eso el primer paso suele consistir en reorganizar los datos. Un instrumento para
conseguir esa ordenacin es la denominada distribucin de frecuencias, y a partir de ella es frecuente tambin
construir representaciones grficas.
DISTRIBUCIN DE FRECUENCIAS
La distribucin de frecuencias es un instrumento diseado para cumplir tres funciones: a) proporcionar una
reorganizacin y ordenacin racional de los datos recogidos, b) ofrecer la informacin necesaria para hacer
representaciones grficas y c) facilitar los clculos necesarios para obtener los estadsticos muestrales.
Representaremos por X a la variable con la que trabajamos, y que puede adoptar distintos valores (X1, X2, X3) pero
cada uno de esos valores puede aparecer repetido ms de una vez en los n elementos que componen la muestra.
Se llama frecuencia absoluta de un valor Xp y se simboliza por np al nmero de veces que se repite el
valor Xi en la muestra.
Se llama frecuencia relativa de un valor xp y se simboliza por pp al cociente entre la frecuencia absoluta
de ese valor y el tamao de la muestra.
Se llama frecuencia absoluta acumulada de un valor xp y se simboliza por px al cociente entre su
frecuencia absoluta acumulada y el tamao de la muestra.
A veces las frecuencias relativas, ya sean simples o acumuladas, se expresan en trminos porcentuales. En esos
casos suelen representarse con maysculas; par obtenerlas basta con multiplicar por 100 las frecuencias relativas.
Construimos la distribucin de frecuencias siguiendo los pasos descritos:
a) Se ponen los valores que toma la variable en la primera columna de abajo hacia arriba.
b) Para la columna de f. absolutas contamos el nmero de veces que se repite cada valor. La suma de ellos es
igual al tamao de la muestra.
c) Para la columna de f. relativas dividimos cada f. absoluta por n. La suma de ellas debe dar 1.
d) Para obtener las f. absolutas acumuladas sumamos para cada valor su f. absoluta ms la absoluta acumulada
del valor anterior. Su suma debe dar tambin n.
e) Para las f. relativas acumuladas dividimos cada f. absoluta acumulada por n. La frecuencia relativa de valor
mayor debe ser igual a 1.
En muestras en donde se tienen muchsimos valores que toma la variable, suele aplicarse lo que se denomina una
agrupacin en intervalos, y que consiste en formar grupos de valores consecutivos, llamados intervalos, y poner uno
de estos grupos en cada fila, en lugar de poner cada valor individual por separado. A continuacin se calculan las f.
absolutas conjuntas de los valores incluidos en el intervalo haciendo lo mismo despus con las f. relativas, las
absolutas acumuladas y las relativas acumuladas. En las distribuciones de frecuencias con valores agrupados en
intervalos aparecen algunos elementos nuevos:

Se llama intervalo a cada uno de los grupos de valores que ocupan una fila en una distribucin de
frecuencias.
Se llaman lmites aparentes o informados de un intervalo a los valores mayor y menor que puede
adoptar la variable dentro de ese intervalo.
Se llaman lmites exactos de un intervalo a los valores mximo y mnimo incluidos en el intervalo.
Se llama punto medio de un intervalo a la suma de sus lmites exactos partido por dos.
Se llama amplitud de un intervalo a la diferencia entre su lmite exacto superior y su lmite exacto
inferior. Se representa por la letra I.
Hay tres reglas y algunas directrices para hacer una distribucin: a) el intervalo superior debe incluir al mayor
valor observado, b) el intervalo inferior debe incluir al menor valor observado, c) cada intervalo debe incluir el mismo
nmero de valores. Pero al ser muchas las agrupaciones diferentes que se pueden realizar, para decidir entre ellas
hay que tener presentes algunas directrices basadas en dos guas principales: a) dado que el objetivo de una
distribucin es conseguir una ordenacin manejable que ayude a comprender el significado de los datos, no es
conveniente que el nmero de intervalos sea demasiado grande, b) el nmero apropiado de intervalos debe ser tal
que, simultneamente, con ella se consiga una agrupacin operativa y que cumpla los objetivos para los que ha sido
diseada la distribucin, pero sin distorsionar los valores con el error de agrupamiento.
REPRESENTACIONES GRFICAS
A partir de las distribuciones de frecuencias se pueden construir representaciones grficas. La funcin de stas es
dar informaciones globales mediante un solo golpe de vista.
- Diagrama de rectngulos: para hacer un diagrama de rectngulos se colocan en el eje de abscisas las
modalidades (o los nmeros que las representan), y en el eje de ordenadas las frecuencias (puede ser absolutas o
relativas simples o acumuladas). Sobre cada modalidad se levanta un rectngulo cuya altura es la frecuencia
correspondiente. La base de los rectngulos ser arbitraria. Para variables nominales u ordinales.
- Perfil octogonal: se utiliza mucho en informes psicopedaggicos o de rendimiento.
- Pictograma: son representaciones en forma de crculos en los que stos son divididos en secciones cuya
superficie es proporcional a la frecuencia de la modalidad correspondiente.
- Diagrama de barras: se utiliza en variables cuantitativas discretas. En el eje de abscisas se colocan los
distintos valores de la variable y en el eje de ordenadas las frecuencias. Sobre cada valor de la variable se traza una
lnea o barra perpendicular cuya altura debe ser igual a la frecuencia.
- Histograma: se utiliza para variables cuantitativas continuas con datos agrupados en intervalos. En el eje de
abscisas se colocan los lmites exactos de los intervalos, y en el eje de ordenadas las frecuencias. Sobre cada intervalo
se levanta un rectngulo cuya altura sea igual a la frecuencia correspondiente.
- Polgono de frecuencias: para variables discretas, el polgono es la figura que resulta de unir los extremos
superiores de las que hubieran sido las barras. Si se trata de una variable continua, podemos decir lo mismo pero
referido a los puntos medios de las bases superiores de los rectngulos correspondientes a un hipottico histograma
construido con esos mismos datos.
- Diagrama de barras acumuladas: se utiliza en variables discretas. En el eje de abscisas se colocan los valores
de la variable y en el de ordenadas las frecuencias acumuladas, ya sean absolutas o relativas. Sobre cada valor se
traza una perpendicular cuya longitud sea igual a la f. acumulada. Desde el extremo superior de cada una de estas
barras se traza una lnea horizontal que se une con la barra situada a su derecha.
- Polgono de frecuencias acumuladas: se utiliza en variables continuas. El eje de abscisas se construye igual
que en los histogramas, pero en el de ordenadas se incluyen las f. acumuladas, ya sean absolutas o relativas. Sobre
cada lmite se levanta una perpendicular cuya longitud sea idntica a la f. acumulada y se une con los extremos
superiores de dichas perpendiculares.
- Otros dibujos: muchas veces se utilizan otras representaciones figuritas, en las que se incluyen los objetos
de los que se estn haciendo recuentos de frecuencias, a algn smbolo que los identifique de forma muy expresiva.

VARIABLES Nominales diagrama de rectngulos

Cuantitativas discretas Diagrama de barras


Polgono de frecuencias
Diagrama de barras acumuladas

Cuantitativas continuas Histograma


Polgono de frecuencias
Perfil octogonal

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS


Los conjuntos de datos de variables cuantitativas obtenidos en muestras, tienen algunas caractersticas. Son
cuatro:
- Tendencia central: se refiere a la magnitud general de las observaciones hechas. Esta magnitud general
puede cuantificarse mediante unos ndices conocidos como ndices de tendencia central o promedios y que reciben
ese nombre porque pretenden ser sntesis de los valores de la variable.
- Variabilidad: esta propiedad se refiere al grado de concentracin de las observaciones en torno al promedio.
Una distribucin ser homognea o poco variable si los datos difieren poco entre si, y por tanto, se agolpan en trono
a su promedio. Ser heterognea o muy variable si los datos se dispersan mucho con respecto al promedio. Esta
propiedad es independiente de la anterior, es decir, dos grupos que tengan distinta variabilidad pueden tener
tendencias centrales muy distintas o similares.
- Asimetra o sesgo: esta propiedad se refiere, por tanto, al grado en que los datos tienden a concentrarse en
los valores centrales, en los valores inferiores al promedio, o en los valores superiores a ste. Existe simetra perfecta
cuando en caso de doblar la representacin grfica por una vertical trazada sobre la media, las dos mitades se
superponen perfectamente.
- Curtosis: se refiere al grado de apuntamiento de la distribucin de frecuencias. Si es muy apuntada, se llama
leptocrtica, y si es muy aplastada, se llama platicrtica. Generalmente el grado de curtosis de una distribucin se
compara con un modelo de distribucin llamado distribucin normal, y que respecto a la curtosis se llama
distribucin mesocrtica.
DIAGRAMA DE TALLOS Y HOJAS
Las distribuciones de frecuencias no son el nico medio para resumir y exponer conjuntos de datos; una
alternativa a ellas son los llamados diagramas de tallo y hojas. Su obtencin requiere separar cada puntuacin en dos
partes: el primer o primeros dgitos, que reciben el nombre de tallo y el dgito o dgitos restantes, que reciben el
nombre de hojas. (x=56, 5 (tallo) y 6 (hoja). Pasos:
a) Se identifican los valores mximo y mnimo observados.
b) Se toma una decisin acerca del nmero ms apropiado de tallos distintos.
c) Se listan todos los tallos distintos en una columna, ordenados de forma creciente de arriba hacia abajo.
d) Se escribe cada hoja, junto al tallo que le corresponda, preferiblemente ordenados segn su valor.
El diagrama de tallo y hojas tiene varias ventajas sobre la distribucin e inconvenientes: una primera ventaja es
que permite identificar cada puntuacin individual. En las distribuciones tradicionales slo conocemos las frecuencias
del intervalo, y eso nos obliga a tratar los datos de ciertas maneras distorsionadas; no facilita, como la distribucin
clsica, el clculo de estadsticos; ofrece tanto un listado de las puntuaciones como un dibujo de la distribucin; al
contener los valores de cada observacin es ms fcil de modificar para obtener un dibujo con un nivel de detalle
distinto; pueden representarse dos conjuntos de datos en el mismo diagrama, con lo que facilita la comparacin.

CAPTULO 3: Medidas de posicin


Para hacer estas valoraciones relativas se pueden utilizar las llamadas medidas de posicin que son ndices
diseados especialmente para revelar la situacin de una puntuacin con respecto a un grupo, utilizando a ste
como marco de referencia. Un tipo concreto de medida de posicin son las llamadas medidas de tendencia central y
tambin hay medidas de posicin mas generales, que reciben el nombre de cuantiles
- Centiles o percentiles: son 99 valores de la variable que dividen a la distribucin en 100 secciones, cada una
conteniendo a la centsima parte de las observaciones. Se simboliza por C 28 a aquella puntuacin que deja por
debajo de si al 28 por 100 de las observaciones y que es superada por el 72 por 100.
Dado que los valores correspondientes a los centiles se determinan en funcin de los porcentajes de
observaciones, normalmente las distancias entre ellos, en trminos de puntuacin, no sern constantes.
Generalmente las distancias entre los centiles intermedios sern menores que las distancias entre centiles extremos.
Los centiles no suelen calcularse con cantidades de pequeos datos, y cuando es necesario hacerlo se obtienen
sencillamente ordenando las puntuaciones y calculando la proporcin de stas que superan al valor que se quiere
comparar. Normalmente los centiles se obtienen sobre datos agrupados en intervalos, y en su clculo se asume el
supuesto de distribucin homognea intraintervalo.
El centil setenta es, por definicin, aquella puntuacin que deja por debajo de si al 70 por 100 de las
observaciones y es superada por el 30 por 100 de ellas. Como se trata de un grupo de 200 observaciones, el 70 por
100 son 140; por lo tanto, buscamos aquella puntuacin que deja por debajo a 140 observaciones, y por encima a las
otras 60.
Las puntuaciones que dejan por debajo a esas cantidades de observaciones, son los lmites exactos superiores de
los intervalos.
- Deciles: son nueve puntuaciones que dividen a la distribucin en 10 partes, cada una conteniendo al 10 por
100 de las observaciones. Se representa por D k, donde k indica el nmero del decil al que se refiere. As, el decil
cuarto, es la puntuacin que deja por debajo de si al 40 por 100 de las observaciones y por encima de si al 60 por
100.
- Cuartiles: son tres puntuaciones que dividen a la distribucin en cuatro partes, cada una conteniendo al 25
por 100 de las observaciones. Se representan por Q k donde k indica el nmero del cuartil al que se refiere
Existe una equivalencia directa entre los distintos cuantiles. Gracias a esta equivalencia, las frmulas de clculo de
los cuantiles se resumen en la de los centiles correspondientes al cuantil que se quiera.

CAPTULO 4: medidas de tendencia central


Las medidas de posicin permiten comparar una puntuacin con aquellos valores que ocupan ciertas posiciones
especiales en un grupo de referencia. De todas esas posiciones hay una, la que representa la posicin central, que
suele suscitar un mayor inters que las dems, las medidas de tendencia central. Son ndices que actan como
resmenes numricos de las observaciones hechas. Representan la magnitud general observada en los valores.
Tambin sirven para comparar conjuntos de valores. Dado que no se pueden comparar distribuciones completas, lo
que se comparan son ciertas caractersticas resumen de stas.
MEDIA ARITMTICA El ndice de tendencia central ms utilizado. Se define como la suma de los valores
observados, dividida por el nmero de ellas. Por tanto, si recogemos n observaciones de la variable X, entonces la
media de los valores observados es: X=
El procedimiento para hacer los clculos de la media con datos agrupados en una distribucin de frecuencias:
Propiedades de la media aritmtica:
A las puntuaciones que hemos venido tratando hasta aqu, y que no son ms que los valores brutos, las
denominaremos a partir de ahora puntuaciones directas y las representaremos por la letra de la variable en
mayscula. Por el contrario, a las diferencias de cada sujeto con respecto a la media grupal las denominaremos
puntuaciones diferenciales y las representaremos por la letra minscula:
Con las puntuaciones diferenciales podemos dar una informacin ms precisa que con las directas.
1. La suma de las diferencias de n puntuaciones con respecto a su media o puntuaciones diferenciales es igual
a cero. La razn por la que la suma de las diferenciales es igual a cero es que unas son positivas y otras negativas (las
que superan la media y las que quedan por debajo de ella) y se compensan con otras.
2. La suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es menor que
con respecto a cualquier otro valor. A veces nos interesar sumar a las puntuaciones observadas una cantidad
constante, y en esos casos tambin nos interesar conocer la media de las nuevas puntuaciones.
3. Si sumamos una constante a un conjunto de puntuaciones, la media aritmtica quedar aumentada en esa
misma constante. Pero las puntuaciones no slo pueden transformarse sumando constantes, tambin lo pueden
hacer multiplicando constantes.
4. Si multiplicamos por una constante a un conjunto de puntuaciones, la media aritmtica quedar
multiplicada por esa misma constante. En algunos casos contamos con la media de varios grupos en una variable y
nos interesa conocer la media de todas las observaciones juntas. Su frmula suele denominarse media ponderada.
5. La media total de un grupo de puntuaciones, cuando se conocen los tamaos y medias de varios subgrupos
hechos a partir de un grupo total, mutuamente exclusivo y exhaustivo, puede obtenerse ponderando las medias
parciales a partir de los tamaos de los subgrupos en que han sido calculadas. Otra situacin relativamente
frecuente es aquella en la que se forma una variable a partir de una combinacin lineal de dos o ms variables, e
interesa conocer la media de la variable resultante.
6. Una variable definida como la combinacin lineal de otras variables tiene como media la misma
combinacin lineal de las medias de las variables intervinientes en su definicin.
MEDIANA Es el ndice, la puntuacin que es superada por la mitad de las observaciones pero no por la otra
mitad. Para su clculo podemos encontrarnos en dos casos generales, aquel en el que contamos con un nmero
impar de observaciones y aquel en que nos encontramos con un nmero par de ellas. En el primero se toma como
mediana el valor central, en el segundo se da la circunstancia de que cualquier valor comprendido entre los dos
centrales cumple con la definicin de la mediana.
MODA Una tercera va para representar la tendencia central de un conjunto de valores consiste en
informar del valor ms frecuentemente observado. En esta idea se basa nuestro tercer ndice de tendencia central, la
moda, que se representa por Mo, y se define sencillamente como el valor de la variable con mayor frecuencia
absoluta.
COMPARACIN: Con qu criterios elegimos uno sobre los dems para representar la magnitud general
observada en unos valores o para comparar la de dos o ms grupos de valores? Si no hay ningn argumento de peso
en contra, se preferir siempre la media. Hay dos razones para apoyar esta norma general. La primera es que en ella
se basan otros estadsticos y la segunda es que es mejor estimador de su parmetro que la mediana y la moda. Este
segundo argumento significa que, en trminos generales, las medias halladas sobre muestras representativas se
parecen ms a la media poblacional que lo que se parecen las medianas y modas mustrales a la mediana y la moda
poblacional. Hay al menos tres situaciones en las que se preferir la mediana a la media: a) cuando la variable est
medida en una escala ordinal; b) cuando haya valores extremos que distorsionen la interpretacin de la media y c)
cuando haya intervalos abiertos. Este tercer y ltimo caso se refiere a situaciones en las que el intervalo superior
carece de lmite superior, el intervalo inferior carece de lmite inferior, o ambas cosas a la vez.
La mediana ser la segunda candidata para representar la tendencia central y por tanto, si no hay argumentos de
peso en contra, se preferir la mediana a la moda. Pero hay al menos dos situaciones en las que se dar esa
preferencia: a) cuando se trate de una variable medida en una escala nominal, b) cuando haya intervalos abiertos y la
mediana pertenezca a uno de ellos.
En algunos casos los tres ndices de tendencia central dan valores parecidos, o incluso pueden coincidir
exactamente.

CAPTULO 5: Medidas de variacin


Para conseguir una visin completa y comprensiva de los datos hay que complementar las medidas de tendencia
central con las de otras propiedades de los mismos. Una de las propiedades ms importantes de los conjuntos de
datos es el grado en que stos se parecen o se diferencian entre s. Esta propiedad se denomina variabilidad,
dispersin u homogeneidad, y es diferente de la tendencia central.
VARIANZA Y DESVIACIN TPICA
Una idea que se ha demostrado til a las hora de cuantificar la variabilidad es la de trabajar con las distancias
desde los valores hasta algn poste central, que podra ser la media aritmtica. Sin embargo tambin vimos en el
tema anterior que la suma de las diferenciales es necesariamente igual a cero. Una solucin al problema de que las
distancias con respecto a la media sumen cero consiste en elevar al cuadrado esas distancias antes de hallar su
promedio, dado que los cuadrados son siempre positivos. El ndice basado en esta idea se llama varianza, y se
representa por la expresin S2x. Cuando se quiere describir el grado de variabilidad de un grupo de valores basta
con obtener este ndice. La cuestin que puede surgir es la de cmo valorar el grado de dispersin cuantificando
mediante este ndice. Dado que valores de varianzas que pueden ser normales en ciertas variables y poblaciones
podran parecer exagerados en otros casos, no tiene sentido comparar varianzas halladas sobre variables distintas. La
varianza sirve sobre todo para comparar el grado de dispersin de dos o ms conjuntos de valores en una misma
variable, llegando a conclusiones como la siguiente: la poblacin de hombres presenta una mayor variabilidad en su
estatura que la poblacin de mujeres, que son ms homogneas en esa caracterstica. La razn de esta discrepancia
es que las distancias no se han tratado como tales, sino que para evitar el problema de que las diferenciales sumen
cero se han elevado stas al cuadrado. Por ello es frecuente, con objeto de retomar las unidades originales de esas
distancias, se calcule la raz cuadrada de la cantidad obtenida. Al ndice as hallado se le llama desviacin tpica, se
representa por Sx y se define sencillamente como la raz cuadrada de la varianza. Las variaciones entre los datos
estn reflejando variaciones en las caractersticas que estn estudiando, y que en psicologa suelen ser indicadores
de variables psicolgicas o mediciones del comportamiento. La variabilidad de los datos reflejando el hecho
incuestionable de las diferencias individuales. Uno de los objetivos de la psicologa es precisamente la explicacin
sistemtica de esas diferencias, en tanto en cuanto presentan regularidades asociadas a segundas o terceras
variables.
No siempre son la varianza y la desviacin tpica los ndices ms apropiados para representar la variabilidad de un
grupo de datos. Hay veces en que algn dato extremo distorsionara su interpretacin, en otras ocasiones la variable
est medida en una escala ordinal y en otras no se puede calcular.
CLCULO: puede siempre hacerse por medio de la frmula que la define, pero en muchas ocasiones resulta ms
prctico utilizar otras frmulas derivadas de aqulla, y en cualquier caso es necesario adaptar la frmula a aquellas
situaciones en las que los valores estn agrupados en intervalos.
- La varianza es tambin igual a la media de las puntuaciones directas elevadas al cuadrado menos el cuadrado
de la media. Esta frmula resultar til en ciertos casos.
PROPIEDADES: en primer lugar, hay que destacar que un conjunto de valores puede mostrar un mayor o menor
grado de homogeneidad, pero el grado ms pequeo posible de homogeneidad se produce cuando todos los valores
son idnticos. En ese caso las desviaciones de los valores con respecto a su media son todas cero y en consecuencia
tambin es igual a cero la media de sus cuadrados, por tanto, se es el mismo valor que puede adoptar la varianza.
Igualmente, como desviacin tpica se toma la raz positiva de la varianza.
1. La varianza y la desviacin tpica, como medidas de la dispersin, son valores esencialmente positivos.
A veces interesa transformar las puntuaciones observadas sumando una constante y/o multiplicando por otra
constante, tal y como vimos al exponer las propiedades de la media. En esos casos no har falta calcular la varianza
de las puntuaciones transformadas, sino que podr deducirse conociendo la varianza de las puntuaciones originales.
2. Si sumamos una constante a un conjunto de puntuaciones, su varianza no se altera. Si la transformacin
consiste en multiplicar por una constante, la varianza si se ve alterada. Conociendo la varianza de las puntuaciones
originales y la constante multiplicada se puede obtener fcilmente la varianza de las puntuaciones obtenidas
mediante la multiplicacin de la constante.
3. Si multiplicamos por una constante a un conjunto de puntuaciones, la varianza quedar multiplicada por el
cuadrado de la constante, y la desviacin tpica por el valor absoluto de esa constante. En ciertas ocasiones
conocemos las varianzas de varios subgrupos y se quiere obtener la varianza del grupo total. Esto se puede conseguir
aplicando una propiedad que relaciona la varianza de todas las puntuaciones juntas con las varianzas, medias, y
tamaos de los subgrupos.
4. La varianza total de un grupo de puntuaciones, cuando se conocen los tamaos, las medias, las varianzas
de varios subgrupos hechos a partir del grupo total, mutuamente exclusivos y exhaustivos, puede obtenerse
sumando la media (ponderada) de las varianzas y la varianza (ponderada) de las medias.
OTRAS: Una forma muy sencilla el grado de dispersin consiste en calcular la distancia entre el mayor y el menor
de los valores observados. Este ndice se llama amplitud total, rango o recorrido y se obtiene sencillamente hallando
la diferencia entre los valores extremos. Distincin entre ambos tipos de amplitud, que se denominan rango
excluyente y rango incluyente, usadas en variables discretas y continuas. Esto es muy sensible a los valores extremos
y nada sensibles a los intermedios, pudiendo carecer de toda representatividad. Otro inconveniente de este ndice es
que est ligado al tamao de la muestra utilizada. Si se quiere comprara la variabilidad de las dispersin de dos
conjuntos de datos de tamao marcadamente distinto, es probable que la muestra de mayor tamao presente una
mayor amplitud aunque las poblaciones de referencia tengan la misma variabilidad.
Desviacin media: tomar las desviaciones con respecto a la media, o puntuaciones diferenciales, en valores
absolutos.
Amplitud semi-intercuartil: basad en las puntuaciones correspondientes a los cuartiles primero y tercero.
Coeficiente de variacin: a veces se desea comparar la variabilidad de grupos cuya media es distinta. Este
ndice es expresado como un porcentaje. Este ndice puede construirse como un ndice de la representatividad de la
media. Cuanto mayor es el coeficiente de variacin, menos representativa es la media.

CAPTULO 6: Puntuaciones tpicas y escalas derivadas.


Comparar las magnitudes mediante la comparacin de los valores asociales a ellas. Otras soluciones, que se basan
en la transformacin de las puntuaciones observadas en otras que, sin perder o distorsionar la informacin contenida
en las puntuaciones originales, permitan una comparacin directa de las mismas.
PUNTUACIN TPICA
Un sujeto obtuvo una puntuacin 43 al medir sobre l la variable X, y queremos hacer una valoracin de este
dato, hay una dificultad de carecer de referencias apropiadas para hacer esa valoracin. Una forma es calcular lo
que definimos como puntuacin diferencial, que es la distancia o diferencia entre esa puntuacin y la media del
grupo de puntuaciones. Las puntuaciones diferenciales nos indican si la puntuacin es superior o inferior a la
media o si coincide con ella. Sin embargo estas son informaciones insuficientes para comparar puntuaciones de
sujetos pertenecientes a distintos grupos o a distintas variables. Una solucin consiste en no medir las distancias a
la media en trminos absolutos, sino con relacin a la variabilidad del grupo de referencia. Se tratara de indicar
como de grande es una distancia en trminos de las distancias observadas en general en esas puntuaciones. Se la
denominan como puntuaciones tpicas, se representa por letra z. Al proceso de obtencin de las puntuaciones
tpicas se llama tipificacin. La formula de z es: zi =Xi - X/ Sx
La puntuacin tpica de una observacin indica el nmero de desviaciones tpicas que esa observacin se
separa de la media del grupo de observaciones
Las puntuaciones tpicas permiten, por tanto, hacer comparaciones entre unidades de distintos grupos, entre
variables medidas de distintas formas, o incluso entre variables diferentes. En cualquier caso, las puntuaciones tpicas
siempre nos indicarn el nmero de desviaciones tpicas (de las de ese grupo y variable) que se separan de la media
(de ese grupo y variable) y si esa desviacin es por encima o por debajo de la media (segn el signo de la puntuacin
tpica).
Las caractersticas de las puntuaciones tpicas son universales, no dependen del tipo de puntuaciones ni de su
dispersin, ni de su nmero.
La media de las puntuaciones tpicas es cero, mientras que su varianza y desviacin tpica son iguales a
uno
Las puntuaciones tpicas reflejan las relaciones esenciales entre las puntuaciones, con independencia de la unidad
de medida que se haya utilizado en la medicin. Cuando en dos conjuntos de puntuaciones, emparejadas con algn
criterio, a los elementos de cada para les corresponde la misma puntuacin tpica dentro de su conjunto, puede
decirse que mantienen la misma estructura interna, y se dice entonces que son puntuaciones equivalentes.
ESCALAS DERIVADAS
Inconvenientes que surgen de las desviaciones tpicas. En concreto y dado que la media de las tpicas es cero y su
desviacin tpica uno, buena parte de las puntuaciones suelen ser negativas, y casi todas decimales. Esto hace que
resulte incmodo su tratamiento y que muchas veces se busquen procedimientos que permitan superar esta
dificultad. Un procedimiento consiste en transformar las puntuaciones tpicas en otras que retengan todas las
relaciones que manifiestan las puntuaciones originales, por tanto que sean puntuaciones equivalentes, pero evitando
la dificultad operativa, y que constituyen lo que se denomina una escala derivada. Estas transformaciones se basan
en una propiedad de las puntuaciones tpicas.

Si transformamos linealmente las puntaciones tpicas, multiplicndolas por una constante a, y sumando
una constante b, entonces las puntuaciones transformadas tendrn como media la constante sumada b,
como desviacin tpica el valor de la constante multiplicada, |a| y como varianza el cuadrado de esta
constante, a2.

En resumen la construccin de una escala derivada parte de unas puntuaciones directas, stas se tipifican, y
despus se transforman linealmente en otras puntuaciones.
La cuestin fundamental de las escalas derivadas consiste en transformar las puntuaciones originales, X i, en otras
puntuaciones transformadas, Ti, tales que sean ms cmodas de tratar e interpretar, pero que a la vez retengan las
relaciones comerciales entre los valores, es decir, que sean puntuaciones equivalentes.

CAPTULO 7: Medidas de asimetra y Curtosis


Hay otras dos caractersticas con las que se pueden describir y comparar las distribuciones de frecuencias.
NDICES DE ASIMETRA
El grado de asimetra de una distribucin hace referencia al grado en que los datos se reparten equilibradamente
por encima y por debajo de la tendencia central. Se han propuesto diferentes ndices con los que cuantificar esta
propiedad.
- Relacin entre la media y la moda: se define como la distancia entre la media y la moda, medida en
desviaciones tpicas, es decir: la media es inferior a la moda, y por tanto este ndice dar un valor negativo; la media
es superior y el ndice dar positivo; coinciden los dos ndices de tendencia central y por tanto el ndice de asimetra
dar cero. Las distribuciones como las primeras tienen asimetra negativa y el ndice da valores menores que cero;
las del segundo tipo asimetra positiva, y este ndice da valores mayores que cero. En las ltimas se dice que son
distribuciones simtricas, puesto que no estn inclinadas hacia ningn lado; este ndice da en ellas valores en torno a
cero y si la simetra es perfecta entonces da exactamente cero. Slo se puede calcular en distribuciones unimodales.
- ndice de asimetra de Pearson: es igual al promedio de las puntuaciones tpicas elevadas al cubo. Los
valores menores que cero indican asimetra negativa, los mayores que cero asimetra positiva y los valores en torno a
cero indican distribuciones aproximadamente simtricas. Es el ndice ms utilizado.
- ndice de asimetra intercuartlico: se basa, en los cuartiles. La interpretacin es similar a la de los ndices
anteriores. Los valores mayores de cero indican asimetra positiva, los menores indican asimetra negativa y los
valores en torno a cero reflejan distribuciones simtricas. Tienen una ventaja sobre los ndices anteriores, y es que
tiene un valor mximo y mnimo con lo que se facilita su interpretacin en trminos relativos.
NDICES DE CURTOSIS
Se basa en el promedio de las tpicas elevadas a la cuarta potencia.
Una distribucin en la que el ndice sea igual a cero tienen un grado de Curtosis similar al de la distribucin
normal, y se dice que es mesocrtica, mientras que si es positivo su grado de apuntamiento es mayor que el de la
distribucin normal, y se dice que es una distribucin leptocrtica y si es negativo su apuntamiento es menor que el
de la distribucin normal y se dice que es platicrtica.
La Curtosis se calcula obteniendo primero la media y la desviacin tpica, despus tipificando, luego elevando las
tpicas a la cuarta potencia, y despus sustituyendo en la formula. Si los datos estn agrupados en intervalos la nica
diferencia es que lo que se tipifica son los puntos medios de intervalos, y cada tpica elevada a la cuarta potencia se
multiplica por el numero de observaciones que comparten ese valor (n)

CAPTULO 8: Correlacin lineal


Uno de los objetivos principales de la ciencia consiste en descubrir las relaciones entre variables, y la estadstica
ha desarrollado instrumentos apropiados para esta tarea. As, por ejemplo, en el campo de la Psicologa podemos
preguntarnos si el rendimiento laboral de un tipo de puesto de trabajo guarda relacin con la personalidad del
trabajador, si el fracaso escolar es ms probable en nios con determinadas circunstancias personales y familiares,
etc. La observacin de relaciones claras y estables entre las variables ayuda a comprender los fenmenos y a
encontrar explicaciones de los mismos, e indica las vas probablemente ms eficaces para intervenir sobre las
situaciones.
El estudio e las ciencias sociales, incluida la psicologa, nunca se encuentran relaciones deterministas, sino ms
bien conjuntos de observaciones que manifiestan una configuracin concreta.
REPRESENTACIN GRAFICA DE UNA RELACIN
Supongamos que registramos dos variables en un grupo de estudiantes: al comienzo del curso medimos su nivel
de inteligencia mediante un test apropiado, y al final del curso evaluamos su rendimiento mediante la nota obtenida.
Es habitual que el resultado de la inspeccin de estos dos conjuntos de puntuaciones sea la constatacin de que, en
general, los estudiantes con inteligencia alta tienden mejores calificaciones que los estudiantes con inteligencia baja.
Esta relacin no es mecnica. Existen factores externos que pueden ejercer su influencia sobre estudiantes con
cualquier nivel de exigencia pero estos casos especiales suelen ser minora. En la mayora de los casos si podr
apreciarse esa tendencia general en la relacin entre las variables: valores altos en inteligencia tienen a emparejarse
con valores altos en rendimiento, y valores bajos en la primera tienden a emparejarse con valores bajos en la
segunda.
Se dice que dos variables X e Y mantienen una relacin lineal directa cuando los valores altos en Y
tienden a emparejarse con valores altos en X, los valores intermedios en Y tienden a emparejarse con
valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores bajos de X.

Supongamos que ahora hay otra prueba que consiste en tachar las letras R. Al inspeccionar los resultados es
posible que aparezca un fenmeno llamado balance entre velocidad y precisin, y que se manifiesta en que los
sujetos que acaban antes suelen cometer ms errores. En este caso tambin hay una cierta relacin entre las
variables. En concreto, los valores bajos en la variable "tiempo invertido" tienden a estar emparejados con valores
altos en la variable "nmeros de errores", y viceversa.
Se dice que dos variables X e Y mantienen una relacin lineal inversa cuando los valores altos en Y
tienden a emparejarse con valores bajos en X, los valores intermedios en Y tienden a emparejarse con
valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores altos en X.
Supongamos que en un grupo de estudiantes medimos tambin la estatura, y escribimos los valores obtenidos
por cada sujeto emparejado con sus puntuaciones en inteligencia. Salvo coincidencias inesperadas, la inspeccin de
esos pares de valores probablemente nos indicada que no existe relacin entre las variables. No podramos decir que
haya relacin directa o inversa entre las variables.
Se dice que hay relacin lineal nula entre dos variables cuando no hay un emparejamiento sistemtico
entre ellas en funcin de sus valores.

Al hacer una representacin grfica conjunta de dos variables pueden apreciarse visualmente estos tres tipos de
relacin. Para ello se identifican los pares de valores y se sealan los correspondientes puntos en unos ejes de
coordenadas. Estas nubes de puntos reciben el nombre de diagramas de dispersin.
Un caso en que la relacin lineal fuera determinista seria aquel en el que la representacin grafica los puntos
formaran una lnea recta perfecta.
CUANTIFICACIN
Un primer procedimiento consistira en hallar el promedio de los productos cruzados de las puntuaciones
diferenciales. Al hablar de productos cruzados nos referimos al producto, para cada sujeto o caso, de sus valores en
las dos variables, es decir Xi Y. Estos productos pueden obtenerse con puntuaciones directas, diferenciales o tpicas.
Cada figura est separa en cuatro cuadrantes, y los puntos estarn en uno u otro dependiendo de que la observacin
supere o no la media de X y/o la media de Y. En concreto, si supera ambas medias, el punto aparecer en el
cuadrante superior derecho (NE), si supera la media de X pero no la de Y, como el par aparecer en el cuadrante
inferior derecho (SE); si supera la de Y pero no la de X, aparecer el cuadrante superior izquierdo (NO); sino supera
ninguna de las medias, aparecer en el cuadrante inferior izquierdo (SO). Al tratar con puntuaciones diferenciales,
stas sern positivas si superan la media y negativas en caso contrario. Por tanto, aquellas observaciones que
aparezcan en los cuadrantes NE o SO tendrn productos cruzados positivos, mientras que las que aparezcan en los
cuadrantes NO o SE tendrn productos cruzados negativos. El promedio de productos cruzados de diferenciales
tender a dar positivo si la relacin es directa, negativo si es inversa, y en torno a cero si es nula, y a dems su valor
absoluto ser mayor cuanto ms acusada sea la tendencia a la linealidad en el diagrama de dispersin.
PROPIEDADES DEL COEFICIENTE DE CORRELACION DE PEARSON
La razn principal por la que la covarianza no llegaba a satisfacer completamente la necesidad de un ndice de la
asociacin lineal era la dificultad de su valoracin, dado que careca de un mximo y un mnimo estables. Puesto que
hemos destacado su alternativa principal, el coeficiente de correlacin de Pearson, precisamente porque no tiene esa
dificultad

El coeficiente de correlacin de Pearson no puede valer ms de +1 ni menos de -1

Si hacemos transformaciones lineales de una o las dos variables, en las que las constantes
multiplicadoras son positivas, la correlacin de Pearson no se altera.

VALORACIN E INTERPRETACIN
En la interpretacin de una correlacin de Pearson hay que separar dos aspectos distintos: su cuanta y su sentido.
La cuanta se refiere al grado en el que la relacin entre dos variables queda bien descrita con un ndice de asociacin
lineal como r, mientras que el sentido se refiere al tipo de relacin. Una correlacin en torno a cero indica una
relacin lineal baja o nula; una correlacin positiva indica una relacin lineal directa, mientras que una correlacin
negativa indica una relacin lineal inversa. Cuanto ms cercano quede un coeficiente del valor cero, menos apto es el
modelo lineal como descripcin de la relacin entre las variables. Por el contrario, cuanto ms se acerque a los
extremos, mejor describe esa relacin.

-1 -0,5 0 0,5 1

Relaciones inversas relaciones directas

Sin embargo, la valoracin de r no debe hacerse con base en su valor simple. De hacerlo as se cae en la tentacin
de establecer conclusiones del tipo de que una correlacin de 0,60 indica que hay un 60 por 100 de asociacin lineal,
o que una correlacin de 0,80 indica el doble de asociacin lineal que una correlacin que una correlacin de 0,40. La
valoracin de un coeficiente de correlacin debe hacerse con base en el cuadrado de su valor r2. Como
consecuencia, el grado de asociacin lineal rxy = 0,80 y ruv = 0,40 no es el doble en la primera que en la segunda, sino
del cudruple (r2xy/r2uv =0,64/0,16= 4)
Hay, adems, otros factores que alteran las expectativas sobre el valor de r, como son la variabilidad, la mediacin
de terceras variables, etc. Tambin hay una especificidad en los campos de estudios concretos. Por ejemplo, para
estudiar la estabilidad de la puntuaciones que ofrece un test se suele aplicar el test dos veces en un breve intervalo
de tiempo (es tpico hacerlo en el plazo de una semana), y se halla la correlacin entre las puntuaciones obtenidas en
las dos administraciones de la prueba. As se obtiene la fiabilidad del test. En cada rea de estudio se va a desarrollar
un conocimiento que permite valorar los coeficientes de correlacin en trminos relativos. Los coeficientes de
correlacin deben valorarse comparando unos con otros o comparndolos con los valores que tpicamente se suelen
encontrar en el campo de estudio especifico del que se trate.
La obtencin de una correlacin igual (o cercana) a cero puede llevar a pensar que no hay relacin entre las
variables sin ser cierto. La correlacin de Pearson mide el grado de adecuacin de unos datos a un modelo lineal,
pero entre las variables puede existir otro tipo de relacin. Un ejemplo prototpico de esto es la relacin entre
activacin y rendimiento, por ejemplo: con estados altos de ansiedad se reduce el rendimiento en los exmenes. Es
decir el rendimiento mximo se obtiene con niveles medios de activacin, mientras que con niveles demasiados
bajos o demasiados altos el rendimiento disminuye.
Lo que se desprende de todo esto es que no conviene analizar la relacin entre dos variables exclusivamente
mediante el clculo coeficiente de correlacin, sino que conviene representar grficamente el diagrama de dispersin
para observar esa relacin. Una representacin grafica puede ser mucho ms informativa que un simple valor de r.
Tampoco hay que interpretar los coeficientes de correlacin en trminos de relaciones causales entre las
variables.

REUCHLIN

CAPTULO 1: carcter variable de las conductas


LAS FUENTES DE VARIACION Y ANALSIS ESTADISTICO
Las variaciones que son imprevisibles porque no estn asociadas a ninguna fuente de variacin sistemtica. No se
ha introducido ninguna diferencia sistemtica entre dos presencias de la misma bombilla roja o entre el examen de
un nio de 9 aos y el examen de otro nio de 9 aos. Las variaciones imprevisibles se atribuyen as a un conjunto de
fuentes fortuitas de variacin para el experimentador o encuestador.
Las variaciones que son previsibles porque estn asociadas a fuentes sistemticas de variacin. Si el
experimentador compara 20 tiempos de reaccin frente a un estimulo nico (bombilla roja) con 20 tiempos de
reaccin frente a un estimulo que debe escogerse entre tres estmulos posibles (bombillas roja, verde, amarilla), es
porque prev que el proceso mental, ms complejo en la segunda experiencia, agrandara de manera significativa los
tiempos de reaccin. Si el encuestador compara 100 nios de 9 aos con otros 100 nios de 10 aos es porque prev
que este cambio sistemtico en la edad constituir la fuente de una variacin significativa de los resultados en el test.
Si las variaciones as previstas no son mayores que las variaciones imprevisibles, el psiclogo comprobar que no
se verifica su hiptesis sobre el efecto de las fuentes sistemticas de variacin que haba credo introducir en la
experiencia o en la encuesta. La comparacin entre la amplitud de las variaciones previsibles y la amplitud de las
variaciones imprevisibles permite interpretar los resultados de la experiencia o de la encuesta e identificar, a la vez,
algunas fuentes sistemticas de variacin.
Las variaciones de las conductas son previsibles cuando se conoce la situacin, el momento o la persona. Por otra
parte, estas variaciones de las conductas son imprevisibles a partir de las informaciones de las que dispone el
observador. El psiclogo utiliza a menudo el mtodo estadstico precisamente porque este mtodo permite tratar con
ms eficacia las observaciones que presentan a la vez variaciones previsibles y variaciones imprevisibles.
PONDERACIN DE UNA FUENTE SISTEMTICA DE VARIACIN
Cuando el experimentador o el encuestador hace la hiptesis de que varias fuentes sistemticas de variacin
producen efectos sobre sus observaciones, comienza en general por verificar si cada una de ellas tiene efectivamente
un efecto no nulo y significativo. Por ejemplo: verificara en primer lugar si la dispersin de las notas en el test es
efectivamente mayor (teniendo en cuenta las variaciones fortuitas) en un grupo de nios de edades diferentes que
en un grupo de nios de la misma edad; en un grupo de nios de medios diferentes que en un grupo de nios del
mismo medio.
El experimentador podr intentar averiguar cules son las fuentes de variacin ms importantes, es decir, las que
contribuyen ms a las variaciones de las observaciones.
PONDERACIN DE LAS FUENTES FORTUITAS DE VARIACIN
Debe evaluar el peso que toman en sus observaciones las fuentes fortuitas de variacin. Si este peso es grande,
con relacin al de las fuentes sistemticas de variacin, ser difcil poner en evidencia estas ltimas, reconocer su
significado. Por ejemplo: en la encuesta sobre desarrollo intelectual, si la variacin observada entre nios de 9 aos o
entre nios de 10 aos fue muy grande con respecto a la variacin observada entre 9 aos y 10 aos. Una de las
razones de peso que tomaran aqu las variaciones fortuitas podra buscarse en una escasez de "fidelidad" del test.
Puede deducirse que un test es fiel, si, aplicado dos veces al mismo nio, proporcionara dos resultados poco
diferentes. Pero podra haber otras razones (efectos del medio, etc.), para las cuales un anlisis apropiado podra
distinguirse e identificar los efectos, pero que si no se hace este anlisis suelen interpretarse como fuentes fortuitas.

CAPTULO 2: Resmenes estadsticos en el nivel de las escalas nominales


- El empleo de la estadstica en psicologa: distinguir dentro de las observaciones las variaciones fortuitas de
las variaciones sistemticas. Para asumir esta funcin del mtodo estadstico procede a hacer resmenes de series de
observaciones. Por qu tiene necesidad el psiclogo de efectuar resmenes estadsticos de este tipo? Para poder
razonar sobre conjuntos de observaciones: pueden compararse dos medias o dos grficos. El resumen de una serie
de observaciones puede hacerse de manera que se ponga en evidencia un aspecto particular de la informacin
contenida en estas observaciones y llegar as a poseer un instrumento de anlisis de esta informacin. Hay que
examinar algunos mtodos que permiten describir una serie de observaciones en forma resumida y que pueden
tener significaciones diferentes. La eleccin de uno u otro de estos mtodos depender del problema que se plantee
el psiclogo.
- Niveles de medida: se distinguen tres niveles de medida, estando definido cada nivel por las propiedades del
conjunto de los valores que pueden obtener mediante las operaciones de medida. Hay una jerarqua entre estos tres
niveles: en cada uno de ellos los nmeros gozan de todas las propiedades del nivel inferior y de otras propiedades. El
nivel mas bajo (el mas dbil) se llama escalas nominales
- Construccin de la escala nominal: para construir una escala nominal basta que el psiclogo sea capaz de
repartir sus observaciones en un cierto nmero de clases, el conjunto de las cuales constituye la escala, y que deben
poseer las dos propiedades siguientes: cada observacin debe entrar en una clase y solamente en una. El que dos
observaciones entren o no en la misma clase de equivalencia no se sigue de un criterio estadstico, sino de un criterio
emprico, es decir, relativo a los propios hechos.
Se producen dificultades, ya que hay que definir el conjunto de clases de manera tal que toda observacin entre
dentro de una clase, luego hay que conseguir que cada observacin no pueda entrar ms que en una nica clase. Se
necesitar adoptar una definicin precisa de cada clase y verificar que los criterios as propuestos los comprenden de
la misma manera utilizadores diferentes. Tambin deber decidir en funcin de sus posibilidades y de sus problemas
propios el nmero de clases de la escala, es decir, la finura de la particin. Una particin mas fina exigir una cantidad
de informacin mayor, criterios ms precisos y las posibilidades del observador no son ilimitadas en este aspecto.
- Propiedades de los nmeros en una escala nominal: una vez realizada esta particin de una serie de
observaciones se van a poder utilizar nmeros para describir y resumir esta serie. Pero cada uno de estos nmeros
designar aqu una clase de observaciones. Estas operaciones slo permiten decir que una observacin que
pertenece a una clase es diferente de una observacin que pertenece a otra clase; no permiten decir que la primera
es mayor o menor que la segunda. El nmero de observaciones que pertenecen a una clase es el efectivo de esta
clase. Despus de aplicar una escala nominal a una serie de observaciones se puede hacer una tabla numrica que
proporcione, para cada clase, su afectivo. Esta tabla presenta la distribucin de los afectivos. Se les puede comparara
y, en particular, averiguar la clase para la cual el efectivo es el mayor (es la clase modal o tambin la moda) Para
conocer la importancia relativa de una clase en la serie de observaciones se puede dividir el efectivo de esta clase por
el nmero total de observaciones. Se obtendr as una frecuencia. El inters de las frecuencias o porcentajes es
permitir comparaciones entre distribuciones correspondientes a series de observaci0nes desigualmente numerosas.
- Resmenes estadsticos: la distribucin es una tabla menos voluminosa en general que la serie de
observaciones. El resumen que proporciona pone en evidencia un aspecto de la informacin contenida en las
observaciones: la equivalencia de algunas observaciones y el nmero de observaciones equivalentes de cada
categora. En lugar de estar representada por una tabla de nmeros, la distribucin puede representarse
grficamente por un histograma.
La moda es la clase que tiene mayor efectivo, se puede considerar que resume o representa "de la mejor manera"
la distribucin. Si, en una encuesta, se manifiestan varias opiniones, se podr resumir el resultado diciendo "la
opinin de la mayora es...". Pero se ve que este resumen implica la prdida de una parte de la informacin aportada
por la distribucin y esa perdida ser muy importante si se expresan varias opiniones con frecuencias poco
diferentes.
- Entropa: la moda no resumen ms que un aspecto de la informacin en la distribucin: indica a qu clase
hay ms posibilidad de que pertenezca la observacin sacada al azar del conjunto de las observaciones. Pero no
permite saber si las posibilidades de pertenecer a otra clase son muy diferentes o solamente poco diferentes, dicho
de otro modo, si las observaciones son muy diferentes o poco diferentes, si su distribucin est muy dispersada o
poco dispersada. Se admitir que la dispersin podr ser tanto mayor cuanto mayor sea el nmero de clases. Para un
nmero fijo de clases, ser mayor si las observaciones se reparten igualmente sobre todas las clases en vez de
concentrarse solamente sobre algunas clases. Se puede explicitar y cuantificar esta nocin definiendo y calculando la
entropa de la distribucin.
Es una medida de variacin para variables cualitativas. Mide el "grado de desorden de un sistema". Por tanto a
entropa se puede pensar como la cantidad media de informacin, pues es la esperanza de la cantidad de
informacin.

GLOSARIO DE CONCEPTOS

ELEMENTOS O UNIDADES: son las entidades acerca de las que se renen datos. Por ejemplo: 1) si se evala la
memoria de los aspirantes a un puesto de mozo en el restaurante X, las unidades son cada uno de los aspirantes. 2) si
a un comerciante le interesa el volumen de ventas semanal de su comercio durante el ltimo ao, las unidades son
cada una de las semanas de ese ao.
POBLACIN DE INDIVIDUOS: es el conjunto de todos los elementos sobre los cuales se observa una o ms
caractersticas de inters. Se alude a ella como poblacin objetivo, en razn de que sobre ella recae el objetivo o el
inters del estudio. Ejemplos: 1) el conjunto de aspirantes al empleo del restaurante X. 2) el conjunto de semanas a lo
largo del ultimo ao.
MUESTRA DE INDIVIDUOS: es un subconjunto o parte de una poblacin de individuos. Ejemplos: 1) los cinco
primeros aspirantes entrevistados. 3) las semanas 1, 6, 12, 19,27, etc. del ltimo ao.
Notas: cuando hablamos de unidades como de la poblacin objetivo o de individuos o de la muestra de
individuos, estas entidades deben ser situadas en el espacio (situacin geogrfica) y en el tiempo (ao o fecha).
Como generalmente las muestras se extraen con fines inferenciales; esto es, para tener conocimiento de lo que
acontece a nivel poblacional, es de desear que sean representativas de las respectivas poblaciones. Para favorecer la
representatividad de las muestras, la llamada Teora de Muestreo ha desarrollado diversidad de mtodos. Uno de
ellos es la eleccin al azar de las unidades muestrales.
VARIABLES O CARACTERSTICA: es una caracterstica de un fenmeno observable en los individuos de una
poblacin. Es una variable propiamente dicha cuando presenta diferentes modalidades (dos o ms) entre los
individuos. Si se presenta bajo una nica modalidad se dice que es una caracterstica constante. Ejemplos: 1)
memoria de los aspirantes al empleo. 2) volumen de ventas respectivamente.
VARIABLE ESTADSTICA: es una representacin, a travs de nmeros u otros smbolos, de una variable. Esta
representacin se obtiene mediante algn procedimiento de medicin. Ejemplos: 1) cantidad de palabras recordadas
de una lista de 12. 2) total de $ de los productos vendidos en una semana.
Las variables estadsticas se clasifican de acuerdo con el tipo de valores que pueden tomar en:
- Variable cualitativa: es aquella cuyos valores expresan atributos. Ejemplo: tipo de trastorno que presentan
los pacientes de un servicio de salud mental (de ansiedad, de atencin, de sueo, etc.)
- Variable cuasi-cuantitativa: es aquella cuyos valores indican un orden de jerarqua. Ejemplo. Nivel de
desercin escolar (bajo, medio, alto)
- Variable cuantitativa: es aquella cuyos valores expresan cantidades numricas. Dentro de las variables
cuantitativas se diferencian las llamadas discretas de las continuas. Se consideran discretas aquellas cuyos valores
son puntos aislados, esto es, cuando todo valor tiene un consecutivo. Se dice que dos valores son consecutivos
cuando no puede existir un valor de la variable entre ellos. Ejemplo: cantidad de palabras recordadas. Se consideran
continuas a las variables que, al menos tericamente pueden tomar cualquier valor dentro de un intervalo numrico.
Ejemplo: tiempo de reaccin ante un estimulo.
CONSTRUCTO Y OPERACIONALIZACIN: la mayora de las caractersticas psicolgicas son de naturaleza compleja,
resultado de varias variables que interactan. Cuando se alude a estas variables es necesario explicitar que se
entiende por ellas, o que aspectos se estn considerando y qu relaciones se verifican entre ellas. De all surge una
construccin terica, hipottica que toma el nombre de constructo. Ejemplos: inteligencia, la memoria, la ansiedad,
la actitud solidaria, etc. Estos constructos o variables complejas no son directamente observables como son; por
ejemplo, la estatura o el estado civil de una persona, y esto es lo que dificulta el proceso de medicin, para poder
obtener valores de estas variables a travs de la medicin es necesario hacer un recorte adecuado del constructo;
es decir, considerar un solo aspecto del mismo y explicitar cules son las manifestaciones observables que dan
cuenta de l. Por ejemplo, una manifestacin observable de la memoria es la cantidad de palabras recordadas,
aunque la sola recordacin de palabras no agota la riqueza del constructo memoria. En estos casos se recurre a una
definicin operacional (operacionalizacin) del constructo permite asignar sin ambigedad un valor a la variable a
travs del proceso de medicin. En el ejemplo, la definicin operacional del constructo memoria es la cantidad de
palabras recordadas. A las variables que no son directamente observables tambin se las denomina rasgos latentes.
As, por ejemplo, la obsesividad de un estudiante es un rasgo latente que se puede manifestarse a travs de la
cantidad de veces que pregunta lo mismo hasta sentirse satisfecho.
CONTINUO O DISCRETO?: el hecho de que una variable estadstica sea discreta o continua determina el tipo de
tratamiento estadstico que se le dar. Sin embargo muchas veces es decisin del investigador si la tratar de un
modo y otro dependiendo de la naturaleza de la variable estadstica y de su correspondiente variable latente . Por
ejemplo: la cantidad de palabras recordadas de una lista es claramente una variable discreta. Pero esta variable
representa a la variable latente memoria, la cual tiene sentido que sea concebida en una continuo; esto es, entre dos
niveles de memoria es razonable pensar que podran existir infinitos valores posibles. De modo que se puede
considerar que en realidad est ante una discretizacin de un continuo debida al instrumento de medicin; del
mismo modo que la hora registrada con un reloj digital es una discretizacin del tiempo que se desea medir. Bajo
esta perspectiva el investigador puede dar a la cantidad de palabras recordadas un tratamiento de variable continua y
considerar, por ejemplo, que el valor 10 (diez palabras recordadas) bien puede representar todo un continuo de
niveles de memoria entre 9,5 y 10,5 que podra observar si dispusiera de un instrumento de medicin ms sensible
que la sola cantidad de palabras recordadas. Es importante considerar que para que una variable discreta pueda ser
tratada adecuadamente como continua, es conveniente que tome una gran cantidad de valores diferentes.
POBLACIN DE OBSERVACIONES: es el conjunto de todos los valores que pueden tomar una variable estadstica
sobre la poblacin de individuos. Ntese que sobre una misma poblacin de individuos se pueden definir muchas
poblaciones de observaciones, tantas como variables de inters.
MUESTRA DE OBSERVACIONES: es el conjunto de de valores que toma una variable estadstica sobre una muestra
de individuos; es decir, es un subconjunto de la poblacin de observaciones.
ESTADSTICA DESCRIPTIVA: es la parte de la Estadstica que proporciona mtodos para organizar, representar,
resumir y analizar la informacin contenida en un conjunto de datos muestrales o poblaciones.
ESTADSTICA INFERENCIAL: es la parte de la Estadstica que proporciona mtodos para extraer conclusiones sobre
las poblaciones a partir de sus muestras controlando el margen de error que se pueden cometer en esa extrapolacin
de lo muestral a lo poblacional. Los mtodos de inferencia estadstica se agrupan fundamentalmente en dos clases:
estimacin de parmetros y contraste de hiptesis.
POBLACIONES REALES O HIPOTTICAS, FINITAS O INFINITAS: una muestra de observaciones siempre es real
porque consiste de datos efectivamente recolectados; pero la correspondiente poblacin de observaciones puede ser
real o hipottica. Por otra parte, una poblacin de observaciones puede ser finita, esto es con una cantidad grande o
pequea pero limitada de elementos. Pero una poblacin puede ser infinita. La importancia de reconocer con que
tipo de poblacin se est trabajando radica en la pertinencia de los mtodos estadsticos que se utilizan para recoger
los datos, analizarlos y sacar conclusiones.
PARMETRO: es una caracterstica fija, generalmente numrica, de la poblacin de valores de una variable . Por
ejemplo: si la variable es el tiempo de reaccin de sujetos entrenados ante un estimulo, un parmetro es el tiempo
promedio de reaccin de todos los individuos de la poblacin de inters si estos fueran entrenados. Otro parmetro
podra ser el tiempo mnimo de reaccin que surgira de comparar los tiempos de todos los sujetos de la poblacin y
que, por tanto, tambin es nico; lo mismo puede decirse del tiempo mximo. Si la variable es actitud de los
consumidores hacia un nuevo producto, un parmetro puede ser el porcentaje de consumidores de toda la poblacin
objetivo que tiene actitud positiva.
ESTADSTICO: es una caracterstica muestral y como tal, es una variable porque sus valores dependen de la
muestra que salga seleccionada. Cada valor del estadstico se obtiene como funcin de las observaciones de una
muestra. Por ejemplo, tiempo promedio de reaccin de 10 individuos que fueron entrenados. Porcentaje de
consumidores entre 100 encuestados que manifestaron tener una actitud positiva frente al producto.
ESTIMADOR: es un estadstico cuyos valores se consideran prximos a un parmetro que, por ser generalmente
desconocido, se desea estimar.
FRECUENCIA ABSOLUTA: es la cantidad de veces que cada valor de la variable aparece en un conjunto de datos.
La suma de todas las frecuencias absolutas coincide con la totalidad de los datos.

ESTADSTICA INFERENCIAL

BOTELLA
CAPTULO 11
El azar tiene que ver con aquellos eventos cuyo resultado no podemos predecir con certeza, y a los que nosotros
llamaremos experimentos aleatorios. Lo que depende del azar, y por tanto, da sentido al trmino aleatorio en este
contexto, es el procedimiento de extraccin de un individuo y slo uno, de los que componen la poblacin. Todo
experimento aleatorio tiene dos o ms resultados posibles, que nosotros llamaremos sucesos elementales. En un
experimento que tuviera solo un resultado posible no habra incertidumbre y por tanto, no podramos hablar de
experimento aleatorio. La realizacin de un experimento aleatorio da lugar a un suceso elemental, y slo uno, de
entre los posibles. Al conjunto de los resultados posibles de un experimento aleatorio, o sucesos elementales, se le
llama espacio muestral y se representa por E. Se llama verificacin de un suceso elemental al hecho de que la
realizacin del experimento aleatorio produzca ese suceso elemental. Sobre los espacios muestrales, como conjuntos
que son, se pueden definir subconjuntos, que denominaremos sucesos y los representaremos por letras maysculas.
Aunque para definir un suceso basta con definir un subconjunto cualquiera de E, normalmente los sucesos con los
que trabajaremos se constituiran con los sucesos elementales que cumplen alguna condicin, y no de forma
arbitraria. Un suceso se verificar cuando el experimento aleatorio de lugar a uno de los sucesos elementales que
integran el subconjunto que lo define. En algunas ocasiones se definen sucesos a partir de subconjuntos vacos. Este
tipo de sucesos reciben el nombre de suceso imposible. En otras ocasiones definen sucesos cuyo subconjunto
constituyente est formado por todos los elementos del espacio muestral. Este tipo de sucesos reciben el nombre de
suceso seguro. Vamos a definir operaciones sobre sucesos que utilizaremos a partir de aqu:
a) Llamaremos unin de dos sucesos al subconjunto E formado por sucesos elementales que integran los
subconjuntos de al menos uno de esos sucesos.
b) Llamaremos interseccin de dos sucesos al subconjunto de E formado por los sucesos elementales que
pertenecen simultneamente a ambos sucesos. Cuando la interseccin de dos sucesos es un subconjunto vaco se
dice que son sucesos incompatibles o exclusivos.
c) Llamaremos diferencia de dos sucesos al subconjunto E integrado por los sucesos elementales que
pertenecen al primero, pero no al segundo.
d) Llamaremos complementario de un suceso al subconjunto de E integrado por los sucesos elementales no
incluidos en ese suceso.
En trminos generales representaremos por n al nmero de sucesos elementales que integran el espacio
muestral, y por na al nmero de sucesos elementales que constituyen el suceso A.

Un experimento aleatorio es toda accin cuyo resultado no se puede predecir con certeza.
Cada uno de los resultados posibles de un experimento aleatorio se llama suceso elemental y su
conjunto constituye el espacio muestral del experimento aleatorio.
La verificacin de un suceso elemental es la observacin de ese suceso elemental al realizar el
experimento aleatorio.
Un suceso es cualquier subconjunto de los elementos de un espacio muestral.
Dos sucesos son incompatibles o exclusivos si no tienen elementos comunes y por tanto, no pueden
verificarse simultneamente.
El complementario de un suceso es el subconjunto de sucesos elementales del espacio muestral que no
participan en ese suceso.
La interseccin de dos sucesos es el subconjunto de elementos del espacio muestral que,
simultneamente estn incluidos en los subconjuntos de ambos sucesos.
La unin de dos sucesos es el subconjunto de elementos del espacio muestran que estn incluidos, al
menos, en uno de esos sucesos.

Tipos de espacio muestral: los espacios muestrales se clasifican en espacios muestrales finitos e infinitos y a su
vez estos ltimos se subdividen en numerables y no numerables.
a) Espacios muestrales finitos: un espacio muestral es finito si tiene un nmero de sucesos elementales finito.
b) Espacios muestrales infinitos numerables. Tiene infinitos sucesos elementales pero estos pueden ponerse
en correspondencia biunvoca con los nmeros naturales.
c) Espacios muestrales infinitos no numerables. Tiene infinitos sucesos elementales pero stos no pueden
ponerse en correspondencia biunvoca con los nmeros naturales.
PROBABILIDAD
El concepto de probabilidad hace referencia a como los eventos puntuales que tienen resultados inciertos, al
estudiar su repeticin un nmero grande veces, comienzan a tener resultados globalmente previsibles, y a mostrarse
sujetos a ciertas leyes. La probabilidad es un concepto ideal, pues se refiere a las frecuencias con las que ocurriran
las cosas en el caso hipottico de que los eventos se repitiesen un nmero infinitamente grande de veces y en las
mismas condiciones. La confianza puesta en cada uno de los elementos posibles en la prxima realizacin del evento
debe ser proporcional al nmero de repeticiones que cada una de esas alternativas se daran en el futuro. La
asignacin de nmeros a esos grados de confianza depositados en la obtencin de cada resultado es la clave del
concepto de probabilidad:
La probabilidad de un suceso es un nmero que cuantifica en trminos relativos las opciones
de verificacin de ese suceso.
Un suceso sin opcin alguna tendra una probabilidad igual a 0, y un suceso con todas las opciones tendran una
probabilidad igual a 1. Cualquier suceso con un nmero de opciones intermedio entre esos dos tendr como
probabilidad asociada un nmero intermedio cuya magnitud represente cuantitativamente esas opciones. No
obstante a veces se utilizan porcentajes para indicar probabilidad, que es lo mismo, pero estrictamente hablando
esos valores no son probabilidades, sino porcentajes de posibilidades que expresan cuantas de cada cien veces se
espera que ocurra el suceso.
ENFOQUE CLSICO
La aplicacin del enfoque clsico o a priori exige la aceptacin del llamado principio de indiferencia, segn el cual
todos los elementos del espacio muestral tienen las mismas opciones de ser verificados al realizar un experimento
aleatorio. Desde el enfoque clsico que exige asumir el principio de indiferencia se define la probabilidad de un
suceso como la frecuencia relativa de ese suceso en el espacio muestral. Desde este enfoque la probabilidad de un
suceso es igual al cociente entre el nmero de casos favorables y posibles. Los procedimientos habitualmente
utilizados para determinar estas cantidades reciben los nombres de tcnicas de contar o combinatoria. De la forma
de definir la probabilidad de este enfoque se deducen:
a) La probabilidad de un suceso es un valor que oscila entre 0 y 1.
b) Un suceso que no contiene ningn suceso elemental tiene una probabilidad igual a 0, y por ello recibe el
nombre de suceso imposible.
c) Un suceso que contiene todos los sucesos elementales del espacio muestral tiene una probabilidad igual a 1
y por ello recibe el nombre de suceso seguro.
d) La suma de las probabilidades de un suceso y su complementario es igual a 1.
ENFOQUE FRECUENCIALISTA
La probabilidad se determinara mediante una operacin ideal de repeticin sistemtica del experimento
aleatorio y de cmo del nmero de veces que se verifican los sucesos. Las opciones de verificacin de un suceso se
manifestaran en el nmero de veces que se repite este al realizar una y otra vez el experimento aleatorio.
Representa proporcionalmente a su probabilidad, el nmero de veces que se realiza el experimento debe ser
infinitamente grande. Por tanto, desde el enfoque frecuencialista la probabilidad de un suceso A se define como el
lmite de la frecuencia relativa de apariciones de ese suceso cuando el nmero de repeticiones del experimento
aleatorio tiende a infinito.
La diferencia fundamental entre este enfoque y el anterior es que mientras en el primero n era el tamao del
espacio muestral, en este representa el nmero de repeticiones del experimento aleatorio. De esta definicin se
deducen las mismas consecuencias y propiedades que exponamos en conexin con el enfoque clsico.

CAPTULO 13: Modelos de distribucin de probabilidad


DISTRIBUCIN BINOMIAL
Para que la distribucin de probabilidad de una variable se ajuste al modelo binomial deben cumplirse una serie
de requisitos. El primero es que se base en una variable dicotmica. Esta variable dicotmica no es todava la variable
nominal, pero su presencia es imprescindible para la generacin de sta. Una variable dicotmica es una variable que
solo admite dos valores, y que habitualmente son los valores 1 y 0. Estas variables de base pueden ser autenticas
variables dicotmicas o variables dicotomizadas artificialmente. Las variables que estn en la base de una variable
binomial pueden definirse como aquellas que adoptan la regla de asignar un 1 si se cumple una cierta condicin y un
0 si no se cumple.
El segundo requisito es que haya una repeticin de n ensayos de la variable dicotmica en los que la probabilidad
de que cada repeticin se verifique la condicin, y por tanto se asigne un 1, sea constante. A la probabilidad de
verificacin de la condicin en cada ensayo independiente la representaremos por . El tercer y ltimo requisito es
que se defina una variable X, como el nmero de casos que en la secuencia de n ensayos dicotmicos verifican la
condicin especificada, o lo que es lo mismo, el nmero de unos observados.
Si:
A. definimos una variable dicotmica a partir del cumplimiento o incumplimiento de una condicin.
B. realizamos una secuencia de n observaciones de esos ensayos dicotmicos en los que la
probabilidad de verificacin de la condicin en cada repeticin, es constante.
C. definimos una variable aleatoria X, como el nmero de casos de esa secuencia en los que se cumple
la condicin.
Entonces la variable X se ajusta a un modelo binomial con parmetros n y y se representa por:
B(X; n,)
De la forma de generar una variable aleatoria binomial se deducen algunas de sus caractersticas:
a) Los valores de una variable binomial oscilan entre 0 y n, donde n es el nmero de ensayos dicotmicos
realizados. Es decir, el numero ms pequeo posible de casos en los que se verifica la condicin es ninguno y el
mximo de todos.
b) Si representamos el resultado de cada ensayo dicotmico con ceros y unos, el valor que adopta la variable X
no es ms que la suma de esa secuencia de unos y ceros.
c) El valor esperado de una variable binomial se obtiene a partir de las propiedades de la suma de variables
aleatorias y de la definicin del valor esperado. Dado que una binomial es la suma de una secuencia de n valores, y
cada uno de ellos puede considerarse una variable aleatoria dicotmica, su valor esperado ser igual a la suma de los
valores esperados de cada una de ellas.
MODELOS PARA VARIABLES CONTINUAS
La mayor parte de las tcnicas inferenciales que se utilizan para la investigacin en psicologa tienen distribuciones
de probabilidad que se ajustan a las de los modelos tericos para variables continuas. La curva normal, a dems de
ser un instrumento para la inferencia estadstica, es el modelo al que se ajustan muchas variables de inters en
psicologa.
DISTRIBUCIN NORMAL
La importancia de la curva normal estriba no slo en su utilidad para el anlisis estadstico, sino que en muchas
variables de inters para los psiclogos. La estatura, el peso, la agudeza visual, la fuerza son variables que se ajustan a
este modelo. Ya dentro de la psicologa, variables como el cociente intelectual, la extraversin son variables con
distribucin normal. En la mayor parte de las variables existe un valor central (la media) en torno a la cual se
concentran la mayor parte de los individuos, y a medida que nos vamos fijando en valores ms alejados de la media
observamos que stos son menos frecuentes. Esta reduccin gradual en la frecuencia no es lineal, sino que es mayor
al principio y menor despus (pasa de convexa a cncava al alejarse de la media).
Una variable aleatoria se distribuye segn el modelo normal, con parmetros y o. Las variables cuya
distribucin se ajusta al modelo normal adoptan una representacin grfica en la que se pueden apreciar algunas de
las propiedades que vamos a enumerar:
a) Es simtrica con respecto a un valor central () y en ese valor central coinciden la media, la mediana o la
moda.
b) Es asinttica con respecto al eje de abscisas, es decir, por mucho que se extienda, nunca llega a tocar los ejes,
y slo en la altura de la curva llegara a ser igual a 0, se propuso el nombre de distribucin normal unitaria.
c) Hay toda una familia de curvas normales, dependiendo de los valores de y o. De entre ellas, la ms
importante es aquella que tienen media 0 y de desviacin tpica 1.
d) Los puntos de inflexin se encuentran en los puntos correspondientes a la media ms/menos una desviacin
tpica ( o)
e) Cualquier combinacin lineal de variables aleatorias normales se ajusta tambin al modelo normal.
La mayor parte del trabajo prctico con variables aleatorias normales consiste en hallar probabilidades asociadas
a valores. Esto significara integrar la funcin de densidad entre los valores de inters. Para evitar tener que resolver
este tipo de operaciones se han construido tablas apropiadas con las reas ya halladas y cuyo eso se basa en el
teorema de tipificacin. Segn este teorema, la funcin de distribucin asociada a un valor de una variable aleatoria,
X, con distribucin normal, es la misma que la funcin de distribucin de la tipificada de ese valor en la normal
unitaria. Para obtener las reas asociadas a un valor de cualquier otra distribucin normal basta con tipificar ese valor
y acudir con la z obtenida en la tabla correspondiente.
Segn el teorema de tipificacin para variables normales, la funcin de distribucin asociada a un valor
de la variable normal, X, es igual a la de la tipificada de ese valor en la distribucin normal unitaria. Es
decir:
Si a) X N (, o)
b) formamos la variable Zi = (Xi - )/o

Entonces F(Xi) = F(Zi)


donde Z N (0,1)
Para referirnos a un valor concreto de la distribucin normal unitaria utilizaremos la letra Z y a su derecha el
subndice correspondiente a la probabilidad acumulada para ese valor. As: Z0,67= 0,44
El trabajo con variables aleatorias normales, al igual que con otras variables continuas, se reduce a la obtencin
de las probabilidades de obtener un valor menor o igual que uno concreto, la de obtener un valor mayor o igual que
uno concreto, o la de obtener un valor comprendido entre dos valores concretos.

PARDO Y SAN MARTIN

ANLISIS DE DATOS EN PSICOLOGA CONTRASTE DE HIPTESIS


El objetivo ltimo del anlisis de datos es el de extraer conclusiones de tipo general a partir de unos pocos datos
particulares. Es decir, el de extraer conclusiones sobre las propiedades de una poblacin a partir de la informacin
contenida en una muestra procedente de esa poblacin. Este salto de lo concreto (la muestra) a lo general (la
poblacin) se conoce con el nombre de inferencia estadstica. Dos formas bsicas de inferencia estadstica: la
estimacin de parmetros y el contraste de hiptesis. La estimacin de parmetros es el proceso consistente en
asignar a las propiedades desconocidas de una poblacin las propiedades conocidas de una muestra extrada de esa
poblacin. El contraste de hiptesis es un proceso mediante el cual se trata de comprobar si una afirmacin sobre
alguna propiedad poblacional puede ser sostenida a la luz de la informacin muestral disponible. Puede ser
entendido como un mtodo de toma de decisiones, es un procedimiento que nos permite decidir si una proposicin
acerca de una poblacin puede ser mantenida o debe ser rechazada.
Surgido el problema, el paso siguiente en aventurar algn tipo de solucin al mismo. Esta solucin provisional
suele tomar forma de afirmacin directamente verificable (es decir, empricamente contrastable) en la que se
establece de forma operativa el comportamiento de la variable o las variables involucradas en el problema. Esa
afirmacin verificable recibe el nombre de hiptesis cientfica.
LGICA DEL CONTRASTE DE HIPOTESIS
El primer paso del proceso de verificacin de una hiptesis consiste en formular estadsticamente la hiptesis
cientfica que se desea contrastar, es decir, en transformar la hiptesis cientfica en hiptesis estadstica. Esto supone
que una hiptesis cientfica puede ser formulada en trminos de la forma de una o varias distribuciones
poblacionales, o en trminos del valor de uno o ms parmetros de esa o esas distribuciones. Formulada la hiptesis
estadstica, el segundo paso del proceso de verificacin consiste en buscar evidencia emprica relevante capaz de
informar sobre si la hiptesis establecida es o no sostenible. Una hiptesis ser compatible con los datos empricos
cuando a partir de ella sea posible deducir o predecir un resultado muestral con cierta precisin.
Supongamos que nuestra hiptesis consiste en afirmar que los varones y las mujeres no difieren en inteligencia.
En trminos estadsticos y =m. Si nuestra hiptesis es correcta, debemos esperar que, al extraer una muestra
aleatoria de la poblacin de varones y otra de las mujeres, las medias observadas X y y Xm sean similares. Una
discrepancia importante entre la afirmacin propuesta en nuestra hiptesis y el resultado muestral encontrado
puede estar indicando dos cosas diferentes: buen nuestra hiptesis es correcta y la discrepancia observada es
producto de fluctuaciones esperables por azar; bien nuestra hiptesis es incorrecta, y por lo tanto, incapaz de
proporcionarnos predicciones acertadas. La cuestin clave que se nos plantea ese momento es la de determinar
cuando la discrepancia encontrada es lo bastante grande como para poder considerar que el resultado muestral
observado es incompatible con la hiptesis formulada y, en consecuencia, para hacernos pensar que esa discrepancia
encontrada no es explicable por fluctuaciones debidas al azar sino por el hecho de que la hiptesis planteada es
incorrecta.
Necesitamos, y este es el tercer paso, una regla de decisin que debe establecerse en trminos de probabilidad.
Si en el ejemplo anterior planteado pudiramos trabajar con las poblaciones completas de varones y mujeres no
tendramos que recurrir a la teora de la probabilidad porque tampoco sera necesario efectuar ningn tipo de
contraste de hiptesis: conoceramos los valores de y y m y sabramos si son iguales o no. Pero la necesidad de
trabajar con muestras en lugar de con poblaciones nos obliga a establecer una regla de decisin en trminos de
probabilidad. En general, la regla de decisin que utilizaremos ser una afirmacin de este tipo: si el resultado
muestral observado es, suponiendo correcta nuestra hiptesis, muy poco probable, consideraremos que nuestra
hiptesis es incompatible con los datos; por el contrario, si el resultado muestral observado es, suponiendo correcta
nuestra hiptesis, probable, consideraremos que nuestra hiptesis es compatible con los datos.
Un contraste de hiptesis es un proceso de decisin en el que una hiptesis formulada en trminos
estadsticos es puesta en relacin con los datos empricos para determinar si es o no compatible con ellos.
HIPTESIS ESTADSTICA
Una hiptesis estadstica es una afirmacin sobre una o ms distribuciones de probabilidad; ms concretamente,
sobre la forma de una o ms distribuciones de probabilidad, o sobre el valor de uno o ms parmetros de esas
distribuciones. La hiptesis estadstica se suele representar por la letra H seguida de una informacin que le da
contenido. Surge a partir de una hiptesis cientfica. La primera proporciona la base para la formulacin de la
segunda, pero no son la misma cosa. Mientras una hiptesis cientfica se refiere a algn aspecto de la realidad, una
hiptesis estadstica se refiere a algn aspecto de una distribucin de probabilidad. Por ejemplo, en lugar del
promedio podramos utilizar la Mdn.
Existen varias formas de expresar estadsticamente una hiptesis cientfica correcta. El primer paso en el proceso
de verificacin de una hiptesis consiste en formular en trminos estadsticos la afirmacin contenida en la hiptesis
cientfica que se desea verificar. Todo contraste se basa en la formulacin de dos hiptesis:
La hiptesis nula, representada por H0 / La hiptesis alternativa, representada por Hi

La hiptesis nula es la hiptesis que se somete a contraste. Consiste generalmente en una afirmacin concreta
sobre la forma de una distribucin de probabilidad o sobre el valor de alguno de los parmetros de esa distribucin.
La hiptesis alternativa es la negacin de la nula, incluye todo lo que la nula excluye. Mientras la nula suele ser una
hiptesis exacta (tal cosa es igual a tal otra), la alternativa suele ser inexacta (tal cosa es distinta, mayor o menor que
otra). Cuando en Hi aparece el signo distinto decimos que el contraste es bilateral o bidireccional. Cuando en Hi
aparece los signos mayor o menor, decimos que el contraste es unilateral o unidireccional. La hiptesis nula y
alternativa suelen plantearse como hiptesis rivales. Son exhaustivas y mutuamente exclusivas, lo cual implica que si
una es verdadera, la otra es necesariamente falsa.
El signo de igualdad siempre va en la hiptesis nula.
SUPUESTOS
Para que una hiptesis estadstica pueda predecir un resultado muestral con cierta exactitud es necesario, en
primer lugar, que la distribucin poblacional con la que se va a trabajar est completamente especificada. Son
hiptesis que especifican por completo las distribuciones poblacionales a las que hacen referencia. Se las llama
simples. Las hiptesis en las que la distribucin poblacional no queda completamente especificada reciben el nombre
de compuestas. Lo ideal es plantear hiptesis nulas simples, pero ocurre que ni los intereses del investigador se
corresponden siempre con el contenido de una hiptesis simple.
Los supuestos de un contraste de hiptesis hacen referencia al conjunto de condiciones que deben cumplirse para
poder tomar una decisin sobre la hiptesis nula Ho basada en una distribucin de probabilidad conocida.

Los supuestos de un contraste de hiptesis son un conjunto de afirmaciones que necesitamos establecer
(sobre la poblacin de partida y sobre la muestra utilizada) para conseguir determinar la distribucin de
probabilidad en la que se basar nuestra decisin sobre Ho.
Algunos de estos supuestos son ms restrictivos o exigentes que otros. Es importante tener presente que el
incumplimiento de uno o varios supuestos podran invalidad el contraste y llevarnos a una decisin errnea.
Conviene, por tanto, que los supuestos sean pocos y poco exigentes.
ESTADSTICO DE CONTRASTE
Un estadstico de contraste es un resultado muestral que cumple la doble condicin de proporcionar
informacin emprica relevante sobre la afirmacin propuesta en la hiptesis nula y, poseer una
distribucin muestral conocida.
La primera condicin que debo cumplir es que debemos recurrir a un estadstico que sea capaz de detectar
cualquier desviacin de la afirmacin establecida en Ho. Para contrastar la hiptesis, lo razonable ser utilizar la
informacin muestral proporcionada por el estadstico X
La segunda condicin que debe cumplir un resultado muestral para poder ser utilizado como estadstico de
contraste es la de poseer una distribucin muestral conocida. Un estadstico es una variable aleatoria y como tal,
tiene su propia funcin de probabilidad a la que denominamos distribucin muestral. Es en la distribucin muestral
del estadstico de contraste en la que nos vamos apoyar para tomar una decisin respecto Ho en trminos de
probabilidad.
Una vez planteada la hiptesis, es necesario seleccionar el estadstico de contraste capaz de proporcionarnos
informacin relevante sobre ellas y establecer los supuestos necesarios para conseguir determinar la distribucin
normal del estadstico.
REGLA DE DECISIN
La regla de decisin es el criterio que vamos a utilizar para decidir si la hiptesis nula planteada debe o no ser
rechazada. Este criterio se basa en la particin de la distribucin muestral del estadstico de contraste en dos zonas
mutuamente exclusivas: la zona de rechazo y la zona de aceptacin.
La zona de rechazo tambin llamada zona crtica, es el rea de la distribucin muestral que corresponde a los
valores del estadstico de contraste que se encuentran tan alejados de la afirmacin establecida en Ho, que es muy
poco probable que ocurran si Ho, como se supone, es verdadera. Su probabilidad es alfa (nivel de significacin).
La zona de aceptacin es el rea de la distribucin muestral que corresponde a los valores del estadstico de
contraste prximos a la afirmacin establecida en Ho. Es, por tanto, el rea correspondiente a los valores del
estadstico de contraste que es probable que ocurran si Ho como se supone, es verdadera. Su probabilidad es 1 alfa,
valor llamado nivel de confianza.
La regla de decisin consiste en rechazar Ho si el estadstico de contraste toma un valor perteneciente a
la zona de rechazo o crtica; mantener Ho si el estadstico de contraste toma un valor perteneciente a la
zona de aceptacin
Se rechaza una hiptesis sometida a contraste cuando el valor del estadstico de contraste cae en la zona crtica; y
se rechaza porque eso significa que el valor tomado por el estadstico de contraste se aleja demasiado de la
prediccin establecida por esa hiptesis, es decir, porque, si la hiptesis planteada fuera verdadera, el estadstico de
contraste no debera haber tomado ese valor; como de hecho el estadstico ha tomado es el valor, la conclusin ms
razonable ser que la hiptesis planteada no es verdadera.
El tamao de las zonas de rechazo y aceptacin se determina fijando el valor de alfa, es decir, fijando el valor de
significacin con el que se desea trabajar. Alfa ser, necesariamente, un valor pequeo.
La forma dividir la distribucin muestral en zonas depende de si el contraste es bilateral o unilateral. La zona
crtica debe estar situada all donde puedan aparecer los valores muestrales incompatibles con Ho, es decir, all donde
puedan aparecer los valores muestrales que apunten en la direccin propuesta en H. En los contrastes bilaterales, la
zona crtica se encuentra, generalmente repartida a partes iguales entre las dos colas de la distribucin muestral. En
los contrastes unilaterales la zona crtica se encuentra en una de las dos colas de la distribucin muestral.
DECISIN
El paso consiste en obtener una muestra aleatoria de tamao n, calcular el estadstico de contraste y tomar una
decisin. Tal decisin se toma siempre, respecto a Ho, y consiste en rechazarla o mantenerla de acuerdo con el valor
tomado por el estadstico de contraste y las condiciones establecidas en la regla de decisin: si el estadstico de
contraste cae en la zona critica, se rechaza H o; si el estadstico de contraste cae en la zona de aceptacin, se mantiene
Ho.
Una decisin, en el contexto del contraste, siempre consiste en rechazar o mantener una Ho particular. Si la
rechazamos estamos afirmando que esa hiptesis es falsa, es decir, estamos afirmando con una probabilidad alga de
equivocarnos, que hemos conseguido probar que esa hiptesis es falsa. Por el contrario, si la mantenemos, no
estamos afirmando que hemos probado que esa hiptesis es verdadera, simplemente estamos afirmando que no
disponemos de evidencia emprica suficiente para rechazarla y que por lo tanto, podemos considerarla compatible
con los datos
Cuando decidimos mantener una hiptesis nula, queremos significar con ello que consideraos que esa
hiptesis es compatible con los datos. Cuando decidimos rechazar una hiptesis nula, queremos significar
con ello que consideramos probado que esa hiptesis es falsa

La razn de que esto sea as es doble. Por un lado, dada la naturaleza inespecfica de Hi, raramente es posible
afirmar que Hi no es verdadera; las desviaciones pequeas de Ho forman parte de Hi, por lo que al mantener una Ho
particular, tambin se estn manteniendo algunos valores de Hi; debe concluirse que se mantiene o se rechaza Ho,
pero nunca que se acepta como verdadera. Por otro lado, en el razonamiento estadstico que lleva a la toma de una
decisin respecto a Ho puede reconocerse el argumento deductivo modus tollens.
ERRORES DE TIPO I Y II
Ho puede ser verdadera o puede ser falsa. Si Ho es verdadera y la mantenemos estaremos tomando una decisin
correcta; si es falsa y la rechazamos, tambin estaremos tomando una decisin correcta. Pero si Ho es verdadera y la
rechazamos, estaremos cometiendo un error e igualmente estaremos cometiendo un error si Ho es falsa y la
mantenemos.
Llamamos error de tipo I al que se comete cuando se decide rechazar una Ho que en realidad es
verdadera. La probabilidad de cometer ese error es alfa.
Llamamos error de tipo II al que se comete cuando se decide mantener una Ho que en realidad es falsa.
La probabilidad de cometer ese error es beta.
Por tanto I ser la probabilidad de tomar una decisin correcta cuando Ho es verdadera. Y 1-beta ser la
probabilidad de tomar una decisin correcta cuando Ho es falsa. La probabilidad de cometer un error I con nuestra
decisin es una probabilidad conocida, pues el valor de alfa lo fija el propio investigador. Sin embargo, la probabilidad
de cometer un error de tipo II, es un valor desconocido que en un contraste depende de tres factores: la verdadera
Hi, el valor de alfa y el tamao del error tpico de la distribucin muestral utilizada para efectuar el contraste.
POTENCIA
La potencia (1-B) de un contraste es la probabilidad de rechazar una hiptesis nula que en realidad es
falsa.
Cuando hablamos de la potencia de un contraste, por tanto, nos estamos refiriendo a la capacidad de ese
contraste para detectar que una hiptesis concreta es falsa. Para poder calcular la potencia de un contraste
necesitamos referirnos a una afirmacin de las muchas definidas en Hi.
NIVEL CRTICO Y TAMAO DEL EFECTO.
La probabilidad de cometer un error de tipo I se establece antes de efectuar el contraste para evitar que influya en
la decisin final. En ese sentido, podemos entender el nivel de significacin como el riesgo mximo que estamos
dispuestos a asumir al tomar la decisin de rechazar la hiptesis concreta.
Efectuar un contraste estableciendo previamente un nivel de significacin es lo que se hace, aunque trae
inconvenientes:
1. La decisin sobre Ho puede depender decisivamente del nivel de significacin establecido. Podemos decidir
mantener la hiptesis con = 0.01 y rechazarla con = 0.05.
2. Decidir si Ho es o no falsa no proporciona ningn tipo de informacin sobre el grado en el que la evidencia
muestral se muestra incompatible con esta hiptesis.
Si consideramos que cometer un error de tipo I es muy grave, adoptaremos para alfa un valor ms pequeo que si
consideramos que cometer ese error no tiene consecuencias graves. Pero recordemos que al hacer ms pequeo el
valor de alfa, la potencia del contraste disminuye automticamente (que es igual que decir que la potencia de que se
produzca un error II se incrementa). Eso puede llevar a cometer un error II por querer evitar el I.
Llamamos nivel crtico y lo representamos por p, al nivel de significacin ms pequeo al que una
hiptesis nula puede ser rechazada con el estadstico de contraste obtenido
Podemos definir el nivel crtico, ms brevemente, como la probabilidad asociada al estadstico de contraste. En
trminos generales, en un contraste unilateral, el nivel crtico es la probabilidad asociada a los valores mayores
(contraste unilateral derecho) o menores (contraste unilateral izquierdo) que el estadstico de contraste obtenido; en
un contraste bilateral, el nivel crtico es la probabilidad asociada a los valores que se encentran tan alejados de Ho
como, al menos, el estadstico de contraste. Segn esto, el nivel crtico se obtiene, a diferencia de lo que ocurre con
el nivel de significacin, despus de efectuar el contraste, es decir, una vez obtenido el estadstico de contraste.
Decidir si una hiptesis es o no falsa no constituye, en la mayor parte de las situaciones experimentales, un criterio
suficiente para determinar si el experimento realizado contribuye o no de la forma significativa al desarrollo de una
teora o de una lnea de investigacin. Esto es as porque la decisin a la que se llega en un contraste de hiptesis
sobre la base del grado de discrepancia existente entre la Ho planteada y la evidencia muestral observada depende
directamente, segn hemos sealado ya, del tamao de la muestra utilizada. Tamaos muestrales grandes pueden
llevarnos a considerar estadsticamente significativas discrepancias muy pequeas y tamaos muestrales muy
pequeos pueden llevarnos a considerar estadsticamente insignificantes discrepancias tericamente relevantes.
El nivel crtico, no solo nos ayuda a tomar una decisin sobre Ho, sino que su tamao nos informa sobre el grado
de compatibilidad o discrepancia existente entre la evidencia muestral observada y esa Ho. Podemos decir que el
tamao del nivel crtico nos est informando sobre el grado en el que la evidencia emprica obtenida se muestra
incompatible con la Ho planteada.
La utilizacin del nivel crtico como una medida del grado de discrepancia entre la Ho planteada y la evidencia
muestral observada tiene el inconveniente de que el valor del nivel crtico est condicionado por el tamao de la
muestra concreta utilizada. Necesitamos, por tanto, otra medida de ese grado de discrepancia que no dependa del
tamao de la muestra tamao del efecto
Decidir si una hiptesis es o no falsa no constituye un criterio suficiente para determinar si el experimento
realizado contribuye o no de forma significativa al desarrollo de una teora o de una lnea de investigacin. Esto es as
porque la decisin a la que se llega en un contraste de hiptesis sobre la base del grado de discrepancia existente
entre Ho planteada y la evidencia muestral observada depende directamente del tamao de la muestra utilizada.
Tamaos mustrales grandes pueden llevar a considerar como estadsticamente significativas discrepancias muy
pequeas; y tamaos mustrales muy pequeos pueden llevarnos a considerar estadsticamente insignificante
discrepancias tericamente relevantes.
CONTRASTE BILATERALES Y UNILATERALES
Cuando un investigador desea comprobar si un parmetro toma o no un determinado valor, si dos grupos
difieren entre si en alguna variable, si dos variables son independientes, etc., puede someter a contraste de hiptesis
como estas: Ho: = 0,5; Hi: 0,5
Las hiptesis formuladas no contienen ninguna prediccin sobre la direccin en la que se puede producir un
resultado muestral incompatible con la afirmacin establecida en Ho. Lo cual est reflejado en Hi, con el signo de" ="
As, por ejemplo, si se quiere estudiar si los varones y las mujeres difieren en inteligencia, y no existen una
expectativa justificada sobre cul de los dos grupos es ms inteligente, lo razonable ser plantear un contraste
bilateral: Ho: v = m; Hi: v m
Cuando se utiliza la distribucin normal o la distribucin t de Student en un contraste bilateral, la zona critica est
repartida en partes iguales, entre las dos colas de la distribucin muestral. De ah el nombre bilateral.
Cuando un investigador desea comprobar si el valor de un parmetro ha aumentado, si un grupo supera o es
mejor que otro en alguna variable, si dos variables se encuentran negativamente relacionadas, etc. puede someter a
contraste hiptesis como estas: Ho: 0,65; Hi: 0,65
A este tipo de contraste se les llama unilaterales. Las hiptesis contienen una prediccin concreta sobre la
direccin en la que se puede producir un resultado muestral incompatible con la afirmacin establecida en Ho. Lo
cual esta reflejado en Hi, con los signos "< y >"
Cuando se utiliza la distribucin normal o la distribucin t de Student en un contraste bilateral, la zona critica est
en una de las dos colas de la distribucin.

WELKOWITZ

RANGO PERCENTILAR
Una forma de suministrar la informacin adicional consiste en transformar la puntuacin original (puntuacin
directa) en una nueva puntuacin que mostrar de forma inmediata la situacin de un individuo en comparacin con
los dems estudiantes de la clase: los percentiles.
El rango percentil de un valor dado es un nmero que expresa el tanto por ciento de casos en el grupo especfico
de referencia, cuyo valor es igual o inferior al dado. Por ejemplo: a una puntuacin de 41 le corresponde un rango 85,
significa que el 85% de la clase obtuvo una puntuacin igual o inferior a 41 puntos, mientras que slo un 15% de la
clase recibi puntuaciones ms elevadas. Un percentil es un valor no superado por un tanto por ciento dado de los
casos registrados. Una puntuacin que nos colocase en el percentil 5 debera inquietarnos, pues significara que el
95% de la clase lo hizo mejor que nosotros y solo un 5% se comporto peor o igual. As, el percentil muestra
directamente como un valor concreto se compara con los dems en un grupo especfico.
No se puede interpretarse correctamente un percentil si no se conoce perfectamente un grupo de referencia en
cuestin.
Un percentil compara un valor con un grupo especfico de valores.
- PROCEDIMIENTO DE CALCULO: para encontrar el rango del percentil correspondiente a la calificacin de 41,
solo hay que hacer lo siguiente:
1. Localizar el intervalo de clase al que pertenece dicha calificacin (intervalo critico)
2. Clasificar las frecuencias (f) en tres categoras: las correspondientes a todas las calificaciones superiores al
intervalo crtico, las correspondientes a todas las calificaciones del intervalo crtico y las correspondientes a todas las
calificaciones inferiores a dicho intervalo.
En orden a determinar exactamente nuestra situacin en el intervalo crtico debemos cerciorarnos de cul es el
lmite inferior real del mismo. Una regla conveniente consiste en situar el lmite inferior real de un intervalo
exactamente en el punto medio entre la calificacin ms baja de este intervalo y la ms alta inmediatamente
inferior.

TEOREMA CENTRAL DEL LMITE


Cuando el tamao muestral es suficientemente grande la distribucin de X es aproximadamente normal (tanto
ms normal cuanto mayor el tamao de la muestra) con media y varianza o 2/n. Estandarizando X obtenemos el
estadstico: X - / o n que sigue aproximadamente la distribucin normal estndar y se usa en inferencia estadstica
para probar hiptesis acerca de la media poblacional.
Si X es una variable, u la media de todos sus valores y s su varianza o 2, la media X de muestras de n observaciones
tiene distribucin aproximadamente normal con la misma media u y la n-sima? Parte de la varianza. La distribucin
de X ser tanto ms normal cuanto mayor sea el tamao de la muestra.