Вы находитесь на странице: 1из 140

CAPITULO 1

CONCEPTOS BASICOS DE LA ESTADISTICA


1.1.- INTRODUCCIN: La Estadstica se conoci aproximadamente en 1925 cuando apareci el libro de Fisher, Statistical Methods for Research Workers. Para la mayora de los cientficos, la estadstica es lgica o sentido comn que proporciona mtodos, a travs de ellos se recolectan datos y se realizan procedimientos aritmticos. Junto con ciertas tablas numricas, producen el material sobre el cual se basa la inferencia. La Estadstica que conocemos hoy en da se debe a aquellos hombres que desarrollaron la teora de las probabilidades, con la cual se adhiri la Estadstica a las Ciencias Formales. Tradicionalmente la estadstica se conoci como la coleccin, organizacin, resumen y presentacin de datos numricos. Actualmente la estadstica es considerada como la teora de la informacin, no solo como funcin descriptiva, sino con el objeto bsico de hacer estimaciones acerca de los valores estadsticos de la poblacin o en la comprobacin de hiptesis de las caractersticas investigadas que viene hacer una funcin inductiva, a partir de las caractersticas de una muestra podemos generalizar las de una poblacin. Sirve como herramienta para relacionar y analizar los datos, tal es as que el trabajo de un profesional de estadstica no consiste solo en reunir y tabular los datos sino sobre todo en el proceso de interpretacin de esa informacin. 1.2.- QU ES LA ESTADSTICA? La palabra estadstica lo utilizamos bajo dos significados: 1 Como dato o resultado de datos numricos. 2 Como ciencia que estudia el comportamiento de un conjunto de datos, cmo debe emplearse la informacin emprica con los modelos tericos propuestos que intentan explicar la realidad y como dar una gua de accin en situaciones prcticas que contienen incertidumbre; para ello, crea, desarrolla y aplica tcnicas de modo que pueda evaluarse la incertidumbre. La Estadstica es una rama cientfica de la Matemtica Aplicada, tiene sus races en la rama de la Matemtica Pura conocida con el nombre de Teora de la Probabilidad. Adems de ciencia se puede considerar a la Estadstica como la tecnologa del mtodo cientfico, que proporciona mtodos para recolectar, clasificar, resumir, y describir los datos, as como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en algunos casos de formular predicciones. De acuerdo a sus funciones, la estadstica se clasifica en dos partes: 1. Estadstica Descriptiva. 2. Estadstica Inferencial.

1.2.1. Estadstica Descriptiva: Es la parte que comprende a los mtodos


descriptivos, que se pueden usar tanto para muestras como para poblaciones, cuya finalidad es agrupar y representar los datos de forma ordenada y grfica sin sacar

conclusiones, de tal manera que nos permita identificar rpidamente caractersticas del comportamiento de los datos. Aqu se realiza un proceso deductivo que va de lo general a lo particular. La Estadstica Descriptiva, se ocupa de la recoleccin, clasificacin, resumen y descripcin de un conjunto de datos, utilizando mtodos numricos, grficos y la aplicacin de medidas como promedios, desviaciones, etc. La estadstica descriptiva cuando se aplica al universo total, a la observacin de todos los elementos de una poblacin (observacin exhaustiva), no tendr la misma exactitud que tiene para la muestra (observacin parcial), es decir al estimarse para el universo ser con cierto margen de error; esto significa que el valor de la medida calculada para la muestra, oscilar dentro de cierto lmite de confianza, que casi siempre es de un 95 % de los casos.

Estadstica Descriptiva: Tienen por objeto fundamental describir y analizar las caractersticas de un conjunto de datos, obtenindose de esa manera conclusiones sobre las caractersticas de dicho conjunto y sobre las relaciones existentes con otras poblaciones, a fin de compararlas. No obstante puede no solo referirse a la observacin de todos los elementos de una poblacin (observacin exhaustiva) sino tambin a la descripcin de los elementos de una muestra (observacin parcial). En relacin a la estadstica descriptiva, Ernesto Rivas Gonzles dice; "Para el estudio de estas muestras, la estadstica descriptiva nos provee de todos sus medidas; medidas que cuando quieran ser aplicadas al universo total, no tendrn la misma exactitud que tienen para la muestra, es decir al estimarse para el universo vendr dada con cierto margen de error; esto significa que el valor de la medida calculada para la muestra, en el oscilar dentro de cierto lmite de confianza, que casi siempre es de un 95 a 99% de los casos.

1.2.2. Estadstica Inferencial o Mtodo Inductivo: Es la parte que comprende a los


mtodos inferenciales usando solamente muestras, trata de dar explicacin al comportamiento de los datos o hallar conclusiones respecto a los objetivos de estudio. Apoyndose en el clculo de probabilidades, y al aplicar el mtodo estadstico seleccionado a los datos muestrales, segn la naturaleza del problema, efecta estimaciones, relaciones entre variables, se ejecutan pruebas estadsticas, logra obtener resultados considerados como estimadores de los parmetros. Sobre la base de los resultados obtenidos toma decisiones, hace predicciones u otras generalizaciones para dar respuesta a nuestro problema que luego sern expresados en forma de conclusiones y sugerencias. Usamos pues la Estadstica Inferencial, para generalizar a partir de las caractersticas de una muestra las de una poblacin del estudio realizado. Pues este es el objetivo de la inferencia en la investigacin cientfica y tecnolgica. Como un ejemplo para diferenciar entre la estadstica descriptiva y la inferencial, se tiene el siguiente ejemplo:

Suponga que el MINSA obtiene el porcentaje de pacientes infectados con la gripe humana AH1N1 en las diferentes ciudades del pas. Como la estadstica describe la proporcin de infectados pero no hace ninguna generalizacin, podemos decir que el MINSA est utilizando la estadstica descriptiva, a travs de medidas de resumen o grficas y tablas para mostrar los datos de manera que sea ms fcil su entendimiento. Supngase ahora que el MINSA decide utilizar el porcentaje de pacientes infectados con la gripe humana AH1N1 obtenidos en las diferentes ciudades del pas para estimar la proporcin de pacientes infectados durante los prximos 5 meses. El proceso de estimacin de la proporcin sera un problema concerniente a la estadstica inferencial.

Estadstica Inductiva: Est fundamentada en los resultados obtenidos del anlisis de una muestra de poblacin, con el fin de inducir o inferir el comportamiento o caracterstica de la poblacin, de donde procede, por lo que recibe tambin el nombre de Inferencia estadstica. Segn Berenson y Levine; Estadstica Inferencial son procedimientos estadsticos que sirven para deducir o inferir algo acerca de un conjunto de datos numricos (poblacin), seleccionando un grupo menor de ellos (muestra). El objetivo de la inferencia en investigacin cientfica y tecnolgica radica en conocer clases numerosas de objetos, personas o eventos a partir de otras relativamente pequeas compuestas por los mismos elementos. En relacin a la estadstica descriptiva y la inferencial, Levin & Rubin (1996) citan los siguientes ejemplos para ayudar a entender la diferencia entre las dos. Supngase que un profesor calcula la calificacin promedio de un grupo de historia. Como la estadstica describe el desempeo del grupo pero no hace ninguna generalizacin acerca de los diferentes grupos, podemos decir que el profesor est utilizando estadstica descriptiva. Graficas, tablas y diagramas que muestran los datos de manera que sea ms fcil su entendimiento son ejemplos de estadstica descriptiva. Supngase ahora que el profesor de historia decide utilizar el promedio de calificaciones obtenidos por uno de sus grupos para estimar la calificacin promedio de las diez unidades del mismo curso de historia. El proceso de estimacin de tal promedio sera un problema concerniente a la estadstica inferencial. Los estadsticos se refieren a esta rama como inferencia estadstica, esta implica generalizaciones y afirmaciones con respecto a la probabilidad de su validez.

1.3.- LA ESTADISTICA Y EL METODO CIENTFICO: El mtodo cientfico consiste en formular problemas sobre la realidad del mundo y los hombres, con base en la observacin de la realidad y la teora ya existentes, en anticipar

soluciones a estos problemas y en verificar con la misma realidad estas soluciones a los problemas planteados. Un proceso de investigacin es cientfico, si solo se usa el mtodo cientfico. A travs del cual adquirimos conocimientos para resolver los problemas de la vida en el mundo en que vivimos. Toda investigacin cientfica comienza con el planteamiento de un problema, que constituye el punto de partida, luego se plantea una hiptesis. Para comprobar la hiptesis se recolectan los datos, los cuales son clasificados, analizados e interpretados, que permiten la demostracin de la hiptesis, llegando a la generalizacin, o a la toma de decisiones; es decir a establecer normas o principios. La estadstica es un instrumento aplicable en el mtodo cientfico, ayuda a los investigadores a disear experimentos y a evaluar objetivamente los datos numricos. Actualmente todos los profesionales usan la Estadstica en sus investigaciones. La Estadstica interviene en la investigacin hacindola ms eficiente, por esta razn A.M.Mood denomina a la Estadstica como La tecnologa del mtodo cientfico. La Estadstica como tecnologa del mtodo cientfico siempre estar presente en toda investigacin y trabajo de tesis, tal es as que un mtodo estadstico apropiado forma parte del diseo en la planeacin del proyecto de investigacin.

La estadstica es comnmente considerada como una coleccin de hechos numricos expresados en trminos de una relacin sumisa, y que han sido recopilado a partir de otros datos numricos. Kendall y Buckland (citados por Gini V. Glas / Julian C. Stanley, 1980) definen la estadstica como un valor resumido, calculado, como base en una muestra de observaciones que generalmente, aunque no por necesidad, se considera como una estimacin de parmetro de determinada poblacin; es decir, una funcin de valores de muestra. "La estadstica es una tcnica especial apta para el estudio cuantitativo de los fenmenos de masa o colectivo, cuya mediacin requiere una masa de observaciones de otros fenmenos ms simples llamados individuales o particulares". (Gini, 1953. Murria R. Spiegel, (1991) dice: "La estadstica estudia los mtodos cientficos para recoger, organizar, resumir y analizar datos, as como para sacar conclusiones vlidas y tomar decisiones razonables basadas en tal anlisis. "La estadstica es la ciencia que trata de la recoleccin, clasificacin y presentacin de los hechos sujetos a una apreciacin numrica como base a la explicacin, descripcin y comparacin de los fenmenos". (Yale y Kendal, 1954). Cualquiera sea el punto de vista, lo fundamental es la importancia cientfica que tiene la estadstica, debido al gran campo de aplicacin que posee.

1.4.- DEFINICIN DE TRMINOS ESTADSTICOS:

Dato: Es el resultado de la observacin, entrevista o recopilacin. Es el valor que toma la variable en cada unidad de anlisis. Ejemplo: el nmero 4 y el intervalo [2 10] son datos. El dato 4 es un punto; el dato [2 10] es un intervalo que contiene varios puntos. Tipos de datos: Los datos pueden ser: no agrupados y agrupados. Dato no agrupado: Es un dato que se representa por puntos. Ejemplo: En el examen final del curso de Estadstica 20 estudiantes obtuvieron las siguientes calificaciones: 10, 08, 16, 14, 11, 12, 16, 10, 13, 18, 16, 08, 12, 12, 10, 12, 12, 14, 11, 15; estas calificaciones son datos no agrupados. Dato agrupado: Es un dato que se representa por intervalos.

Datos Estadsticos: Los datos estadsticos no son otra cosa que el producto de las observaciones efectuadas en las personas y objetos en los cuales se produce el fenmeno que queremos estudiar. Dicho en otras palabras, son los antecedentes (en cifras) necesarios para llegar al conocimiento de un hecho o para reducir las consecuencias de este. Los datos estadsticos se pueden encontrar de forma no ordenada, por lo que es muy difcil en general, obtener conclusiones de los datos presentados de esta manera. Para poder obtener una precisa y rpida informacin con propsitos de descripcin o anlisis, estos deben organizarse de una manera sistemtica; es decir, se requiere que los datos sean clasificados. Esta clasificacin u organizacin puede muy bien hacerse antes de la recopilacin de los datos. Clasificacin de los datos Los datos estadsticos pueden ser clasificados en cualitativos, cuantitativos, cronolgicos y geogrficos. Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de cantidad. Ejemplo: Si deseamos clasificar los estudiantes que cursan la materia de estadstica I por su estado civil, observamos que pueden existir solteros, casados, divorciados, viudos. Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes, decimos que son datos cuantitativos. Ejemplo: Se clasifican los estudiantes del Ncleo San Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan diferentes magnitudes.

Datos cronolgicos: cuando los valores de los datos varan en diferentes instantes o perodos de tiempo, los datos son reconocidos como cronolgicos. Ejemplo: Al registrar los promedios de notas de los Alumnos del Ncleo San Carlos de la UNESR en los diferentes semestres. Datos geogrficos: cuando los datos estn referidos a una localidad geogrfica se dicen que son datos geogrficos. Ejemplo El nmero de estudiantes de educacin superior en las distintas regiones del pas.

Ejemplo: Si se quiere conocer las caractersticas de los estudiantes del Ncleo San Carlos de la UNESR, que solicitan prstamo a la biblioteca de dicha Universidad, la recoleccin de la informacin debe clasificar a cada estudiante sobre la base de: Carrera que estudia, edad, semestre de estudios, etc. Vemos pues que la clasificacin marca la pauta de la clase de datos que debe ser obtenido.

Informacin: Es el resultado de los datos procesados de acuerdo a ciertos objetivos. Poblacin o Universo: Se define como el conjunto de unidades elementales, en quienes se observa una o ms caractersticas en comn, de los cuales se desea estudiar. Las unidades elementales pueden ser: personas, familias, empresas, hospitales, instituciones. La poblacin ideal que se pretende estudiar se denomina poblacin objetivo. El grupo que en realidad podemos estudiar se denomina poblacin de estudio, definido de manera que limite el contenido de las unidades elementales. Ejemplos de poblacin o universo: Los mdicos cirujanos del Per. Los trabajadores asegurados en una AFP Las historias clnicas de un hospital. La poblacin segn su tamao puede ser de dos tipos: Poblacin finita: cuando contiene un nmero determinado de unidades elementales, por ejemplo el nmero total de pacientes en el Hospital de Apoyo Daniel Alcides Carrin en diciembre 2008. Poblacin infinita: cuando el nmero de unidades elementales que la forman es infinito o tan grande que puede considerarse poblacin infinita, por ejemplo si se realiza un estudio en todos los pacientes de centros de salud en el mundo, son muchos que esta poblacin podra considerarse infinita. En la prctica una poblacin finita con

un nmero grande de elementos (mayor o igual a 10 000) se considera una poblacin infinita. Censo: Se entiende por censo aquella numeracin que se efecta a todos y cada uno de los elementos componentes de una poblacin. Los censos se utilizan rara vez porque a menudo su compilacin es bastante difcil, consume mucho tiempo por lo que resulta demasiado costoso. Generalmente es bastante difcil realizar un estudio con el total de la poblacin, ya sea por que es demasiado grande, requiere demasiado tiempo para su anlisis, los costos son muy elevados, o se desconoce el total de los elementos, etc. Utilizamos el muestreo cuando no es posible contar o medir todos los elementos de toda la poblacin.
Censo: Se entiende por censo aquella numeracin que se efecta a todos y cada uno de los caracteres componentes de una poblacin. Para Levin & Rubin (1996) "Algunas veces es posible y prctico examinar a cada persona o elemento de la poblacin que deseamos describir. A esto lo llamamos una numeracin completa o censo. Utilizamos el muestre cuando no es posible contar o medir todos los elementos de la poblacin. Si es posible listar (o enumerar) y observar cada elemento de la poblacin, los censos se utilizan rara vez porque a menudo su compilacin es bastante difcil, consume mucho tiempo por lo que resulta demasiado costoso.

Poblacin: El concepto de poblacin en estadstica va ms all de lo que comnmente se conoce como tal. Una poblacin se precisa como un conjunto finito o infinito de personas u objetos que presentan caractersticas comunes. "Una poblacin es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una poblacin es un conjunto de elementos que presentan una caracterstica comn". Cadenas (1974). Ejemplo: Los miembros del Colegio de Ingenieros del Estado Cojedes. El tamao que tiene una poblacin es un factor de suma importancia en el proceso de investigacin estadstica, y este tamao vienen dado por el nmero de elementos que constituyen la poblacin,

segn el nmero de elementos la poblacin puede ser finita o infinita. Cuando el nmero de elementos que integra la poblacin es muy grande, se puede considerar a esta como una poblacin infinita, por ejemplo; el conjunto de todos los nmeros positivos. Una poblacin finita es aquella que est formada por un limitado nmero de elementos, por ejemplo; el nmero de estudiante del Ncleo San Carlos de la Universidad Nacional Experimental Simn Rodrguez. Cuando la poblacin es muy grande, es obvio que la observacin de todos los elementos se dificulte en cuanto al trabajo, tiempo y costos necesario para hacerlo. Para solucionar este inconveniente se utiliza una muestra estadstica. Es a menudo imposible o poco prctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado poblacin o universo, se examina una pequea parte del grupo llamada muestra. Muestra: "Se llama muestra a una parte de la poblacin a estudiar que sirve para representarla". Murria R. Spiegel (1991). "Una muestra es una coleccin de algunos elementos de la poblacin, pero no de todos". Levin & Rubin (1996). "Una muestra debe ser definida en base de la poblacin determinada, y las conclusiones que se obtengan de dicha muestra solo podrn referirse a la poblacin en referencia", Cadenas (1974). Ejemplo; El estudio realizado a 50 miembros del Colegio de Ingenieros del Estado Cojedes. El estudio de muestras es ms sencillo que el estudio de la poblacin completa; cuesta menos y lleva menos tiempo. Por ltimo se aprobado que el examen de una poblacin entera todava permite la aceptacin de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Una muestra representativa contiene las caractersticas relevantes de la poblacin en las mismas proporciones que estn incluidas en tal poblacin. Los expertos en estadstica recogen datos de una muestra. Utilizan esta informacin para hacer referencias sobre la poblacin que est representada por la muestra. En consecuencia muestra y poblacin son conceptos relativos. Una poblacin es un todo y una muestra es una fraccin o segmento de ese todo.

Muestra: Es el subconjunto de unidades elementales extrados de una poblacin que estudiamos, seleccionada de forma que sea representativa de la poblacin. As, si se estudia el nmero promedio de pobladores infectados con la gripe humana AH1N1 de una ciudad, lo normal ser no recoger datos sobre todos los pobladores de la ciudad, sera una labor muy compleja, sino que se suele seleccionar un subgrupo (muestra) de los pobladores que sea representativo de la poblacin.

Unidades Elementales: Se llaman unidades elementales a los individuos u objetos de una poblacin que tienen una o ms caractersticas mensurables que pueden ser de naturaleza cualitativa o cuantitativa. As, si estudiamos la estatura de los nios de una clase, cada nio es un individuo; si estudiamos el nmero de habitantes por vivienda, cada vivienda es un individuo. Unidad de observacin es el resultado de observar o medir una unidad elemental. Parmetro: Es una medida de resumen que describe algunas propiedades o caractersticas de una poblacin y para determinar su valor, es necesario utilizar los datos de toda la poblacin. Se denota con letras griegas. Ejemplos de parmetros: : Media de la poblacin. 2 : Varianza de la poblacin. : Desviacin Estndar de la poblacin. : Proporcin de la poblacin.

Estimador o estadstico o estadgrafo: Es una medida de resumen que describe algunas propiedades o caractersticas de una muestra. Es una variable aleatoria que cambia de muestra a muestra con cierta distribucin de probabilidad. El valor que asume el estimador es llamado estimacin y para determinarlo es necesario utilizar los datos de una muestra. Ejemplos de estimadores: : Media de la muestra. s2 : Varianza de la muestra. s p : Desviacin estndar de la muestra. : Proporcin de la muestra.

Sean los siguientes ejemplos: En una encuesta de 1500 estudiantes universitarios seleccionados aleatoriamente, 300 ( 20%) cuentan con una computadora personal en sus domicilios. Puesto que la cifra 20% est basada en una muestra (no de toda la poblacin), es un estimador (no un parmetro). Si en una encuesta de 400 docentes se obtuvo que 250 ( 62,5%) de ellos poseen computadoras personales, entonces la cifra de 62,5% es un parmetro, porque est basada en la poblacin total de docentes. Indicador: Es toda cantidad, valor o elemento que permite su anlisis a fin de ilustrar el comportamiento de las variables, y facilitar las comparaciones. Son indicadores: los nmeros ndices, tasas, estadgrafos, etc. Indices: Son nmeros que expresan una medida estadstica diseada para mostrar los cambios de una variable o grupo de variables con respecto al tiempo, situacin geogrfica u otras caractersticas como renta, costo de vida, devaluacin. Encuesta piloto: Es la encuesta previa antes de aplicar la encuesta propiamente dicha. Se utiliza para determinar la varianza en el tamao de la muestra y para corregir instrumentos de recoleccin de datos.

Fuentes de sesgo: Las poblaciones objetivo y de estudio pueden diferir en cuanto a las variables que estudiamos. Si se realiza una encuesta de opinin: los individuos que se eligen en la calle pueden ser de mayor edad (por ejemplo mayor frecuencia de jubilados) en este caso, diremos que las muestras que se elijan estarn sesgadas. Al tipo de sesgo, debido a diferencias sistemticas entre poblacin objetivo y poblacin de estudio se denomina sesgo de seleccin. Hay otras fuentes de sesgo como: no respuestas a encuestas embarazosas, a consumo de drogas, violencia domstica, a prcticas poco ticas, o mentir en las preguntas consideradas indiscretas.

A continuacin se tiene algunos ejemplos que determinan a la poblacin, muestra, unidad elemental, parmetro, estimador. Ejemplo 1: En la Direccin de Estadstica de una cierta ciudad X se realiza un estudio sobre las familias que viven en ese lugar. En particular se desea conocer el nmero promedio de los hijos que tienen las familias de esa ciudad en diciembre del 2009. Poblacin: Es el conjunto de todas las familias de la ciudad X en diciembre del 2009. Muestra: Supongamos que la muestra consiste en 25 familias obtenidas de la ciudad X en diciembre del 2009, las cuales tienen el siguiente nmero de hijos respectivamente: 5, 0, 3, 4, 1, 3, 2, 1, 2, 3, 5, 4, 3, 2, 3, 2, 5, 4, 4, 6, 2, 3, 2, 4, 2. n = 25 se llama tamao de la muestra. Unidad elemental: Una familia de la ciudad X en diciembre del 2009. Parmetro: Es el promedio de hijos que tienen todas las familias de la ciudad X en diciembre del 2009. Estimador: Es 3 hijos por familia que tienen 25 familias de la ciudad X en diciembre del 2009. Ejemplo 2: Supongamos que un equipo de investigacin desea determinar la proporcin de fumadores en una comunidad A de 1 500 pobladores mayores de 14 aos, para ello realizan una encuesta tomando una muestra aleatoria de 300 pobladores, encontrando que 60 (o 20%) de ellos fuman. Poblacin: Los 1 500 pobladores mayores de 14 aos de la comunidad A. Muestra: 300 pobladores mayores de 14 aos seleccionados aleatoriamente de la comunidad A. Unidad elemental: Es un poblador mayor de 14 aos de la comunidad A. El parmetro es la proporcin de todos los fumadores mayores de 14 aos en la comunidad A. El estimador es el 20% que son fumadores de 300 pobladores mayores de 14 aos en la comunidad A. Ejemplo 3: Determinar la calidad de atencin de enfermera que se brinda en clnicas particulares de la ciudad de Lima, durante los meses octubre a diciembre del 2009. Para ello se realiz una encuesta en una muestra de 150 pacientes seleccionados de las clnicas particulares durante los meses octubre a diciembre del 2009.

10

Poblacin: Todos los pacientes de las clnicas particulares durante los meses octubre a diciembre del 2009. Muestra: Es un grupo de 150 pacientes seleccionados de las clnicas particulares durante los meses octubre a diciembre del 2009. Unidad elemental: Es un paciente de las clnicas particulares durante los meses octubre a diciembre del 2009. El parmetro es la proporcin de todos los pacientes que opinan sobre la calidad de (adecuada e inadecuada) atencin de enfermera en las clnicas particulares de la ciudad de Lima durante los meses octubre a diciembre del 2009. El estimador es la proporcin, de los 150 pacientes, que opinan sobre la calidad de (adecuada e inadecuada) atencin de enfermera en las clnicas particulares de la ciudad de Lima durante los meses octubre a diciembre del 2009. 1.5.- VARIABLES: Las variables son los aspectos o caractersticas que interesa estudiar en una poblacin de estudio. Se deducen y definen a partir de los objetivos y de las hiptesis. La validez de una variable depende del Marco Terico que fundamenta el problema y de su relacin directa con la hiptesis que se plantea.

1.5.1.

Definicin de Variable.- Variable es una caracterstica observable que interesa al investigador y que puede tomar diferentes valores ya sea cuantitativa o cualitativamente. Es la relacin causa-efecto que se da entre uno o ms fenmenos estudiados.
La identificacin y definicin de las variables es el aspecto ms importante de la investigacin porque solo as se puede obtener los datos que son la materia prima para el trabajo estadstico. Se representa por una letra mayscula del alfabeto. Por ejemplo: Si la poblacin est constituida por alumnos de la UNDAC, algunas variables estadsticas definidas en esta poblacin pueden ser: 1) Variable gnero, que lo podemos denotar como variable X, cuyos valores son: masculino, femenino. 2) Variable Y, es la variable estado civil, cuyos valores son: soltero, casado, viudo, o divorciado. Si una variable se denota por X, entonces sus valores observados en n unidades estadsticas se denotan por x1, x2, ....., xn ; este conjunto constituye una muestra de tamao n obtenida de una poblacin definida.

Variables y Atributos:

11

Las variables, tambin suelen ser llamados caracteres cuantitativos, son aquellos que pueden ser expresados mediante nmeros. Son caracteres susceptibles de medicin. Como por ejemplo, la estatura, el peso, el salario, la edad, etc. Segn, Murray R. Spiegel, (1992) "una variable es un smbolo, tal como X, Y, Hx, que puede tomar un valor cualquiera de un conjunto determinado de ellos, llamado dominio de la variable. Si la variable puede tomar solamente un valor, se llama constante." Todos los elementos de la poblacin poseen los mismos tipos de caracteres, pero como estos en general no suelen representarse con la misma intensidad, es obvio que las variables toman distintos valores. Por lo tanto estos distintos nmeros o medidas que toman los caracteres son los "valores de la variable". Todos ellos juntos constituyen una variable. Los atributos tambin llamados caracteres cualitativos, son aquellos que no son susceptibles de medicin, es decir que no se pueden expresar mediante un nmero. IUTIN (1997). "Reciben el nombre de variables cualitativas o atributos, aquellas caractersticas que pueden presentarse en individuos que constituyen un conjunto. La forma de expresar los atributos es mediante palabras, por ejemplo; profesin, estado civil, sexo, nacionalidad, etc. Puede notar que los atributos no se presentan en la misma forma en todos los elementos. Estas distintas formas en que se presentan los atributos reciben el nombre de "modalidades". Ejemplo; El estado civil de cada uno de los estudiantes del curso de estadsticas I, no se presenta en la misma modalidad en todos.

Las variables y su medicin: Una variable es un smbolo, tal como X, Y, H, x B, que pueden tomar un conjunto prefijado de valores, llamado dominio de esa variable. Para Murray R. Spiegel (1991) "una variable que puede tomar cualquier valor entre dos valores dados se dice que es una variable continua en caso contrario diremos que la variable es discreta". Las variables, tambin llamadas caracteres cuantitativos, son aquellas cuyas variaciones son susceptibles de ser medidas cuantitativamente, es decir, que pueden expresar numricamente la magnitud de dichas variaciones. Por intuicin y por experiencia sabemos que pueden distinguirse dos tipos de variables; las continuas y las discretas Las variables continuas se caracterizan por el hecho de que para todo para de valores siempre se puede encontrar en valor intermedio, (el peso, la estatura, el tiempo empleado para realizar un trabajo, etc.) Una variable es continua, cuando puede tomar infinitos valores intermedios dentro de dos valores consecutivos. Por ejemplo, la estatura, el peso, la temperatura.

12

Ejemplo: En el preescolar Blanca de Prez, ubicado en la urbanizacin Monseor Padilla de esta ciudad se procedi a recoger las medidas de talla y peso de los nios que a este asisten. Nio Peso Talla Jos 18,300 1,15 Julio 20,500 1,20 Pedro 19,000 1,10 Luis 18,750 1,18 .Las variables discretas sern aquellas que pueden tomar solo un nmero limitado de valores separados y no continuos; son aquellas que solo toman un determinado nmeros de valores, porque entre dos valores consecutivos no pueden tomar ningn otro; por ejemplo el nmero de estudiantes de una clase es una variable discreta ya que solo tomar los valores 1, 2, 3, 4... ntese que no encontramos valor como 1,5 estudiantes

1.5.2.

Medicin de Variables:

Medicin de una variable, se refiere a la calificacin o cuantificacin de una variable, lo que da lugar a la clasificacin de una variable segn su naturaleza o nivel en que se permita medirla. La medicin se lleva a cabo en el momento en que le asignamos un nmero a una variable cuantitativa o una categora a una variable cualitativa dependiendo de sus caractersticas. Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensin arterial sistlica, etctera). Una vez definidas las variables, adems de clasificarlas de tal forma que faciliten la observacin emprica, es necesario considerar el

13

tipo de medicin que debe realizarse, es decir, asignar valores a las variables incluidas en el estudio. Para ello utilizamos las llamadas escalas de medicin con el fin de diferenciar entre un elemento y otro, y concretar la escala de medida que aplicaremos a cada variable.

Medicin de Caracteres Medicin Existen diversas definiciones del termino "medicin", pero estas dependen de los diferentes puntos de vista que se puedan tener al abordar el problema de la cuantificacin y el proceso mismo de la construccin de una escala o instrumento de medicin. En general, se entiende por medicin la asignacin de nmeros a elementos u objetos para representar o cuantificar una propiedad. El problema bsico est dado por la asignacin un numeral que represente la magnitud de la caracterstica que queremos medir y que dicho nmeros pueden analizarse por manipulaciones de acuerdo a ciertas reglas. Por medio de la medicin, los atributos de nuestras percepciones se transforman en entidades conocidas y manejables llamadas "nmeros". Es evidente que el mundo resultara catico si no pudiramos medir nada. En este caso cabra preguntarse de que le servira la fsico saber que el hierro tiene una alta temperatura de fusin. Niveles o Escalas de mediciones Escala Nominal: La escala de medida nominal, puede considerarse la escala de nivel ms bajo, y consiste en la asignacin, puramente arbitraria de nmeros o smbolos a cada una de las diferentes categoras en las cuales podemos dividir el carcter que observamos, sin que puedan establecerse relaciones entre dichas categoras, a no ser el de que cada elemento pueda pertenecer a una y solo una de estas categoras. Se trata de agrupar objetos en clases, de modo que todos los que pertenezcan a la misma sean equivalentes respecto del atributo o propiedad en estudio, despus de lo cual se asignan nombres a tales clases, y el hecho de que a veces, en lugar de denominaciones, se le atribuyan nmeros, puede ser una de las razones por las cuales se le conoce como "medidas nominales". Por ejemplo, podemos estar interesados en clasificar los estudiantes de la UNESR Ncleo San Carlos de acuerdos a la carrera que cursan.

Carrera Educacin Administracin

Nmero asignada a la categora 1 2

14

Se ha de tener presente que los nmeros asignados a cada categora sirven nica y exclusivamente par identificar la categora y no poseen propiedades cuantitativas. Escala Ordinal: En caso de que puedan detectarse diversos grados de un atributo o propiedad de un objeto, la medida ordinal es la indicada, puesto que entonces puede recurrirse a la propiedad de "orden" de los nmeros asignndolo a los objetos en estudio de modo que, si la cifra asignada al objeto A es mayor que la de B, puede inferirse que A posee un mayor grado de atributo que B. La asignacin de nmeros a las distintas categoras no puede ser completamente arbitraria, debe hacerse atendiendo al orden existente entre stas. Los caracteres que posee una escala de medida ordinal permiten, por el hecho mismo de poder ordenar todas sus categoras, el clculo de las medidas estadsticas de posicin, como por ejemplo la mediana. Ejemplo: Al asignar un nmero a los pacientes de una consulta mdica, segn el orden de llegada, estamos llevando una escala ordinal, es decir que al primero en llegar ordinal, es decir que al primeo en llegar le asignamos el n 1, al siguiente el n 2 y as sucesivamente, de esta forma, cada nmero representar una categora en general, con un solo elemento y se puede establecer relaciones entre ellas, ya que los nmeros asignados guardan la misma relacin que el orden de llegada a la consulta. Escalas de intervalos iguales: la escala de intervalos iguales, est caracterizada por una unidad de medida comn y constante que asigna un nmero igual al nmero de unidades equivalentes a la de la magnitud que posea el elemento observado. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningn momento ausencia de la magnitud que estamos midiendo. Esta escala, adems de poseer las caractersticas de la escala ordinal, encontramos que la asignacin de los nmeros a los elemento es tan precisa que podemos determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. Sin lugar a dudas, podemos decir que la escala de intervalos es la primera escala verdaderamente cuantitativa y a los caracteres que posean esta escala de medida pueden calculrsele todas las medidas estadsticas a excepcin del coeficiente de variacin. Ejemplo: El lapso transcurrido entre 1998-1999 es igual al que transcurri entre 2000-2001. Escala de coeficientes o Razones: El nivel de medida ms elevado es el de cocientes o razones, y se diferencia de las escalas de intervalos iguales nicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los nmeros asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio. Adems, siendo que cero ya no es arbitrario, sino un valor absoluto, podemos decir que A. Tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B.

15

Ejemplo: En una encuesta realizada en un barrio de esta localidad se observ que hay familias que no tienen hijos, otras tienen 6 hijos que es exactamente el doble de hijos que aquellas que tienen 3 hijos.

Escalas de Medicin:
Una escala de medicin, es un instrumento de medida, a travs de la cual se asigna un nmero o un atributo a una caracterstica especfica de una unidad de observacin. Para realizar un correcto anlisis de los datos es fundamental conocer el tipo de medida de la variable, ya que para cada una de ellas se utiliza diferentes mtodos estadsticos. Segn Stevens considera la siguiente clasificacin de escalas de medida. Nominal Ordinal De intervalos De razn

A. Variables cualitativas: En el proceso de medicin de estas variables, se pueden


utilizar dos escalas:

Escala Nominal:
La escala nominal es la ms simple, consiste en clasificar a los valores de la variable, que son palabras o cdigos (nmeros), en clases o categoras que identifiquen grupos de pertenencia, de modo que todos los que pertenezcan a una misma categora sean equivalentes respecto al atributo o propiedad en estudio. Estas categoras no mantienen una relacin de orden entre s, solo son vlidas las relaciones de igualdad (=) y de no igualdad o diferencia (). La funcin del nmero en esta escala de medicin solamente sirve para distinguir diferentes categoras de respuesta y no poseen propiedades cuantitativas. Ejemplo: Podemos estar interesados en conocer el estado de salud de un paciente y la pregunta dentro de un cuestionario podra ser: Cul es el estado de salud del paciente? Las alternativas seran: Sano Enfermo A partir de la respuesta de los pacientes podremos determinar cuantos adoptan cada una de las dos alternativas. A las alternativas de respuesta se les da el nombre de categoras. Por lo tanto la variable Estado de Salud, tiene dos categoras. En este ejemplo se puede sustituir el nombre de la categora por un nmero asignado (cdigo), sin representar ninguna jerarquizacin. Sano: 1 Enfermo: 2.

16

Generalmente cuando se codifica, para identificar la presencia del atributo se usa 1 y su ausencia 0. Tienen modalidades que son de escala nominal, las variables: estado civil, religin, raza, ocupacin, lugar de procedencia, color de los ojos, profesin, presencia o ausencia de un factor de riesgo o enfermedad, entre otras. El mtodo estadstico apropiado para esta escala consiste en obtener frecuencias (el nmero o el porcentaje de casos en cada modalidad o categora), la moda, y los grficos empleados son el de sectores y el de barras.

Escala Ordinal:
Se usa en el caso de que puedan detectarse diversos grados del valor de una variable y que los datos recopilados a partir de ella, se pueden ordenar por categoras. En esta escala uno est en condiciones de distinguir entre diferentes categoras, tal como ocurre con las variables nominales y adems de poder afirmar si un individuo posee en mayor o menor grado el atributo que estamos midiendo, lo cual conlleva una idea de orden entre las distintas categoras, segn la intensidad o modalidad con que poseen determinadas caractersticas o atributos, pero se desconoce la magnitud de las diferencias entre los elementos. Son vlidas las relaciones de igualdad (=), de no igualdad () y de orden (<, , >, ). Tanto las variables ordinales como las nominales tienen categoras, que han de ser: mutuamente excluyentes y exhaustivas. Las categoras son mutuamente excluyentes cuando estn definidas sin ambigedad (Un individuo, pertenece nicamente a una categora). Las categoras son exhaustivas cuando permiten clasificar a todas las unidades que estamos investigando, inclusive se suele incluir una categora adicional otros, en la que se clasifican todos las unidades que no estn considerados en una categora especfica (cada unidad o individuo, debe pertenecer a una de las categoras). Las categoras estn clasificadas u ordenadas de acuerdo con la caracterstica que poseen.

Por ejemplo, si se est evaluando la eficiencia de las enfermeras en un centro de salud, a travs de una encuesta a los pacientes y se les pide que expresen su preferencia utilizando una escala del uno al diez, estamos evaluando en una escala ordinal, pues se puede suponer que hay un orden en los resultados, pero desconocemos la magnitud de las diferencias en las puntuaciones, pues no se puede saber si la diferencia entre un siete y un ocho es la misma que entre un seis y un cinco. Las variables con sus modalidades que pueden tratarse a este nivel son por ejemplo: Nivel socio econmico: Bajo, medio, alto. Nivel de estudios: primaria, secundaria, superior. Participacin poltica: amplia, regular, escasa. Pacientes con dolor: leve, moderado, severo. Grado de nutricin: excelente, bueno, regular, malo.

17

Adems las variables que se pueden medir con esta escala, pueden ser de tipo cuantitativo, donde las variables toman diferentes valores de tal manera que es posible ordenar estos valores en forma ascendente y descendente, pero no se puede saber si la diferencia entre dos valores es la misma o diferente a la diferencia entre otros dos valores, las variables establecen categoras jerarquizadas. Ejemplo: Variables Temperatura corporal Categoras Hipotermia Normal Febrcula Hipertermia. Superior Normal Inferior Hiperbrica Normal Hipobrica

Grado de inteligencia

Presin corporal:

Para determinar si una variable es nominal u ordinal bastara mirar si la ordenacin de sus categoras tiene algn sentido, cuando el orden de las categoras tiene relevancia decimos que estamos en presencia de una variable ordinal. El mtodo estadstico descriptivo, apropiado para esta escala, consiste en obtener frecuencias (el nmero o porcentaje de casos en cada modalidad), la moda, en algunos casos la mediana y los grficos ms favorables son el de sectores y el de barras. El coeficiente de correlacin por rangos, y todos los mtodos estadsticos no paramtricos.

B. Variables cuantitativas: A este tipo de variables pertenecen aquellas medidas


con escalas de medicin de intervalo y de razn.

Escala de Intervalo:
Una escala de intervalos tiene una unidad de medida comn y constante que adems de poseer las caractersticas de la escala ordinal, asigna nmeros a los elementos, es tan precisa que podemos determinar la magnitud de los intervalos (distancia) entre todos los elementos observados. En esta escala no solo se ordena las mediciones sino que se conoce la distancia entre dos mediciones cualesquiera, se puede comprobar cuantas veces est contenida una unidad de medida en la diferencia de dos modalidades cualesquiera. Las variables de intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicacin y la divisin no son realizables. Un ejemplo de este tipo de variables es la temperatura, la temperatura en algunas ciudades que tienen una temperatura superior a otra se puede hablar de diferencias numricas entre las temperaturas de dos ciudades, 15 y 17 grados centgrados de

18

temperatura hay 2 grados de diferencia; es decir en la segunda ciudad hay una temperatura mayor en 2 grados que en la primera ciudad. Adems la diferencia entre 20 y 22 grados centgrados es la misma que la diferencia entre 15 y 17 grados, esto significa que la diferencia entre los valores de la escala es constante. Lo que no podemos establecer es que una temperatura de 15 grados equivale a la mitad de una temperatura de 30 grados, esto se debe a que la temperatura no es lineal y por lo tanto el cero representa una temperatura. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningn momento ausencia de la magnitud que estamos midiendo, solo sirve como punto o valor de comparacin. As, un paciente puede llegar a tener ms de 38C de fiebre, pero ello no significa que su grado de temperatura alta ha tenido que partir de 0C, aqu el cero relativo sera 36C. De igual manera la temperatura ambiental no tiene un cero absoluto, ya que si hace cero grado de temperatura no implica el hecho de que no exista temperatura; cero grado significa que hace fro. Otro ejemplo sera en el rendimiento escolar, un alumno puede obtener calificacin de 17 en una materia, pero ello no nos lleva a pensar que necesariamente para llegar a esa calificacin ha tenido que obtener primero nota cero. Las variables que poseen esta escala de medida pueden calcularse todas las medidas de resumen a excepcin del coeficiente de variacin. Esta escala tiene las siguientes propiedades: Las categoras son mutuamente excluyentes y exhaustivas Las categoras estn clasificadas u ordenadas de acuerdo con la cantidad de la caracterstica que poseen. Diferencias iguales en la caracterstica estn representadas por diferencias iguales en los nmeros asignados a las categoras.

Escala de Razn:
Es el nivel ms alto de medicin, este tipo de escala posee las mismas caractersticas de la escala de intervalo con la diferencia que cuentan con un cero absoluto (un punto cero propio como origen); es decir, el valor cero representa la ausencia total de medida, por lo que se puede realizar cualquier operacin Aritmtica (Suma, Resta, Multiplicacin y Divisin) y lgica (Comparacin y ordenamiento). Ejemplo: Una persona de 20 aos de edad, para llegar a esa edad, necesariamente ha tenido que partir de cero aos. El valor cero de esta escala significa ausencia de la magnitud que estamos midiendo, lo cual permite determinar la proporcin entre dos valores de la escala. Las distancias entre dos puntos son siempre igual en relacin a una caracterstica, con cuyos valores podemos comprobar cuantas veces un valor de la escala es igual a otro valor de la escala. Esta escala se caracteriza porque puede determinarse la igualdad de razones, as como la igualdad de intervalos. A iguales diferencias entre los nmeros asignados corresponden iguales diferencias en el grado del atributo presente en el objeto de estudio. Los valores de esta escala se obtienen en general por mediciones tipo conteo (discreto) o por mediciones tales como de longitud, peso, volumen (continuos). El peso, la edad, talla, y nmero de pacientes son ejemplos de variables, medidas con escala de razn o proporcin en las que el

19

cero representa la nulidad o ausencia de la caracterstica que se est estudiando, por esta propiedad se puede decir que un peso de 20 kgs es el doble que uno de 10 kgs. Las propiedades de la escala de razn son: Las categoras de datos son mutuamente excluyentes y exhaustivas Las categoras estn clasificadas u ordenadas de acuerdo con la cantidad de la caracterstica que poseen. Diferencias iguales en la caracterstica estn representadas por diferencias iguales en los nmeros asignados a las categoras. El punto cero refleja la ausencia de esa caracterstica.

En esta escala permite usar la mayora de las medidas descriptivas, test y tratamientos estadsticos.

1.5.3. Clasificacin de Variables:


La clasificacin de las variables es la que permite asignar distintos valores ya sean cualidades o cantidades. Las variables pueden clasificarse:

1. Segn su naturaleza o nivel en que nos permitan medir los objetos . Las
variables pueden ser cualitativas o cuantitativas. Variable Cualitativa.- Es aquella caracterstica que no se puede medir numricamente, cuyos valores consisten en modalidades o categoras de clasificacin, que pueden ser atributos, calificativos o cualidades del objeto observado con los cuales no se pueden realizar operaciones aritmticas. La forma de expresar los atributos es mediante palabras, y no se presentan en la misma forma en todos los elementos. Estas distintas formas en que se presentan los atributos reciben el nombre de modalidades o categoras. Las variables cualitativas se clasifica en: nominales y ordinales. Una variable nominal, es aquella que se refiere a propiedades de los individuos en estudio que pueden ser: opiniones, nacionalidad, lugar de procedencia, grupos sanguneos, gnero, estado civil, ocupacin, etc., los clasifica en categoras, y se cuenta el nmero de observaciones pertenecientes a cada categora. No o es posible establecer un orden entre ellas ya que son excluyentes entre s. Ejemplo de variables nominales con sus modalidades: Estado Civil, puede adoptar las modalidades: soltero, casado, viudo, divorciado. Grupo sanguneo: A, B, O, AB. Gnero: Masculino, femenino. Diagnstico de un paciente: Sano, enfermo. Las variables nominales: gnero y diagnstico de un paciente son variables dicotmicas, porque tienen dos modalidades. Una variable ordinal, llamada tambin cuasi cuantitativa, es aquella que, aunque sus categoras o modalidades son de tipo nominal, es posible establecer un orden entre ellas.

20

(mayor que, menor que), segn el grado, la intensidad o modalidad con que poseen determinadas caractersticas o atributos. Por ejemplo: Nivel de dolor que sufre un paciente: leve, moderado, severo. Nivel de nutricin: hiper nutricin, nutricin normal, desnutricin. Nivel de ingresos econmicos: alto, medio, bajo. Grado de instruccin: primaria, secundaria, superior. Hbito de fumar: fumadores leves, fumadores severos. Variable Cuantitativa.- Es aquella caracterstica que puede expresarse numricamente. Se obtiene de un proceso de medicin o conteo, es decir sus valores son nmeros y con ellos se pueden realizar operaciones aritmticas. Se clasifica en: continuas y discontinuas o discretas. Una variable cuantitativa continua, es aquella que se obtiene de un proceso de medicin a travs de un instrumento y toma valores reales; es decir su valor puede ser un nmero entero o puede tomar infinitos valores intermedios dentro de dos valores consecutivos. Por ejemplo: la estatura de las personas, la unidad de medicin es el metro, este puede ser subdividido en centmetros y milmetros (1,654). As mismo el peso de una persona (que puede pesar 65,253 kg), la temperatura ambiental de 25,2C, el tiempo de 2 horas 50 minutos 10 segundos que emplea un mdico en realizar una operacin quirrgica, el tiempo de servicio en aos, meses y das de los empleados de una empresa. Una variable cuantitativa discontinua o discreta, es aquella que se obtiene de un proceso de conteo, slo puede tomar valores enteros, debido a que la unidad de medicin no puede ser fraccionada. Por ejemplo: nmero de admisiones diarias en un hospital, nmero de hijos por familia, nmeros de habitaciones por vivienda, nmero de accidentes de trabajo, nmero de latidos cardiacos que tiene un paciente en un minuto, nmero de partos, nmero de hermanos, nmero de habitantes de un distrito, etc.

2. Segn su posicin en una hiptesis o correlacin:


Las variables pueden clasificarse en independientes, dependientes e intervinientes. Variable Independiente.- Es la que explica, condiciona, es manejada por el investigador. Es la variable que antecede a una variable dependiente, la que se presenta como causa y condicin de la variable dependiente. Variable Dependiente.- Puede definirse como el elemento explicado o que est en funcin de otra variable. Se presenta como consecuencia de una variable antecedente. Es el efecto producido por la variable independiente. Variable Interviniente.- Es el elemento que puede estar presente en una relacin entre la variable independiente y la dependiente, influye pero en forma indirecta, no es sometida a investigacin.

21

CAPTULO 2 RECOLECCIN, ORGANIZACIN Y PRESENTACIN DE DATOS 2.1 RECOLECCIN DE DATOS: La primera operacin en la ejecucin de un proyecto es la recoleccin de datos, consiste en obtener los datos o respuestas a las variables consideradas a travs de instrumentos de recoleccin de datos. Las buenas decisiones se basan en un adecuado registro de datos, para lo cual se debe: A.- Establecer objetivos claros: Permite determinar qu tipo de datos se requiere. B.- Considerar la confiabilidad de los registros: Para ello se debe tener en cuenta la adecuada calibracin de los instrumentos de medicin. En esta etapa empieza la ejecucin de la investigacin, es decir; el investigador pone en marcha la etapa de planeamiento. A travs de la recoleccin, se obtiene los datos que se requieren para alcanzar los objetivos y demostrar la hiptesis de la investigacin. La obtencin de los datos se hace teniendo en cuenta lo siguiente: 2.1.1. Fuentes de Informacin: Cuando se recolectan datos es posible que estos ya hayan sido obtenidos de las unidades de observacin y publicados o registrados por otros, o que los datos tengan que obtenerse directamente de las unidades de observacin en forma personal. Segn sea el caso, las fuentes de informacin son de dos tipos: 1. Fuente Primaria: Si los datos se obtienen directamente de la misma persona o entidad, utilizando ciertas tcnicas. Son datos que no existan antes. Se registran bajo dos mtodos: directo e indirecto. El mtodo directo emplea las tcnicas: observacin y la experimentacin y el mtodo indirecto emplea las tcnicas: entrevista y la encuesta. Los

22

instrumentos de recoleccin de datos que se utilizan son: cuestionarios, test, hojas de registro. Ejemplos: Aplicar un test a un grupo de estudiantes para determinar el nivel intelectual. Llevar a cabo una encuesta para conocer la situacin socioeconmica de los pobladores de un distrito. Observar la reaccin de un grupo de pacientes con determinada enfermedad. 2. Fuente Secundaria: Si los datos a obtener ya han sido recopilados y elaborados por otras personas o instituciones. Este tipo de fuente la encontramos en publicaciones, trabajos realizados, en revistas especializadas, tesis, censos, en las hojas de registro anteriores, en las historias clnicas, en los informes estadsticos de las Instituciones Pblicas y Privadas. La tcnica ms utilizada es el fichaje. En el Per, el Instituto Nacional de Estadstica e Informtica, publica boletines estadsticos con respecto a la produccin, inversin, poblacin, migracin, salud, etc. Tambin hay otros organismos que disponen de publicaciones, tales como: Organizacin Mundial del Trabajo (OIT) Organizacin Mundial de la Salud (OMS) Organizacin Panamericana de la Salud (OPS)

En la prctica, cuando un investigador quiere obtener datos estadsticos con respecto a un estudio que desea efectuar, es aconsejable utilizar fuentes de datos primarias (recopilar los datos por s mismo) y en ltima instancia si estas no se disponen, usar de fuentes secundarias. Pero debemos tener presente que la calidad de las conclusiones estadsticas depende en sumo grado de la exactitud de los datos que se recopilan. De nada servira usar tcnicas estadsticas precisas para llegar a conclusiones valederas, si estas tcnicas no son aplicadas a datos confiables.

Fuentes de datos Estadsticos: Los datos estadsticos necesarios para la comprensin de los hechos pueden obtenerse a travs de fuentes primarias y fuentes secundarias. Fuentes de datos primarias: es la persona o institucin que ha recolectado directamente los datos. Fuentes secundarias: son las publicaciones y trabajos hechos por personas o entidades que no han recolectado directamente la informacin. Las fuentes primarias ms confiables, son las efectuadas por oficinas gubernamentales encargadas de tal fin. En la prctica, es aconsejable utilizar fuentes de datos primarias y en ltima instancia cuando estas no existan, usar estadsticas de fuentes secundarias. Con este ltimo tipo no debemos pasar por alto que la calidad de las conclusiones estadsticas dependen en grado sumo de la exactitud de los datos que se recaben. De anda servira usar tcnicas estadsticas precisas y refinadas para llegar a conclusiones valederas, si estas tcnicas no son aplicadas a datos adecuados o confiables.

23

Cuando un investigador quiere obtener datos estadsticos relativo a un estudio que desea efectuar, puede elegir entre una fuente primaria o en su defecto, una secundaria. O recopilar los datos por s mismo. La posibilidad mencionada en ltimo termino podr deberse bien a la inexistencia de los datos o bien a que esto no se encuentran discriminados en la forma requerida. Ejemplo: Si un investigador quiere conocer el nmero de alumnos repitientes en educacin media, clasificados por ciclos, para los ltimos diez aos, el investigador puede usar una fuente primaria, tal como la memoria y cuenta el Ministerio de Educacin cada ao.

2.1.2.- Sistemas de recoleccin de datos: Los datos pueden ser recolectados a travs de Instrumentos, mtodos y tcnicas de recoleccin de datos. Instrumentos de Recoleccin de Datos: Ficha de Registros: Mediante los registros se anotan los datos en forma regular, permanente y obligatoria, obteniendo la informacin total y sistemtica de los hechos ocurridos. Ejemplos: Registro de evaluacin docente, registro de contribuyentes, registro electoral, registro civil, etc. Cuestionarios: Consiste en un conjunto de preguntas diseadas de acuerdo a la necesidad de informacin. Junto con las hojas de registro, es el instrumento ms comn para la recopilacin de datos de fuentes primarias.

Cuestionarios: Cualquiera que sea el mtodo por el que se decida el investigador para recabar informacin, es necesario elaborar un estudio de preguntas. Los cuestionarios en general, constan de las siguientes partes: a. La identificacin del cuestionario: nombre del patrocinante de la encuesta, (oficial o privada), nombre de la encuesta, nmero del cuestionario, nombre del encuestador, lugar y fecha de la entrevista. b. Datos de identificacin y de carcter social del encuestado: apellidos, nombres, cdula de identidad, nacionalidad, sexo, edad o fecha de nacimiento, estado civil, grado de instruccin, ocupacin actual, ingresos, etc. c. Datos propios de la investigacin, son los datos que interesa conocer para construir el propsito de la investigacin. Como es natural, estas partes, as como las preguntas, varan de acuerdo a la finalidad de la encuesta. En algunos tipos de investigacin, la parte referente a los datos personales es eliminada por no tener ningn tipo de inters para el estudio.

24

Consideraciones que debemos tomar en cuenta: El cuestionario debe ser conciso; tratar en los posible de que con el menor nmero de preguntas, se obtenga la mejor informacin. Claridad de la redaccin; evitar preguntas ambiguas o que sugieran respuestas incorrectas, por lo que deben estar formuladas las preguntas de la forma ms sencilla. Discrecin: un cuestionario hecho a conciencia, no debe tener preguntas indiscretas o curiosas, sobre datos personales que puedan ofender al entrevistado. Facilidad de contestacin: se deben evitar, en lo posible, las preguntas de respuestas libres o abiertas y tambin la formulacin de preguntas que requieran clculos numricos por parte del entrevistado. Orden de las preguntas: estas deben tener una secuencia y un orden lgico, agruparlas procurando que se relacionen unas con otras.

Los cuestionarios en general, constan de las siguientes partes: d. La identificacin del cuestionario: nombre del patrocinante de la encuesta, (oficial o privada), nombre de la encuesta, nmero del cuestionario, nombre del encuestador, lugar y fecha de la entrevista. e. Datos de identificacin y de carcter social del encuestado: apellidos, nombres, documento de identidad, nacionalidad, gnero, edad o fecha de nacimiento, estado civil, grado de instruccin, ocupacin actual, ingresos econmicos, etc. f. Datos propios de la investigacin , son los datos que interesa conocer para cumplir con el objetivo de la investigacin. Como es natural, estas partes, as como las preguntas, varan de acuerdo a la finalidad de la encuesta. En algunos casos, la parte referente a los datos personales es eliminada por no tener ningn tipo de inters para el estudio. Consideraciones que debemos tomar en cuenta: El cuestionario debe ser conciso: tratar en lo posible de que con el menor nmero de preguntas, se obtenga la mayor informacin. Claridad de la redaccin, evitar preguntas ambiguas o que sugieran respuestas incorrectas, por lo que deben estar formuladas de la forma ms sencilla. Discrecin: un cuestionario hecho a conciencia no debe tener preguntas indiscretas o curiosas, sobre datos personales que puedan ofender al entrevistado. Facilidad de contestacin: se deben evitar, en lo posible, las preguntas de respuestas libres o abiertas y tambin la formulacin de preguntas que requieran clculos numricos por parte del entrevistado. Orden de las preguntas: estas deben tener una secuencia y un orden lgico, agruparlas procurando que se relacionen unas con otras.

Test: Mtodos y Tcnicas de Recoleccin de Datos:

25

Al recopilar datos estadsticos, se ha de tener especial cuidado para garantizar que la informacin sea correcta. Existen muchos procedimientos para la recoleccin de datos, entre los cuales el investigador debe elegir el que se adapte mejor a las circunstancias o al tipo de investigacin. Mtodos Directos: El responsable registra personalmente los valores de la caracterstica que se ha medido. Por ejemplo el registro del tiempo que demora un mdico durante una consulta. Los mtodos directos comprende dos tcnicas: La observacin y la experimentacin. La observacin: Es aquella donde se tiene un contacto directo con las unidades elementales en las cuales se va a realizar la observacin, se registra el dato bajo condiciones normales y los resultados obtenidos se consideran datos estadsticos originales. Cuando se mide el desempeo, la persona observada no debe saber que es sujeta de observacin. Por ejemplo la observacin del desempeo de una enfermera durante sus labores en el servicio de emergencia. Como instrumento, se utiliza una hoja de registro.
o Observacin directa: es aquella donde se tienen un contacto directo con los elementos o caracteres en los cuales se presenta el fenmeno que se pretende investigar, y los resultados obtenidos se consideran datos estadsticos originales. Para Ernesto Rivas Gonzlez (1997) "Investigacin directa, es aquella en que el investigador observa directamente los casos o individuos en los cuales se produce el fenmeno, entrando en contacto con ellos; sus resultados se consideran datos estadsticos originales, por esto se llama tambin a esta investigacin primaria". Ejemplo; el seguimiento de la poblacin agrcola por ao, llevado en una determinada granja. o Observacin Indirecta: es aquella donde la persona que investiga hace uso de datos estadsticos ya conocidos en una investigacin anterior, o de datos observados por un tercero (persona o entidad). Con el fin de deducir otros hechos o fenmenos. Ejemplo; si un investigador pretende estudiar la produccin por aos de una granja avcola, en sus ltimos cinco aos de produccin, tendra que hacer un seguimiento, a tal fin recurrira a las observaciones que posee la oficina administrativa de la granja durante estos cinco aos, o dirigirse a la oficina de estadstica, llevada en el ministerio de produccin y comercio (M.P.C) de la localidad donde est registrada dicha granja. Es de notar que el investigador se vale de observaciones realizadas por terceros. 1. Atendiendo a la periodicidad, puede ser continua, peridica o circunstancial. o Una observacin continua; como su nombre lo indica es aquella que se lleva acabo de un modo permanente. Ejemplo: la contabilidad comercial, llevada en cuanto a compras, ventas y otras operaciones que se van registrando a medida que van producindose.

26

Una observacin peridica; es aqulla que se lleva a cabo a travs de perodos de tiempo constantes. Estos perodos de tiempos pueden ser semanas, trimestres, semestres, aos, etc. Lo que debemos destacar es que los perodos de tiempo tomados como unidad deben tomarse constantes en los posible. Ejemplo; el registro llevado por la Oficinas de Control de Estudios de la UNESR, en cuanto a la inscripcin de los estudiantes por semestre.

La observacin circunstancial, es aquella que se efecta en forma ocasional o espordica, esta observacin hecha ms por una necesidad momentnea, que de carcter regular o permanente. Ejemplo; la obtencin de nmeros de aulas utilizadas y no utilizadas en los colegios pertenecientes al municipio San Carlos del Estado Cojedes. 1. Atendiendo a la cobertura; pueden ser exhaustiva, parcial o mixta

o o o

Observacin Exhaustiva. Cuando la observacin es efectuada sobre la totalidad de los elementos de la poblacin se habla de una observacin exhaustiva. Observacin Parcial. Dados que las poblaciones en general son grandes, la observacin de todos sus elementos se ve imposibilitada. La solucin para superar este inconveniente es observar una parte de esta poblacin. Observacin Mixta. En este tipo de observacin se combinan adecuadamente la observacin exhaustiva con la observacin parcial. Por lo general, este tipo de observaciones se lleva a cabo de tal manera que los caracteres que se consideran bsicos se observan exhaustivamente y los otros mediante una muestra; o bien cuando la poblacin es muy grande, parte de ella se observa parcialmente.

La experimentacin: Se registra un dato bajo condiciones controladas, manipulando la variable que se desea investigar. Ejemplo: Un mercado prueba para introducir una nueva marca de bebida gaseosa. Como instrumento, se utiliza un cuestionario. Mtodos Indirectos: Se registra la caracterstica a travs de preguntas, no se realiza medicin. Por ejemplo, se pregunta a un paciente el tiempo que esper antes que sea atendido en el consultorio externo. Los mtodos indirectos comprende dos tcnicas: La encuesta y la entrevista. La encuesta: Es la tcnica mediante la cual se quiere averiguar algo. Utiliza el cuestionario verbal o escrito de preguntas abiertas o cerradas que es aplicado a una muestra. Por ejemplo: Se realiza una encuesta para conocer el grado de satisfaccin de los asegurados en una clnica particular. El diseo de encuestas es exclusivo de las ciencias sociales, pero si queremos conocer algo sobre el comportamiento de las personas, se debe disear de la siguiente manera:

27

Elegir los temas generales de la encuesta Decidir forma de aplicarlo: correo, telfono o personal Plantear preguntas Realizar una prueba piloto y hacer revisiones finales.

Encuesta: Se entiende por encuesta las observaciones realizadas por muestreo, es decir son observaciones parciales. El diseo de encuestas es exclusivo de las ciencias sociales y parte de la premisa de que si queremos conocer algo sobre el comportamiento de las personas, lo mejor, ms directo y simple es preguntrselo directamente a ellas. (Cadenas, 1974). Segn Antonio Napolitano "La encuesta, es un mtodo mediante el cual se quiere averiguar. Se efecta a travs de cuestionarios verbales o escritos que son aplicados a un gran nmero de personas".

La entrevista personal: los datos estadsticos necesarios para una investigacin, se renen frecuentemente mediante un proceso que consiste en enviar un entrevistador o agente, directamente a la persona investigada. El investigador efectuar a esta persona una serie de preguntas previamente escritas en un cuestionario o boleta, donde anotar las respuestas correspondientes. Este procedimiento que se conoce con el nombre de entrevista personal, permite obtener una informacin ms veraz y completa que la que proporcionan otros mtodos, debido a que al tener contacto directo con la persona entrevistada, el entrevistador podr aclarar cualquier duda que se presente sobre el cuestionario o investigacin. Otra ventaja es la posibilidad que tienen los entrevistadores de adaptar el lenguaje de las preguntas al nivel intelectual de las personas entrevistadas. Una de las desventajas de este mtodo se debe a que si el entrevistador no obra de buena f o no tiene un entrenamiento adecuado, puede alterar las respuestas por las personas entrevistadas. Otra desventaja es su alto costo, ya que resulta bastante oneroso el entrenamiento de los agentes o entrenadores y los supervisores de estos, sobre todo si se trata de una investigacin extensa. Cuestionarios por correo: consiste en enviar por correo el cuestionario acompaado por el instructivo necesario, dando en este no solo las instrucciones pertinentes para cada una de las preguntas, sino tambin una breve explicacin del objeto de la encuesta con el fin de evitar interpretaciones errneas. Una de las ventajas es que tienen un costo muy inferior al anterior procedimiento, puesto que no hay que incluir gastos de entrenamiento de personal, el nico gasto sera el de franqueo postal. Dentro de las desventajas de este procedimiento podemos sealar que solo un porcentaje bastante bajo de estos es devuelto, en algunos casos no estamos seguros de que los formularios hayan sido recibidos por sus destinatarios y que hayan sido respondido por ellos mismos. Lo que trae como

28

consecuencia que la informacin se obtenga con una serie de errores difciles de precisar por el investigador. Entrevista por telfono: como lo indica su nombre, este mtodo consiste en telefonear a la persona a entrevistar y hacerle una serie de preguntas. Este mtodo es bastante simple y econmico, ya que el entrenamiento y supervisin de las personas encargadas de efectuar las preguntas es siempre fcil. Entre las limitaciones que presenta este mtodo podemos sealar el nmero de preguntas que pueden formularse es relativamente limitado; adems las investigaciones efectuadas por este mtodo tienen un carcter selectivo, debido a que muchas de las personas que potencialmente podran ser investigadas no posee servicio telefnico, por lo que quedan sin la posibilidad de ser entrevistados.

La entrevista: La entrevista puede ser estructurada o no estructurada. Permite recolectar datos a partir de un dialogo del entrevistado con el investigador, este ltimo efectuar a la persona entrevistada una serie de preguntas previamente escritas en un cuestionario o formato donde anotar las respuestas correspondientes. Este procedimiento se conoce con el nombre de entrevista personal, permite obtener una informacin ms veraz y completa que la que proporcionan otras tcnicas, debido a que al tener contacto directo con la persona entrevistada, el entrevistador podr aclarar cualquier duda que se presente sobre el cuestionario. Otra ventaja es la posibilidad que tienen los entrevistadores de adaptar el lenguaje de las preguntas al nivel intelectual de las personas entrevistadas. Una de las desventajas de este mtodo se debe a que si el entrevistador no tiene un entrenamiento adecuado, puede alterar las respuestas de las personas entrevistadas. Otra desventaja es su alto costo, que ocasiona el entrenamiento de los entrevistadores y los supervisores de estos, sobre todo si se trata de una investigacin amplia. Entrevista por telfono: como lo indica su nombre, esta tcnica consiste en telefonear a la persona a entrevistar y hacerle una serie de preguntas. Este mtodo es bastante simple y econmico, ya que el entrenamiento y supervisin de las personas encargadas de efectuar las preguntas es ms sencillo. Entre las limitaciones que presenta este mtodo es el nmero limitado de preguntas que pueden formularse, adems las investigaciones efectuadas por este mtodo tienen un carcter selectivo, debido a que muchas de las personas que potencialmente podran ser investigadas no cuentan con servicio telefnico, por lo que quedan sin la posibilidad de ser entrevistadas. Con el propsito de asegurar la validez y la confiabilidad del estudio es conveniente determinar las actividades que se realizarn para supervisar y coordinar el proceso de recoleccin de datos, tales como: Bsqueda de los sujetos de estudio, referentes a las unidades elementales de una muestra. Preparacin de las personas que van a recolectar datos.

29

Revisin de los instrumentos de recoleccin de datos. En general, sta es la parte que ms tiempo consume en toda investigacin que sea realizada.

2.2. - ORGANIZACIN DE DATOS Despus de la recoleccin de datos, para poder obtener una informacin con propsitos de descripcin o anlisis, estos deben organizarse, es decir se debe realizar una evaluacin crtica, correccin y ajuste de datos, luego se proceder a la clasificacin. Entonces para ello es necesario cumplir dos actividades:

2.2.1. Revisin o crtica de datos:


Determinar si se han recibido todos los formularios o por lo menos una proporcin considerable, para no invalidar las conclusiones que podramos hacer ms adelante Verificar que estn registradas todas las respuestas requeridas. Localizar posibles incongruencias en la informacin proporcionada.

La revisin de datos constituye el llamado control de calidad de la informacin. Entre las posibles causas de envo incompleto de instrumentos de recoleccin de datos, tenemos: Formularios o cuestionarios muy extensos. Ausencia de instrucciones claras. Bajo nivel educativo del informante Dotacin insuficiente o inoportuna de los formularios o cuestionarios.

Si no se han registrado todas las respuestas requeridas puede deberse a: Formularios o cuestionarios mal diseados Negligencia del entrevistador por falta de adiestramiento. El informante se niega a contestar las preguntas.

Las incongruencias provienen de respuestas, cuyos valores quedan fuera de lo posible o probable. Por ejemplo, si se indica que una persona es menor de edad y luego aparece su grado de instruccin como educacin superior, entonces es evidente que existe incongruencia. Hay que tener muy en cuenta que la calidad de las conclusiones depende de la correccin y precisin de los datos.

2.2.2.

Clasificacin de datos:

30

Una vez revisados y corregidos los datos recopilados, estos llegan al investigador en formularios totalmente desordenados, lo cual es improbable que proporcionen alguna informacin, siendo difcil su interpretacin y anlisis hasta que se hayan ordenado. Por lo que es conveniente ordenar dichos datos de acuerdo a algn sistema de clasificacin para la agrupacin en tablas de frecuencias y facilitar sus anlisis. Si el nmero de observaciones no es demasiado grande, un primer paso es la preparacin de un arreglo ordenado. Un arreglo ordenado es una lista de los valores de una coleccin (ya sea poblacin o muestra) en orden de magnitud desde el valor ms pequeo hasta el valor ms grande. Tabulacin: Es el procedimiento mediante el cual se realiza el conteo, para as determinar el nmero de veces que se repite cada uno de los distintos valores o categoras de las variables. Si el tamao de la muestra es relativamente grande, los datos se van a tabular en forma electrnica, simultneamente una o ms variables, a travs de paquetes estadsticos en una computadora. Si el tamao de muestra es pequeo con pocas observaciones o no dispone de una computadora, se tabula a mano. Mediante este proceso, cada frecuencia o repeticin de los diversos valores de la variable se usa una rayita vertical ( )que se va agrupando cada cinco casos como ( |||| ). Los resultados recogidos en la muestra se resumen en una matriz de datos N x M, en la cual N es el nmero de unidades de anlisis utilizadas (nmero de casos) y M es el nmero de variables de dichas unidades. En el ejemplo 4) vemos que la matriz de datos sera de 80 x 3. Ejemplo 4: Los siguientes datos representan niveles de colesterol de 80 pacientes, entre varones y mujeres de 20 a 59 aos, aparentemente sanos, que acudieron al Hospital Carlos Alcntara, EsSalud La Molina, durante los meses de junio a agosto de 2009. Los datos de esta variable han sido ordenados previamente.

N de casos

edad

sexo

nivel de colesterol

N de casos

edad

sexo

nivel de colesterol

1 2 3 4 5 6 7 8 9 10 11 12 13 14

20 22 21 26 21 23 23 20 25 30 21 23 23 26

H M H M H H M H H M H M H M

121 141 155 156 156 156 156 156 159 160 161 169 170 178

41 42 43 44 45 46 47 48 49 50 51 52 53 54

27 40 39 41 28 30 38 44 39 44 45 41 46 46

M M M M H M H H M H M H H H

198 199 199 199 199 200 200 200 200 204 205 208 208 209

31

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

32 28 38 29 35 29 33 38 39 32 31 22 29 32 34 35 28 35 36 29 37 38 27 38 38 39

H M H M M M H M H M H M H M H H H M H M H M M M H M

178 178 179 179 180 180 181 182 182 183 187 188 188 190 193 194 195 195 196 196 196 197 197 197 197 198

55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80

39 49 48 51 48 49 50 49 49 50 50 50 51 51 51 53 53 54 55 55 55 56 56 57 58 59

M H M H H M H M H M H H H M H M H H M M M M M H H M

209 209 210 211 218 219 220 222 225 227 228 228 229 229 230 233 233 243 250 250 256 256 257 258 275 280

La clasificacin tiene por objeto colocar los datos en clases o categoras, pero teniendo en cuenta la escala de medicin de las variables, para ser presentados en tablas o cuadros, de tal manera que faciliten su comprensin y anlisis descriptivo de los mismos. 2.3. - PRESENTACIN Y ANLISIS DE DATOS La presentacin de datos se hace a travs de tablas o cuadros y de grficos estadsticos. Una presentacin clara es de vital importancia para la comprensin de los resultados y la interpretacin de los mismos. Para que la representacin de los resultados de un anlisis estadstico sea de un modo adecuado, se aconseja que la presentacin de datos numricos se haga por medio de tablas, en ocasiones un diagrama o un grfico pueden ayudarnos a representar nuestros datos de un modo ms eficiente. Para la presentacin de tablas o cuadros estadsticos es necesario tabular los datos de modo que se facilite su presentacin, en forma legible. El anlisis de datos de una encuesta tiene como objetivo la deteccin de variables relacionadas, para ello se utilizan entre otros los siguientes anlisis: Anlisis Descriptivo y el Anlisis Exploratorio de datos.
ANLISIS DESCRIPTIVO DE DATOS:

32

Cuando se dispone de datos de una poblacin o de una muestra, un primer paso consiste en presentar esos datos de manera que se pueda visualizar de una forma ms sistemtica y resumida. Para ello se utiliza el anlisis descriptivo, que ayudar a observar el comportamiento de la poblacin o de la muestra en estudio, a travs de cuadros y grficos estadsticos. El anlisis exploratorio de datos lo veremos ms adelante. Metodolgicamente es preferible distinguir las tablas en: tablas de frecuencias o de distribucin y en cuadros estadsticos o de anlisis.

Series o distribuciones estadsticas: Anteriormente hemos sealado que la estadstica, no se encarga del estudio de un hecho aislado, sino que tienen por objeto de los colectivos. Pues bien cuando se realiza una investigacin se obtiene una masa de datos que deben ser organizados para disponerlos en un orden, arreglo o secuencia lgica, con el fin de facilitar el anlisis de los mismos esta coleccin de datos numricos obtenidos de la observacin, que se clasifican y ordenan segn un determinado criterio, se denominan "series estadsticas", tambin conocidas como "distribucin estadstica". series de frecuencia; cuando realizamos un estudio de cada uno de los elementos que componen la poblacin o muestra bajo anlisis, observamos que en general, hay un nmero de veces en que aparece repetido un mismo valor de una variable, o bien repeticiones de la misma modalidad de un atributo. Este nmero de repeticiones de un resultado, recibe el nombre de frecuencia absoluta o simplemente frecuencia. El procedimiento mediante el cual se realiza el conteo, para as determinar el nmero de veces que cada dato se repite, recibe el nombre de tabulacin. Ejemplo: Consideremos las edades de 20 nios, pertenecientes al Preescolar Blanca de Prez, ubicado en la urbanizacin Monseor Padilla

5 6 3 4

6 3 4 3

5 4 6 6

4 5 5 4

3 4 3 6

Tabulando los datos tenemos nios distribuidos por edades:

33

Edad (variable) 3 4 5 6 Total =

N de nios (Frecuencia) 5 6 4 5 20

Al agrupar los resultados de las observaciones en trmino de las veces que stos se repiten, da lugar a las llamadas "series de frecuencias" o distribuciones de frecuencias; las cuales se dividen a su vez en series de frecuencia cualitativas y cuantitativas, segn que los caracteres de estudio se refieran a atributos o variables respectivamente. Series de frecuencias: es el resultado del agrupamiento de los valores que se repiten (frecuencia) al ser observada una variable. Ejemplo: Tomamos nuevamente los 35 estudiantes de la materia estadstica I, respecto a su edad.

Edad (en aos) 19 20 25 28 32 42

N de estudiantes (frecuencia) 12 2 8 6 4 3

34

Total =

35

Series de frecuencia cualitativas: son comnmente llamadas series de frecuencia de atributos o caracteres cualitativos y las formas de representar un atributo recibe el nombre de modalidades. Cuando se observan y se obtienen los elementos que deseamos estudiar con respecto a un carcter de tipo cualitativo y se procede a agruparlos segn las distintas modalidades que toma el atributo, "frecuencia cualitativa". Ejemplo: Agrupamos los resultados obtenidos al observar los 35 estudiantes de la materia estadstica I, respecto a su estado civil. Estudiantes de la materia Estadsticas I, clasificados por su estado civil.

Estado civil Solteros Casados Viudos Divorciados

N de Estudiantes (frecuencia) 18 12 1 4

1.

Presentaciones en tablas:

Primero definir que es una tabla para luego trabajar las diferentes clases de tablas pedidas: Una tabla es un cuadro que consiste en la disposicin conjunta, ordenada y normalmente totalizada, de las sumas o frecuencias totales obtenidos en la tabulacin de los datos, referentes a las categoras o dimensiones de una variable o de varias variables relacionadas entre s. Las tablas sistematizan los resultados cuantitativos y ofrecen una visin numrica, sinttica y global del fenmeno observado y de las relaciones entre sus diversas caractersticas o variables. En ella, culmina y se concreta definitivamente la fase clasificatoria de la investigacin cuantitativa. Teniendo la definicin de lo que es una tabla, podemos trabajar entonces cada uno de los tipos de tablas pedidos:

35

Tabla de entrada de datos: Es una tabla en la cual solo aparecen los datos que se obtuvieron de la investigacin cientfica o del experimento. Es la tabla ms sencilla y se utiliza cuando no se necesita mayor informacin acerca de los datos, estas tablas se construyen por medio de la tabulacin de los datos, este procedimiento es relativamente sencillo, para realizarlo nos ocupamos de un conjunto de datos estadsticos obtenidos al registrar los resultados de una serie de n repeticiones de algn experimento u observacin aleatoria, suponiendo que las repeticiones son mutuamente independientes y se realizan en condiciones uniformes, es importante decir que el resultado de cada observacin puede expresarse de forma numrica, para este tipo de tablas de entrada de datos se puede trabajar con una mas variables, de manera que nuestro material estadstico consiste en n valores observados de la variable Xj.

Los valores observados se suelen registrar, en primer lugar en una lista, si l numero de observaciones no excede de 20 30, estos datos se registran en orden creciente de magnitud. Con los datos de esta tabla pueden hacerse diversas representaciones grficas y calcularse determinadas caractersticas numricas como la media, la mediana,etc. EJ: Agrupar en una tabla de datos 10, 1, 6, 9, 2, 5, 7, 4, 3, 8
X 1 2 3 4 5 6 7 8 9 10

Tablas de frecuencias: Una tabla de frecuencia esta formada por las categoras o valores de una variable y sus frecuencias correspondientes. Esta tabla es lo mismo que una distribucin de frecuencias. Esta tabla se crea por medio de la tabulacin y agrupacin, la cual es un mtodo sencillo como lo habamos empezado a ver en la tabla de datos, Se realiza el mismo procedimiento de tabulacin anteriormente descrito si el numero de valores observados para la variable, se trabaja con una sola variable, descontando los repetidos son pequeos, si existen repetidos la frecuencia f es el numero de repeticiones de un valor de X dado, Sin embargo, cuando el conjunto de datos es mayor, resulta laborioso trabajar directamente con los valores individuales observados y entonces se lleva a cabo, por lo general, algn tipo de agrupacin como paso preliminar, antes de iniciar cualquier otro tratamiento de los datos. Las reglas para proceder a la agrupacin son diferentes segn sea la variable, discreta o continua, para una variable discreta suele resultar conveniente hacer una tabla en cuya primera columna figuren todos los valores de la variable X representados en el material, y en la segunda, la frecuencia f con que ha aparecido cada valor de X en las observaciones.

Para una variable continua, el procedimiento de agrupacin es algo ms complicado. Se toma un intervalo adecuado sobre el eje de la variable que contenga los n valores observados, y divdase el intervalo en cierto numero de intervalos de clase. Todas las observaciones que pertenecen al mismo intervalo de clase se agrupan y cuentan, y l numero que resulte representa la frecuencia de clase correspondiente a dicho intervalo, luego se forma una tabla, en cuya primera columna figuran los limites de cada intervalo de clase, y en la segunda aparecen las correspondientes frecuencias. Estas clases de tablas son las mas usadas y brindan mayor informacin de los datos que las tablas de entradas de datos, efectivamente, una tabla de este tipo dar en forma abreviada, una

36

informacin completa acerca de la distribucin de los valores observados. Con estas se pueden utilizar mas a fondo los mtodos grficos al igual que los mtodos aritmticos. Ej: Agrupar en una tabla 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 5
X 1 2 3 4 5 F 2 4 3 1 1 S 11

Agrupar en una tabla las siguientes estaturas: 160, 168, 175, 183, 170, 164, 170, 184, 171, 168, 187, 161, 183, 175, 185, 186, 187, 164, 165, 175, 162, 188, 169, 163, 166, 172, 173, 167, 174, 176, 178, 179, 177
X 160-165 265-270 170-175 175-180 180-185 185-190 F 6 6 6 7 3 5 S 33

Tablas de doble entrada: Tambin llamadas tablas de contingencias, son aquellas tablas de datos referentes a dos variables, formada, en las cabeceras de las filas, por las categoras o valores de una variable y en las de las columnas por los de la otra, y en las casillas de la tabla, por las frecuencias o numero de elementos que renen a la vez las dos categoras o valores de las dos variables que se cruzan en cada casilla. Para la tabulacin de un material agrupado de observaciones simultaneas de dos variables aleatorias necesitaremos una tabla

37

descrita como anteriormente lo describimos, las reglas para agrupar son las mismas que en el caso de una sola variable. Este tipo de tablas brindan informacin estadstica de dos eventos relacionados entre s, es til en casos en los cuales los experimentos son dependientes de otro experimento, mas adelante aparecen mas aplicaciones del anlisis estadstico bivariable. Ej:
T1/T2 S NO S 12 10 NO 2 4

1. 2.

Mtodos grficos:

Primero definir lo que es un grfico o diagrama en estadstica Un diagrama es una especie de esquemtico, formado por lneas, figuras, mapas, utilizado para representar, bien datos estadsticos a escala o segn una cierta proporcin, o bien los elementos de un sistema, las etapas de un proceso y las divisiones o subdivisiones de una clasificacin. Entre las funciones que cumplen los diagramas se pueden sealar las siguientes:

Hacen ms visibles los datos, sistemas y procesos Ponen de manifiesto sus variaciones y su evolucin histrica o espacial. Pueden evidenciar las relaciones entre los diversos elementos de un sistema o de un proceso y representar la correlacin entre dos o ms variables. Sistematizan y sintetizan los datos, sistemas y procesos. Aclaran y complementan las tablas y las exposiciones tericas o cuantitativas. El estudio de su disposicin y de las relaciones que muestran pueden sugerir hiptesis nuevas.

Algunos de los diagramas ms importantes son el diagrama en rbol, diagrama de reas o superficies, diagrama de bandas, diagrama de barras, diagrama de bloques, diagrama circular, diagrama circular polar, diagrama de puntos, diagrama de tallo y hoja diagrama, histogramas y grficos de caja y bigote o boxplots. 2.1 Grficos univariados: Para trabajar los grficos univariables debemos primero saber lo que es el anlisis estadstico univariable y despus de esto trabajaremos los mtodos pedidos El anlisis estadstico que opera con datos referentes a una sola variable o distribucin de frecuencias y pretende determinar sus propiedades estadsticas. El a.e.u. proporciona al analista medidas representativas de la distribucin o promedios, ndices de dispersin de los datos de la distribucin, procedimientos para normalizar los datos, medidas de desigualdad de unos datos en relacin con otros y por ultimo medidas de la asimetra de la distribucin.

38

Grficos de puntos: Es una variacin del diagrama lineal simple el cual esta formado por lneas rectas o curvas, que resultan de la representacin, en un eje de coordenadas, de distribuciones de frecuencias, este construye colocando en el eje x los valores correspondientes a la variable y en el eje de las ordenadas el valor correspondiente a la frecuencia para este valor. Proporciona principalmente informacin con respecto a las frecuencias. Este se usa cuando solo se necesita informacin sobre la frecuencia.

Cuando la muestra se agrupa por intervalos se trabaja con la marca de clase del intervalo de clase, la marca de clase es el punto medio del intervalo EJ: Duracin de tubos de nen
X(horas) 300-400 400-500 500-600 600-700 700-800 Xm 350 450 550 650 750 F 2 6 10 8 4 S 30

Grficos de tallo y hoja: es una forma rpida de obtener una representacin visual ilustrativa del conjunto de datos, para construir un diagrama de tallo y hoja primero se debe seleccionar uno ms dgitos iniciales para los valores de tallo, el dgito o dgitos finales se convierten en hojas, luego se hace una lista de valores de tallo en una columna vertical.

39

Prosiguiendo a registrar la hoja por cada observacin junto al valor correspondiente de tallo, finalmente se indica las unidades de tallos y hojas en algn lugar del diagrama, este se usa para listas grandes y es un mtodo resumido de mostrar los datos, posee la desventaja que no proporciona sino los datos, y no aparece por ningn lado informacin sobre frecuencias y dems datos importantes. Ej: realice un diagrama de tallo y hoja para los siguientes datos de distancias en yardas de una cancha de golf 6435 6464 6433 6470 6526 6527 6506 6583 6605 6694 6614 6790 6770 6700 6798 6770 6745 6713 6890 6870 6873 6850 6900 6927 6936 6904 7051 7005 7011 7040 7050 7022 7131 7169 7168 7105 7113 7165 7280 7209

Diagramas de barras: nombre que recibe el diagrama utilizado para representar grficamente distribuciones discretas de frecuencias no agrupadas. Se llama as porque las frecuencias de cada categora de la distribucin se hacen figurar por trazos o columnas de longitud proporcional, separados unos de otros. Existen tres principales clases de grficos de barras: Barra simple: se emplean para graficar hechos nicos Barras mltiples: es muy recomendable para comprar una serie estadstica con otra, para ello emplea barras simples se distinto color o tramado en un mismo plano cartesiano, una al lado de la otra Barras compuestas: en este mtodo de graficacion las barras de la segunda serie se colocan encima de las barras de la primera serie en forma respectiva.

El diagrama de barras proporciona informacin comparativa principalmente y este es su uso principal, este diagrama tambin muestra la informacin referente a las frecuencias Ej:
CIUDAD A B C TEMPERATURA 12 18 24

40

TIENDA A B

Enero Febrero Marzo 800 700 600 500 700 600

abril 900 1000

mayo 1100 900

Junio 1000 1200

Histogramas: Se emplea para ilustrar muestras agrupadas en intervalos. Esta formado por rectngulos unidos a otros, cuyos vrtices de la base coinciden con los limites de los intervalos y el

41

centro de cada intervalo es la marca de clase, que representamos en el eje de las abscisas. La altura de cada rectngulo es proporcional a la frecuencia del intervalo respectivo. Esta proporcionalidad se aplica por medio de la siguiente formula Altura del rectngulo = frecuencia relativa/longitud de base El histograma se usa para representar variables cuantitativas continuas que han sido agrupadas en intervalos de clase, la desventaja que presenta que no funciona para variables discretas, de lo contrario es una forma til y practica de mostrar los datos estadsticos. EJ:
X 118-126 126-134 134-142 142-150 150-158 158-166 166-174 174-182 Xm 122 130 138 146 154 162 170 178 F 2 3 8 12 7 5 2 1 S 40

Diagramas de caja o boxplots: los pasos para construirlo son los siguientes: dibujar y marcar un eje de medida horizontal construir un rectngulo cuyo borde izquierdo esta arriba del cuarto inferior y cuyo borde derecho esta arriba del cuarto superior dibujar un segmento de recta vertical dentro de la caja arriba de la mediana prolongar rectas desde cada extremo de la caja hasta las observaciones ms lejanas que estn todava a menos de 1.5fs de los bordes correspondientes dibujar un circulo abierto para identificar cada observacin que caiga entre 1.5fs y 3fs del borde al cual esta ms cercano estas se llaman puntos inusuales suaves dibujar un circulo de lnea llena para identificar cada observacin que caiga a mas de 3fs del borde ms cercano, estas se llaman puntos inusuales extremos

donde fs= cuarto superior cuarto inferior

42

este diagrama se usa cuando se necesita la mayor informacin acerca de la distribucin de los datos, la ventaja que posee con respecto a los dems diagramas es que este grfico posee caractersticas como centro y dispersin de los datos, y la principal desventaja que posee es que no presenta ninguna informacin acerca de las frecuencias que presentan los datos EJ: Para los siguientes datos realice un diagrama de caja: 2.68 3.06 4.31 4.71 5.71 5.99 6.06 7.04 7.17 7.46 7.50 8.27 8.42 8.73 8.84 9.14 9.19 9.21 9.39 11.28 15.19 21.06

Grficos de sectores: es un grfico que se basa en una proporcionalidad entre la frecuencia y el ngulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el ngulo central de 360. Para construir se aplica la siguiente formula:

X = frecuencia relativa * 360/S frecuencia relativa Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la variable son pocos, la ventaja que tiene este diagrama es que es fcil de hacer y es entendible fcilmente, la desventaja que posee es que cuando los valores de la variable son muchos es casi imposible o mejor dicho no informa mucho este diagrama y no es productivo, proporciona principalmente informacin acerca de las frecuencias de los datos de una manera entendible y sencilla. EJ: Representar mediante un grfico de sectores la frecuencia con que aparece cada una de las cinco vocales en el presente prrafo:
Vocal Frecuencia a 13 e 20 i 4 o 6 u 3 S 46

2.2 grficos bivariados: Para trabajar los diagramas de dispersin, primero debemos saber que es el anlisis estadstico bivariable y las ventajas que este tiene El anlisis estadstico bivariable es aquel anlisis que opera con datos referentes a dos variables y pretende descubrir y estudiar sus propiedades estadsticas. El anlisis estadstico bivariable se orienta fundamentalmente a la normalizacin de los valores o frecuencias ce los datos brutos, determina la existencia, direccin y grado de la variacin conjunta entre las dos variables, lo que se realiza mediante l calculo de los coeficientes de correlacin pertinentes, calcula la covarianza o producto de las desviaciones de las dos variables en relacin a sus medias respectivas y por ultimo

43

establece la naturaleza y forma de la asociacin entre las dos variables en el caso de las variables de intervalo.

Diagrama de dispersin: es un diagrama que representa grficamente, en un espacio de ordenadas, los puntos de dicho espacio que corresponden a los valores correlativos de una distribucin bivariante conjunta, estos diagramas deben usarse cuando tenemos un anlisis estadstico bivariable, sea una tabla de datos de doble entrada, la ventaja que tienen es que se puede graficar de una forma sencilla una distribucin bivariante conjunta y la desventaja principal es que no funciona si sucede que una dupla se repita

EJ:
X Y A 2 3 B 4 1 C 5 4 D 3 6 E 2 8

2.3.1. - Tablas de Frecuencias o de Distribucin:

44

Llamamos distribucin de frecuencias al conjunto de clases o modalidades junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadstica sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente:

Modalidad ci c1 ... cj ... ck

Frec. Abs. Frec. Rel. Frec. Abs. Acumu. Frec. Rel. Acumu. fi f1 ... fj ... fk n hi h1 ... hj ... hk 1 Fi F1 = f1 ... Hi H1 = h1 ...

F j = f 1 +.... + f j H j = h1 + .... + h j ... Fk = n ... Hk = 1

Estas tablas son de trabajo estadstico, presenta la distribucin de frecuencias de los datos que se ha recopilado sobre la variable que se estudia, observndose la frecuencia o repeticin de cada uno de los valores o categoras de la variable. Estas tablas pueden ser tanto para variables cualitativas como cuantitativas. Cuando en la distribucin de frecuencias interviene una sola variable, se dice que la distribucin es unidimensional o de clasificacin simple. Ejemplos: Segn estatura. Segn edad Segn nivel educativo Segn lugar de procedencia.

Cuando en la distribucin de frecuencias interviene dos variables, se dice que la distribucin es bidimensional o de clasificacin doble. Ejemplos: Por edad y tiempo de servicio. Por edad y nmero de controles pre natales. Por nivel educativo y grado de conocimientos.

Cuando en la distribucin de frecuencias interviene tres o ms variables, se dice que la distribucin es pluridimensional o de clasificacin mltiple. Ejemplos: Segn edad, talla y peso de los alumnos Segn edad, nivel educativo y nmero de controles pre natales.

FRECUENCIAS DE DATOS Y SUS PROPIEDADES:

45

Las frecuencias pueden ser: Frecuencia Absoluta Simple ( fi ), es el nmero de veces que se repiten los valores de la variable, indica el nmero de datos observados en cada categora, o el nmero de veces que se repiten los valores dentro de los diferentes intervalos en que se ha dividido la informacin. La suma de todas las frecuencias absolutas es igual a n, el total de datos observados. Para obtener la frecuencia absoluta simple de cada clase, se efecta la tabulacin o conteo mediante el sistema de palotes. Frecuencia Absoluta Acumulada (Fi), se obtienen sumando y acumulando sucesivamente las frecuencias absolutas simples de cada valor de la variable, categora o intervalo de clase en orden ascendente. F 1 = f1 F 2 = f 1 + f2 F3= f1 + f2 + f3 . . Fi= f1 + f2 + .........+.fi . . Fm= f1 + f2 + .........+.fm Frecuencia Relativa Simple (hi), es el valor que resulta al dividir cada uno de las frecuencias absolutas simples entre el total de los datos.
hi = fi n

Frecuencia Relativa Acumulada (Hi), que se obtiene de la acumulacin sucesiva de las frecuencias relativas simples de cada valor de la variable X, categora o intervalo de clase en orden ascendente. H 1 = h1 H 2 = h1 + h 2 H3 = h1 + h2 + h3 . Hi= h1 + h2 + .........+.hi . Hm= h1 + h2 + .........+.hm Frecuencia Relativa Simple Porcentual (hi%), es la frecuencia relativa simple multiplicada por 100%, se define para cada categora ( hi x 100%). La suma de todas las frecuencias relativas porcentuales es igual a cien por ciento. Frecuencia Relativa Acumulada Porcentual (Hi%), es la frecuencia relativa acumulada multiplicada por 100%, se define para cada categora ( Hi x 100%).

46

Propiedades de las frecuencias: 1. Las frecuencias absolutas simples son siempre cantidades enteras positivas, cero en algunos casos. 2. Las frecuencias relativas simples son siempre valores fraccionarios (nmeros decimales mayores o iguales que cero, pero menores o iguales que uno.) 0 hi 1 3. La suma de las frecuencias absolutas simples de todas las clases es igual al nmero total de datos. fi = f1 + f2 + .........+.fm = n 4. La suma de las frecuencias relativas simples de todas las clases es igual a uno hi = h1 + h2 + .........+.hm = 1 5. La frecuencia absoluta acumulada de la ltima clase es igual al nmero total de datos. Fm = n 6. La frecuencia relativa acumulada de la ltima clase es igual a uno. Hm = 1
CONSTRUCCIN DE TABLAS DE FRECUENCIA PARA VARIABLE CUALITATIVA :

Para elaborar y presentar datos que pertenezcan a variables cualitativas, es necesario conocer las formas de representar un atributo o cualidad, y luego se procede a agruparlos segn las distintas modalidades o categoras que toma el atributo, es decir se procede a la tabulacin correspondiente de n datos. Cuando la distribucin es unidimensional, el esquema de la tabla es de la siguiente manera: Frecuencias hi Hi hi % h1 h2 . . hm 1 H1 h1 % H2 h2 % . . . . Hm hm % 100

Variable Categora 1 Categora 2 . . Categora m TOTAL

fi f1 f2 . . fm n

Fi

Hi% H1% H2% . . Hm%

F1 F2 . . Fm

47

Donde: fi , Fi , hi , Hi, hi %, Hi% (i = (i = (i = (i = (i = (i = ) es la frecuencia absoluta simple. 1, m ) es la frecuencia absoluta acumulada. 1, m ) es la frecuencia relativa simple. 1, m ) es la frecuencia relativa acumulada. 1, m ) es la frecuencia relativa simple porcentual. 1, m ) es la frecuencia relativa acumulada porcentual.
1, m

La siguiente tabla 2.1 muestra la distribucin de frecuencias de la variable cualitativa Inflamacin Postoperatoria. Tabla 2.1.- Distribucin de frecuencias de 20 casos de inflamacin postoperatoria.
INFLAMACIN POSTOPERATORIA NINGUNA MARCADA EXTREMA

fi 10 7 3 20

hi 0,50 0,35 0,15 1.00

hi % 50 35 15 100

Hi 0,50 0,85 1,00

Hi% 50 85 100

CONSTRUCCIN DE TABLAS DE FRECUENCIA PARA VARIABLE CUANTITATIVA

Dependiendo del tamao de muestra, los datos de variable cuantitativa se trataran en forma agrupada o no. Si se tiene muchos datos diferentes es conveniente agruparlos en clases o intervalos, ya que su distribucin de frecuencias y grfica resultan muy complicadas. Sin embargo debe tomarse en cuenta que el agrupamiento siempre significa prdida de informacin y en consecuencia prdida de exactitud en las medidas obtenidas. Para datos originales o no agrupados de variable discreta: En el caso de variables cuantitativas discretas, las clases o modalidades sern los valores numricos; X1, X2, .., Xk que toma la variable. Para construir la tabla se sigue los siguientes pasos: 1) Se clasifica, se determina los distintos valores de la variable (X), se ubica el menor y mayor valor de X y se denomina Xmx y Xmn 2) Se tabula, determinando las frecuencias: fi, Fi, hi, Hi, hi %. Cuando la muestra es pequea se puede tabular manualmente usando rayas verticales ( )que se pueden agrupar cada cinco casos.

48

Si el tamao de muestra es relativamente grande los datos se tabulan usando la computadora. El esquema de la tabla para datos no agrupados es de la siguiente manera:
Variable (Valores) X1 X2 X3
.

F.absoluta Simple f1 f2 f3 fi Fk n

F.absoluta acumulada F1 F2 F3 Fi Fk

F.Relativa Simple h1 h2 h3 hi Hk 1

F.Relativa acumulada H1 H2 H3 Hi Hk

F.R.S.% h1% h2% h3% hi% Hk% 100

F.R.A.% H1% H2% H3% Hi% Hk%

Xi . Xk TOTAL

Siendo: Xi , (donde i =

1, k

) los distintos valores que puede tomar la variable X.

Ejemplo 5: En una muestra de 24 hospitales, determinar la distribucin de los hospitales segn el nmero de bebs nacidos en una determinada hora del da. La variable X es el nmero de bebs nacidos/hospital, cuyos valores son: 10 11 12 14 12 13 10 14 15 14 12 13 13 10 11 10 11 12 15 13 10 15 13 11

Ordenamos los datos: 10 10 10 10 Tabulamos: Nmero de bebs nacidos/hospital 10 11 12 13 14 15 Elaboramos la tabla de frecuencias: Nmero de hospitales 5 4 4 5 3 3 //// //// //// //// /// /// 10 11 11 11 11 12 12 12 12 13 13 13 13 13 14 14 14 15 15 15

49

Tabla 2.2.- Distribucin de hospitales segn el nmero de bebs nacidos en una determinada hora del da. N bebs nacidos/h 10 11 12 13 14 15 Frec. Absolutas fi Fi 5 5 4 9 4 13 5 18 3 21 3 24 Frec. Relativas hi Hi 0,2083 0,2083 0,1670 0.3753 0,1670 05423 0,2083 0,7506 0,1250 0,8756 0,1250 1 hi % 20,83 16,70 16,70 20,83 12,50 12,50 Hi % 20,83 37,53 54,23 75,06 87,56 100 %

De las observaciones obtenemos los siguientes resultados: En 5 hospitales nacen 10 13 bebs en una determinada hora del da. En 13 hospitales nacen a lo ms 12 bebs en una determinada hora del da. En el 12,5 % de hospitales nacen 14 o 15 bebs en una determinada hora del da. En el 75,06 % de hospitales nacen a lo ms 13 bebs en una determinada hora del da.

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendramos una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis. Si los datos provienen de variables cuantitativas dependiendo del tamao de la muestra se trataran en forma agrupada o no. Si se tienen muchos datos diferentes es conveniente agruparlos en clases o intervalos, ya que su distribucin de frecuencias y grficas resultan muy complicadas (Tabla 2.3). Tabla 2.3.- Distribucin de edades de 80 pacientess. (Datos del Ejemplo N4). Edad 20 21 22 23 25 26 27 28 29 30 31 32 33 N de sujetos 2 3 2 4 1 2 2 3 4 2 1 3 1

50

34 35 36 37 38 39 40 41 44 45 46 48 49 50 51 53 54 55 56 57 58 59

1 3 1 1 6 5 1 2 2 1 2 2 4 4 4 2 1 3 2 1 1 1

Para datos agrupados de variable discreta o continua: Consideremos una poblacin N de individuos descrita segn una variable ya sea discreta o continua, cuyas modalidades han sido agrupadas en un nmero k de clases que denotaremos mediante c1, c2, c3, .., ck. para cada una de las clases ci donde i = 1,,k. Si la variable es continua las clases o modalidades vendrn definidas mediante lo que denominamos intervalos. En este caso, las modalidades que contiene una clase son todos los valores numricos posibles contenidos en el intervalo. Considerando que la variable continua se trabaja con nmeros reales, se acostumbra presentar los datos utilizando intervalos de clase o cuando los datos de variable discreta son muy numerosos se hace necesario organizar en clases o intervalos. Para ello debemos seguir los siguientes pasos: 1. Clculo del rango o recorrido (R): Se define como el valor mximo menos el valor mnimo, ms una unidad de medida si los datos son enteros. R= Xmx - Xmn + 1 Si los datos estn expresados en dcimas se incrementar un dcimo (0.1). Silos datos estn expresados en centsimos se agregar un centsimo (0.01) y as sucesivamente. 2. Determinacin del nmero de intervalos (K):

51

Nmero de intervalos, es el nmero de clases o de categoras en el que se va a dividir la informacin. El nmero de clases se puede fijar arbitrariamente, dependiendo del nmero de datos que se tenga. Como regla general se recomienda que el nmero de clases est entre 5 y 20. Sin embargo existe una forma de determinar el nmero de clases con bastante aproximacin, la cual se le conoce como Regla de Sturges, siendo la frmula: K = 1 + 3.322. log n Donde n es el nmero de datos u observaciones.
K Se puede utilizar tambin la siguiente frmula: comprendido en el siguiente intervalo: 25 n 400. = n

donde

debe

estar

Un intervalo de clase se define de las formas siguientes: [ li-1, li ], [ li-1, li ) ( li-1, li ]. Donde: li-1: es el lmite inferior del intervalo de clase. (La tabla 2,4 tiene como lmites inferiores de clase 121, 141,.., 261.). li : es el lmite superior del intervalo de clase. (La tabla 2,4 tiene como lmites superiores de clase 140, 160,.., 280.). Lmite de clases reales o de fronteras: son nmeros usados para clasificar categoras. Son obtenidos de la siguiente manera: Adicionar 0,5 a cada lmite superior de clase para encontrar el lmite de clase real superior y restar 0,5 a cada lmite de clase inferior para encontrar el lmite de clase real inferior. (La tabla 2.4 tiene como lmites de clases reales: 120,5; 140,5: 160,5;.., 280,5.) 3. Deduccin de la amplitud del intervalo (A): Llamada tambin tamao de clase o ancho de clase. Podemos definir la amplitud del intervalo como la distancia entre el lmite inferior y superior de un intervalo y se halla mediante la frmula:
A= R K

Si la divisin no es exacta se aproxima por exceso al nmero inmediato superior, de manera que: A K R Si los datos son enteros, A es entero, si los datos tienen un decimal, A tiene un decimal, si los datos tienen dos decimales, por ejemplo, si al dividir redondea a dos decimales, entonces A = 4.55 Despus de haber obtenido K y A con algunas aproximaciones, se obtiene el producto de A.K que viene a ser el nuevo rango: RN = A . K Puede suceder que el producto A.K, el nuevo rango sea igual al rango anterior, es decir el RN = R, se proceder a la formacin de los intervalos de clase, o puede suceder que este nuevo rango sea mayor al rango anterior, es decir RN > R entonces habr un exceso.
R = 4.5421 , A se K

52

Exceso = RN R. Si la diferencia es un nmero par, por ejemplo 4 se divide en 2 y 2, que se restar menos 2 al dato mnimo, que viene hacer el lmite inferior del primer intervalo y se sumar ms 2 al dato mximo, que viene hacer el lmite superior del ltimo intervalo. Si la diferencia es un nmero impar, por ejemplo 3, se restar menos uno al dato mnimo y se sumar ms 2 al dato mximo. 4. Formacin de los intervalos de clase: Formar los intervalos de clase significa, hallar los lmites inferior y superior de cada intervalo, para ello se parte del dato mnimo y se le suma la amplitud del intervalo (A) y as sucesivamente hasta llegar al dato mximo. Los intervalos no siempre van a tener la misma amplitud; de acuerdo a la investigacin y a la necesidad de presentar la informacin para su anlisis correspondiente. 5. Clculo de Frecuencias: a.- Frecuencia absoluta simple ( fi ) y frecuencia absoluta acumulada (Fi ) c.- Frecuencia relativa simple (hi) y frecuencia relativa acumulada (Hi) e.- Clculo de las frecuencias relativas porcentuales (hi %, Hi %) 6. Punto medio o marca de clase (mi ): La marca de clase no es ms que una forma abreviada de representar un intervalo mediante uno de sus puntos. Por ello hemos tomado como representante, el punto medio del mismo, mi . Se define como la semisuma de los lmites inferior y superior de cada intervalo de clase; es decir:
mi = Limite inf erior + Limite sup erior 2

Cuando la tabla es unidimensional, el esquema de la tabla es de la siguiente manera: Interv. li-1 -- li i=1 . i=j i=k l0 -- l1 ... lj-1 -- lj ... lk-1 -- lk M. clase Frec. Abs. Frec. Rel. Frec. Abs. Acumu. Frec. Rel. Acumu. mi m1 ... mj ... mk
fi f1 ... fj ... fk n hi h1 ... hj ... hk 1 Fi F1 = f1 ... Hi H 1 = h1 ...

F j = f 1 +.... + f j H j = h1 + .... + h j ... Nk = n ... Fk = 1

Cuando la tabla es bidimensional, el esquema de la tabla es de la siguiente manera:

53

Segunda clasificacin ( Y ) Categora 1 Categora 2 . . . Categora m Total

Primera clasificacin ( X ) Categora 1 f11 f12 . . . f1m n1. Categora 2 f21 f22 . . . f2m n2. ... ... ... ... Categora k fk1 fk2 . . . fkm nk.

Total n.1 n.2 . . . n.m n

Ejemplo 6: Calcular los datos que faltan en la siguiente tabla: [li-1 -- li) 0 -- 10 10 -- 20 20 -- 30 30 -- 100 fi hi Fi 60

60 h1

f2 0,4 F2 30 h3 170 f4 0,1 F4 h5 200 n

100 -- 200 f5

Solucin: Como F3 = F2 + f3 , conocemos F3 = 170 y f3 = 30, entonces despejando F2 tenemos: F2 = F3 - f3 = 170 30 = 140. Adems al ser f1=60, tenemos que f2 = F2 f1 = 140 60 = 80. Por otro lado podemos calcular f4 teniendo en cuenta que conocemos la frecuencia relativa correspondiente:
h4 = f4 f 4 = h4 * n = 0,1 * 200 = 20 n

Sabemos:

F4 = f 4 + F3 = 20 + 170 = 190

Obtenemos por ltimo: f 5 = F5 F4 = 200 190 = 10 Calculado todas las frecuencias absolutas, obtenemos las relativas:

54

f1 60 = = 0,30 n 200 f 30 h3 = 3 = = 0,15 n 200 f 10 h5 = 5 = = 0,05 n 200 h1 =

Sabemos que la ltima frecuencia acumulada es igual al total de observaciones, luego n=200. Escribimos entonces la tabla completa: li-1 - li 0 - 10 10 - 20 20 - 30 30 - 100 fi 60 80 20 200 Ejemplo 7: Con los datos del ejemplo 4, correspondiente a niveles de colesterol de 80 pacientes: 121 170 187 197 200 220 250 141 178 188 197 204 222 250 155 178 188 197 205 225 256 156 178 190 198 208 227 256 156 179 193 198 208 228 257 156 179 194 199 209 228 258 156 180 195 199 209 229 275 156 180 195 199 209 229 280. 159 181 196 199 210 230 160 182 196 200 211 233 161 182 196 200 218 233 169 183 197 200 219 243 hi 0,3 Fi 60

0,4 140 0,1 190

30 0,15 170

100 - 200 10 0,05 200

Construir una Tabla de frecuencia que contenga: intervalos de clase, marcas de clase, frecuencias absolutas y relativas simples, frecuencias absolutas y relativas acumuladas y frecuencias relativas porcentuales simples y acumuladas. Solucin 1. Calculamos el rango: R = X mx - X min + 1 = 280 121 + 1 = 160 2. Determinamos el nmero de intervalos: K = 1 + 3,322log n = 1 + 3,322 log 80 = 7,32. Podemos redondear a 7 u 8 intervalos. Si K = 7 intervalos: 3. Deducimos la amplitud:
A= R 160 = = 23 K 7

aproximadamente.

55

Si los datos son enteros, la amplitud A es entero. Se calcula el nuevo rango: RN = A . K = 23(7) = 161, de manera que: RN = A.K R, es decir: 161 > 160. Como el RN es mayor que el R (rango anterior), hay un exceso. Exceso = RN R = 161 160 = 1, el exceso se restar al dato mnimo, que viene a ser el lmite inferior del primer intervalo o se sumar al dato mximo que viene a ser el lmite superior del ltimo intervalo. Trabajaremos con K = 8 intervalos: Deducimos la amplitud: 4. Formacin de los intervalos de clase: Significa hallar los lmites inferior y superior de cada intervalo, para ello se parte del lmite inferior del primer intervalo que es 121; luego se le suma la amplitud del intervalo, 20, quedando conformado el lmite inferior del segundo intervalo que es 141 y as sucesivamente hasta llegar al lmite inferior del ltimo intervalo que es 261. 5. Luego calculamos los puntos medios o marcas de clase. (La tabla 2,4 tiene como marcas de clase: 130,5; 150,5;..., 270,5.). Para cada marca de clase se halla sumando el lmite inferior de clase al correspondiente lmite superior de clase y dividiendo la suma entre dos. Por ltimo se encuentran las frecuencias, para cada intervalo de clase, quedando la tabla construida de la siguiente manera: Tabla 2.4.- Distribucin de 80 pacientes aparentemente sanos entre 20 y 59 aos segn niveles de colesterol en la sangre. EsSalud - La Molina, Junio-Agosto 2009.
NIVELES DE COLESTEROL FRECUENCIA ABSOLUTA FRECUENCIA RELATIVA FRECUENCIA RELATIVA MARCA DE CLASE

A=

R 160 = = 20 K 8

mg/dl
121-140 141-160 161-180 181-200 201-220 221-240 241-260 261-280

fi
1 9 10 29 12 10 7 2 80

Fi 1 10 20 49 61 71 78
80

hi 0.012 0.112 0.125 0.362 0.150 0.125 0.088


0,025

Hi 0.012 0.124 0.249 0.611 0.761 0.886 0,974 1.00

hi%
1.2 11.2 12.5 36.2 15.0 12.5 8.8 2.5

Hi% 1,2 12,4 24,9 61,1 76,1 88,6 97,4 100

mi 130,5 150,5 170,5 190,5 210,5 230,5 250,5


270,5

Donde: f2, significa que 9 pacientes tienen niveles de colesterol en sangre entre 141 a 160 mg/dl. F4, significa que 49 pacientes tienen niveles de colesterol en sangre entre 121 a 200 mg/dl. h7 %, significa que el 8,8% de pacientes tienen niveles de colesterol en sangre entre 241 a 260 mg/dl.

56

H3 %, significa que el 24,9% de pacientes tienen niveles de colesterol en sangre entre 121 a 180 mg/dl. Los datos de la tabla 2.3 la podemos presentar en forma agrupada a travs de la tabla 2.5. Tabla 2.5.- Distribucin de 80 pacientes aparentemente sanos entre varones y mujeres, segn edad. EsSalud - La Molina, Junio-Agosto 2009. Edad (aos) 20 24 25 29 30 34 35 39 40 44 45 49 50 54 55 - 59 mi 22 27 32 37 42 47 52 57 fi 11 12 8 16 5 9 11 8 Fi 11 23 31 47 52 61 72 80 hi 0,137 5 0,150 0 0,100 0 0,200 0 0,062 5 0,112 5 0,137 5 0,100 0 1.00 Hi 0,137 5 0,287 5 0,387 5 0,587 5 0,650 0 0,762 5 0,900 0 1,000 0 hi % 13,75 15,00 10,00 20,00 6,25 11,25 13,75 10,00 Hi% 13,75 28,75 38,75 58,75 65,00 76,25 90,00 100,0 0

n=80

El nmero de intervalos en los que se agrupa la informacin es una decisin que debe tomar el analista: la regla es que mientras ms intervalos se utilicen menos informacin se pierde, pero puede que menos representativa e informativa sea la tabla. Cuando la distribucin es bidimensional, el esquema de la tabla es de la siguiente manera: Primera clasificacin ( X ) Segunda clasificacin ( Y ) Categora 1 Categora 2 ... Categora k Categora 1 Categora 2 . f11 f12 . f21 f22 . ... ... fk1 fk2 .

Total n.1 n.2 .

57

. . Categora m Total

. . f1m n1.

. . f2m n2.

...

. . fkm nk.

. . n.m n

Ejemplo 8: Con los datos del ejemplo 4, tenemos las siguientes tablas 2,5 y 2,6: Tabla 2.5.- Distribucin de 80 pacientes aparentemente sanos entre 20 y 59 aos segn gnero y niveles de colesterol en sangre. EsSalud - La Molina, Junio-Agosto 2009.
GENERO NIVELES DE COLESTEROL Masculino N 121 - 140 141 160 161 - 180 181 - 200 201 - 220 221 - 240 241 - 260 261 - 280 TOTAL 1 5 4 13 8 6 2 1 40 % 1,3 6,3 5,0 16,3 10,0 7,5 2,5 1,3 50,0 Femenino N 0 4 6 16 4 4 5 1 40 % 0 5,0 7,5 20,0 5,0 5,0 6,3 1,3 50,0

TOTAL N 1 9 10 29 12 10 7 2 40 % 1,3 11,3 12,5 36,3 15,0 12,5 8,8 2,5 50,0

Al querer comparar los niveles de colesterol segn gnero, note que es dificultoso hacerlo con las frecuencias absolutas (originales) es primordial comparar a travs de sus frecuencias relativas. Tabla 2.6.- Distribucin de 80 pacientes aparentemente sanos por edad y niveles de colesterol en sangre. EsSalud - La Molina, Junio-Agosto 2009.

NIVELES DE COLESTEROL 121 - 140 141 - 160 161 - 180 181 - 200 201 - 220 221 - 240 241 - 260

20-34 N % 1 1.2 9 11.2 8 10.0 13 16.2 0 0.0 0 0.0 0 0.0

EDAD 35-49 N % 0 0.0 0 0.0 2 2.5 16 20.0 10 12.5 2 2.5 0 0.0

50-59 N % 0 0.0 0 0.0 0 0.0 0 0.0 2 2.5 8 10.0 7 8.8

TOTAL N % 1 1.2 9 11.2 10 12.5 29 36.2 12 15.0 10 12.5 7 8.8

58

261 - 280 TOTAL

0 0.0 31 38.6

0 0.0 30 37.5

2 2.5 19 23.8

2 2.5 80 100.0

2.3.2. - Cuadros estadsticos o de anlisis:


Un cuadro estadstico, es la presentacin ordenada de los datos en filas y columnas, clasificados y agrupados de acuerdo a un criterio especfico, con el fin de facilitar su lectura e interpretacin. CONSTRUCCIN DE CUADROS ESTADSTICOS: A continuacin se seala los elementos necesarios que deben tenerse en cuenta para la presentacin de la informacin estadstica en cuadros estadsticos. Un cuadro estadstico consta de titulo, encabezados, columna matriz, cuerpo del cuadro, fuente y ocasionalmente con nota de encabezado y nota de pie.
CUADRO N (TITULO) ...

.......................................................................................................................

NOTA DE ENCABEZADO

COLUMNA MATRIZ

ENCABEZADO SUB ENCABEZADO

CUERPO

59

FUENTE NOTA DE PIE

La numeracin de los cuadros se utiliza para tener una identificacin ms sencilla y rpida (Cuadro N 01, Cuadro N 02, etc).
EL TITULO: Debe ser no muy extenso pero debe responder a las siguientes preguntas:

Qu informacin contiene el cuerpo del cuadro? Ejemplo: Distribucin de 80 pacientes aparentemente sanos entre 20 y 59 aos. Cmo estn clasificadas? Ejemplo: Segn gnero y niveles de colesterol. Dnde fue tomada la informacin? Ejemplo: Laboratorios DISA Lima - Callao. Cundo fue tomada la informacin? Ejemplo: Junio-Agosto 2009. El ttulo sera:
DISTRIBUCION DE 80 PACIENTES APARENTEMENTE SANOS ENTRE 20 Y 59 AOS, SEGN GNERO Y NIVELES DE COLESTEROL. LABORATORIOS DISA LIMA CALLAO, JUNIO-AGOSTO 2009. LOS ENCABEZADOS.- Corresponden a las categoras de clasificacin de la primera

variable (en caso de doble clasificacin) o solo el comando de columna que seala el tipo de frecuencia que contiene el cuerpo del cuadro (en caso de clasificacin simple). En casos de doble clasificacin:

COLUMNA MATRIZ

GNERO MASCULINO FEMENINO N % N %

CUERPO

60

ENCABEZADO

GNERO MASCULINO FEMENINO N %

SUBENCABEZADO N En casos de clasificacin simple:


ENCABEZADO

COLUMNA MATRIZ.- Corresponde a las categoras de clasificacin de la variable (en

caso de clasificacin simple) y a las de la segunda variable, llamada variable dependiente en caso de clasificacin doble. Ejemplo:
NIVELES DE COLESTEROL

61

CUERPO DEL CUADRO: Corresponde a la informacin numrica, generalmente

frecuencias absolutas simples, y relativas porcentuales.


FUENTE.- Aqu se seala el medio de informacin que condujo el conjunto de datos.

Ejemplo: - Archivo de Laboratorios DISA. - Encuesta aplicada por los autores.


NOTA DE PIE: Corresponde a alguna explicacin complementaria sobre la clasificacin

realizada, omisiones, etc. Para lo cual debe hacerse el llamado correspondiente con algn smbolo.

2.3.3. - Grficos Estadsticos:


Un grfico estadstico es la representacin artstica de los datos que permite visualizar en forma instantnea cantidades y el comportamiento de la variable o variables de estudio. Los grficos estadsticos constituyen un soporte del anlisis descriptivo e inferencial. Si estn bien elaborados, son ms objetivos, permiten entender con facilidad los cambios y relaciones entre las variables de estudio con una idea bastante aproximada de la tendencia de los datos, adoptando el modelo que ms se ajusta a la naturaleza de la distribucin de los datos. Para que un grfico estadstico cumpla con sus funciones en un estudio de investigacin, debe reunir las siguientes caractersticas: Esttica Proporcionalidad Simetra Sencillez. Esttica: La representacin grfica debe ser agradable, de tal manera que invite a observar la informacin que contiene. Proporcionalidad: El tamao del grfico debe guardar relacin con la magnitud del rea donde ser impresa. Simetra: El diseo grfico debe estar bien ubicado en el rea correspondiente, es decir, debe ser equidistante a las fronteras de los extremos. Sencillez: El grfico debe ser de fcil comprensin; es decir, no debe estar compuesto de mucha informacin. Construccin de Grficos Estadsticos: Cada vez es ms habitual el uso de grficos para representar la informacin obtenida. No obstante, debemos ser prudente al confeccionar e interpretar grficos, puesto que una misma informacin se puede representar de formas muy diversas, y no todas ellas son correctas o vlidas, convirtindose en grficos tendenciosos que deforman y resaltan situaciones engaosas. No existen reglas especficas para la elaboracin de grficos estadsticos, sin embargo se considera algunos criterios y recomendaciones cuyas formas dependern de la naturaleza de los datos.

62

Formas de representacin: Los grficos estadsticos pueden ser representados de tres formas: 1. En el sistema bidimensional de coordenadas. 2. En el sistema de coordenadas tridimensional. 3. Fuera el sistema o flotante. La representacin de grficos en el sistema de coordenadas bidimensional es la ms utilizada en investigacin, por ello existen algunas recomendaciones. Sus elementos quedan dispuestos en forma similar a la presentacin de los cuadros estadsticos. Ttulo adecuado: el cual debe ser claro y conciso, que responda a las preguntas: Qu relaciona la informacin, donde y cuando se hicieron las observaciones. El cuerpo: o grfico en s considera al o los tipos de variables a relacionar, a quienes va dirigido y el diseo artstico del grfico. Fuente: se otorga crdito a las fuentes respectivas detallando como fueron obtenidos los datos. Leyenda: existe si se quiere representar dos variables. Notas de pie: aqu se anotan algunas aclaraciones respecto al grfico si es que lo hubiere, o las escalas que se han tomado para los ejes.

GRAFICO N(TITULO)......................................

..................................................................................

Representacin grfica (sealar escalas)

63

FUENTE NOTA DE PIE

LEYENDA

Un grfico apropiado es cuando muestra un comportamiento normal de los datos, considerando para ello las longitudes de los ejes del grfico. Los ejes del sistema coordenado, quedan denotados por: Eje Vertical: Se conoce como el eje de las frecuencias absolutas (fi) o relativas porcentuales (hi %). La longitud del eje vertical es igual a tres cuartos de la longitud del eje horizontal. Eje Horizontal: Se conoce como el eje de las categoras, de los intervalos, de las marcas de clase, dependiendo sea el caso. La longitud del eje horizontal es igual a cuatro tercios de la longitud del eje vertical.
Lx 4 = Ly 3

Ly =

3 Lx 4

Donde:

Lx: Longitud del eje horizontal. Ly: Longitud del eje vertical.

Las longitudes de las divisiones en cada eje deben ser iguales, aunque no necesariamente igual en ambos. La utilizacin del corte, ( // ) es para acercar la distribucin o representacin de los datos al eje vertical u horizontal. Si, mediante el grfico, se intenta comparar varias poblaciones entre s, y los tamaos de las poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podran resultar engaosas. Grficos engaosos: Muchos grficos, tales como el grfico de barras y el de pastel, pueden ser usados para exagerar o quitar nfasis a la verdadera naturaleza de los datos. Los grficos en la figura 1.1 representan los mismos datos de , pero la parte b) est diseada a exagerar la diferencia entre las edades de hombres y mujeres. El eje vertical no empieza en cero, por lo que la grfica tiende a producir una impresin engaosa. Debemos analizar la informacin numrica dada en el grfico, de manera que no estaramos engaados por su forma. Generalmente una informacin es distorsionada por las siguientes razones: La relacin de los ejes no es la ms apropiada (ver grficos N1 y N2). Las escalas son desproporcionadas o la eleccin del punto de origen no es correcto. (ver grfico N3). Con los datos de la siguiente tabla mostraremos grficas engaosas.
TASA DE CRECIMIENTO PROMEDIO ANUAL DE LA POBLACIN DE PER, CENSOS 1940 2007

64

1940 1,9

1961 2,8

1972 2,6

1981 2,0

1993 1,5

2007 1,6

Fuente: Instituto Nacional de Estadstica e Informtica (INEI)-Censos Nacionales de Poblacin y Vivienda, 1940, 1961, 1972, 1981, 1993, y 2007.

El grfico N1: muestra un decrecimiento pronunciado de la tasa anual de poblacin del Per, mientras que en el grfico N2 muestra una aparente estabilizacin del decrecimiento. Los

dos grficos son incorrectos porque sus ejes no guardan una adecuada proporcin. Sin embargo el grfico N3 tiene una adecuada proporcin pero la lnea se muestra distorsionada debido a que el punto de origen (cero) ha sido cambiado por un valor arbitrario y se ha tomado una escala inadecuada en sus ejes .
Grfico N1
2,8

2,6

2,4

2,2

Tasa
2,0 1,8 1,6 1,4 1940 1961 1972 1981 1993 2007

Aos

Grfico N2

65

Grfico N3

El grfico correcto sera:


TASA DE CRECIMIENTO PROMEDIO ANUAL DE LA POBLACIN DE PER, CENSOS 1940 2007
3,0

2,0

Tasa
1,0 0,0 1940 1961 1972 1981 1993 2007

Aos

__

Principales Tipos de Grficos Estadsticos:


Constatando su utilidad en el proceso del anlisis estadstico y la presentacin de datos. Se describirn los distintos tipos de grficos que podemos utilizar y su correspondencia con las distintas etapas del proceso de anlisis. En estudios de investigacin es de mayor

66

utilizacin los grficos en el sistema bidimensional de coordenadas, que a continuacin se detalla. Los datos que nos interesan dependen, en cada caso, del tipo de variables que estemos manejando.

Grficos para variable cualitativa o categrica:


Para variables categricas, tales como: como el gnero, profesin, tipo de enfermedad, etc., se quiere conocer la frecuencia y el porcentaje del total de casos en cada categora. Una forma de representar grficamente estos resultados es mediante diagramas de barras o diagramas de sectores.

Grfico de sectores circulares:


Llamado tambin grfico de pastel, debido a su forma caracterstica, se usa cuando el nmero de categoras de la variable no es superior a cinco y se quiere resaltar uno de ellos. Si el nmero de categoras es excesivamente grande, la imagen proporcionada por el grfico de sectores no es lo suficientemente clara y por lo tanto la situacin ideal es cuando hay alrededor de tres categoras. En este caso se pueden apreciar con claridad dichos subgrupos. Para su construccin se considera al 100% de casos como el 100% de rea de un crculo, es decir 360. Para determinar el nmero de grados correspondiente a cada categora se multiplica la frecuencia relativa por 360, es decir: (hi x 360) y se asigna a cada categora un sector circular proporcional a la frecuencia que se desea representar con la ayuda de un transportador. Por lo tanto el crculo se divide en tantas porciones como categoras tenga la variable, de modo que a cada categora le corresponde un arco de crculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la Figura 2.1. (ver tabla 2.1). Figura 2.1.-Diagrama circular de los 20 casos de inflamacin postoperatoria.

Extrema

Ninguna Marcada

I. Ninguna = 360 x 0.50 = 180 I. Marcada = 360 x 0.35 = 126 I. Extrema = 360 x 0.15 = 54

67

Grfico de barras son similares a los grficos de sectores. Se representan tantas


barras como categoras tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada categora (Figura 2.2). En este grfico cada categora toma una base de rectngulo en abscisas y en las ordenadas se hace corresponder la frecuencia absoluta o relativa, obteniendo de sta manera barras para cada categora; todas ellas tienen igual base y adems deben estar separadas por igual amplitud, es decir el espacio entre barras deben ser iguales. Estos grficos suelen ser de barras verticales, aunque se pueden utilizar de forma horizontal. Una representacin grfica en barras sera: Figura 2.2.- Diagrama de barras de los 20 casos de inflamacin postoperatoria (ver tabla 2.1) hi%
60 50 40 30 20 10 0

1.9.4

Grficos para variables cuantitativas

Para las variables cuantitativas, consideraremos Ninguna Marcada Extrema dos tipos de grficos, en funcin de que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas: Inflamacin Postoperatoria

Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el nmero o porcentaje de elementos que presenta una modalidad dada. Diagramas integrales: Son aquellos en los que se representan el nmero de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a grficos crecientes, y es obvio que este tipo de grficos no tiene sentido para variables cualitativas.
Segn hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a continuacin las diferentes representaciones grficas que pueden realizarse para cada una de ellas as como los nombres especficos que reciben.

1.9.4.1 Grficos para variables discretas


Cuando representamos una variable discreta, usamos el diagrama de barras cuando pretendemos hacer una grfica diferencial. Las barras deben ser estrechas para representar el que los valores que toma la variable son discretos. El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de diagrama de barras as como su diagrama integral correspondiente estn representados en la figura 1.6.

68

1.9.4.2 Ejemplo Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el nmero de caras, X, obteniendose los siguientes resultados:

Representar grficamente el resultado.


Solucin: En primer lugar observamos que la variable X es cuantitativa discreta, presentando las modalidades:

Ordenamos a continuacin los datos en una tabla estadstica, y se representa la misma en la figura 1.6.

Figura: Diagrama diferencial (barras) e integral para una variable discreta.


Obsrvese que el diagrama integral (creciente) contabiliza el nmero de observaciones de la variable inferiores o iguales a cada punto del eje de abcisas.

xi 0 1 2

ni 1 3 3

fi

Ni Fi

1/8 1 1/8 3/8 4 4/8 3/8 7 7/8

69

1 n=8

1/8 8 8/8 1

1.9.4.3 Ejemplo Clasificadas 12 familias por su nmero de hijos se obtuvo: Nmero de hijos (xi) 1 2 3 4 Frecuencias (ni) 1 3 5 3

Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el diagrama acumulativo creciente. Solucin: En primer lugar, escribimos la tabla de frecuencias en el modo habitual:

Variable F. Absolutas F. Relativas F. Acumuladas xi 1 2 3 4 ni 1 3 5 3 12 fi 0,083 0,250 0,416 0,250 1 Ni 1 4 9 12

Con las columnas relativas a xi y ni realizamos el diagrama de barras para frecuencias absolutas, lo que se muestra en la figura 1.7. Como puede verse es identico (salvo un cambio de escala en el eje de ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado usando las columnas de xi y fi. El diagrama escalonado (acumulado) se ha construido con la informacin procedente de las columnas xi y Ni.

Figura: Diagramas de frecuencias para una variable discreta

70

1.9.4.4 Grficos para variables continuas


Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polgonos de frecuencias. Un histograma se construye a partir de la tabla estadstica, representando sobre cada intervalo, un rectngulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectngulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el rea de los mismos. El polgono de frecuencias se construye fcilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polgono de frecuencias en el primer y ltimo intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una lnea recta los puntos del histograma que corresponden a sus marcas de clase. Obsrvese que de este modo, el polgono de frecuencias tiene en comn con el histograma el que las reas de la grficas sobre un intervalo son idnticas. Veanse ambas grficas diferenciales representadas en la parte superior de la figura 1.8. El diagrama integral para una variable continua se denomina tambin polgono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polgono de frecuencias absolutas es una primitiva del histograma. Vase la parte inferior de la figura 1.8, en la que se representa a modo de ilustracin los diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente:

Intervalos ci ni Ni 0 -- 2 2 -- 4 1 2 3 1 2 3

71

4 -- 6 6 -- 8 8 - 10

5 4

7 3 10 9 2 12 12

Figura: Diagramas diferenciales e integrales para una


variable continua.

1.9.4.5 Ejemplo La siguiente distribucin se refiere a la duracin en horas (completas) de un lote de 500 tubos: Duracin en horas Nmero de tubos 300 -- 500 500 -- 700 700 -- 1.100 ms de 1.100 50 150 275 25 Total 500

72

Representar el histograma de frecuencias relativas y el polgono de frecuencias. Trazar la curva de frecuencias relativas acumuladas. Determinar el nmero mnimo de tubos que tienen una duracin inferior a 900 horas.

Solucin: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero al tener un rango tan amplio de valores resulta ms conveniente agruparla en intervalos, como si de una variable continua se tratase. La consecuencia es una ligera perdida de precisin. El ltimo intervalo est abierto por el lmite superior. Dado que en l hay 25 observaciones puede ser conveniente cerrarlo con una amplitud ``razonable''. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podramos cerrar el ltimo intervalo en 1.300 horas1.2. Antes de realizar el histograma conviene hacer una observacin importante. El histograma representa las frecuencias de los intervalos mediante reas y no mediante alturas. Sin embargo nos es mucho ms fcil hacer representaciones grficas teniendo en cuenta estas ltimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los conceptos de rea y altura, pero en este caso el tercer intervalo tiene una amplitud doble a los dems, y por tanto hay que repartir su rea en un rectngulo de base doble (lo que reduce su ltura a la mitad). As ser conveniente aadir a la habitual tabla de frecuencias una columna que represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas rectificadas, fi', para representar la altura del histograma. Los grficos requeridos se representan en las figuras 1.9 y 1.10.

Intervalos 300 -- 500 500 -- 700 700 -- 1.100

ai 200 200 400

ni 50 150 275 25 n=500

fi

fi'

Fi

0,10 0,10 0,10 0,30 0,30 0,40 0,55 0,275 0,95 0,05 0,05 1,00

1.100 -- 1.300 200

Figura: Histograma. Obsrvese que la altura del histograma en cada


intervalo es fi' que coincide en todos con fisalvo en el intervalo 700 -1.100 en el que ya que la amplitud de ese intervalo es doble a la de los dems.

73

Figura: Diagrama acumulativo de frecuencias relativas

Por otro lado, mirando la figura 1.9 se ve que sumando frecuencias relativas, hasta las 900 horas de duracin hay

0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.


Esta cantidad se obtiene de modo ms directo viendo a qu altura corresponde al valor 900 en el diagrama de frecuencias acumuladas (figura 1.10).

74

Como en total son 500 tubos, el nmero de tubos con una duracin igual o menor que 900 horas es , redondeando, 338 tubos.

Tabla: Principales diagramas segn el tipo de variable. Tipo de variable V. Cualitativa Diagrama Barras, sectores, pictogramas

V. Discreta

Diferencial (barras) Integral (en escalera)

V. Continua

Diferencial (histograma, polgono de frecuencias) Integral (diagramas acumulados)

Problemas Ejercicio 1..1. Clasificar las siguientes variables: 1. Preferencias polticas (izquierda, derecha o centro). 2. Marcas de cerveza. 3. Velocidad en Km/h. 4. El peso en Kg. 5. Signo del zodiaco. 6. Nivel educativo (primario secundario, superior). 7. Aos de estudios completados. 8. Tipo de enseanza (privada o pblica). 9. Nmero de empleados de una empresa. 10. La temperatura de un enfermo en grados Celsius. 11. La clase social (baja, media o alta).

75

12. La presin de un neumtico en Ejercicio 1..2. Clasifique las variables que aparecen en el siguiente cuestionario. 1. Cul es su edad? 2. Estado civil: (a) Soltero (b) Casado (c) Separado (d) Divorciado (e) Viudo 3. Cuanto tiempo emplea para desplazarse a su trabajo? 4. Tamao de su municipio de residencia: (a) Municipio pequeo (menos de 2.000 habitantes) (b) Municipio mediano (de 2.000 a 10.000 hab.) (c) Municipio grande (de 10.000 a 50.000 hab.) (d) Ciudad pequea (de 50.000 a 100.000 hab.) (e) Ciudad grande (ms de 100.000 hab.) 5. Est afiliado a la seguridad social? Ejercicio 1..3. En el siguiente conjunto de datos, se proporcionan los pesos (redondeados a libras) de nios nacidos en cierto intervalo de tiempo: 4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5. 1. Construir una distribucin de frecuencia de estos pesos. 2. Encontrar las frecuencias relativas. 3. Encontrar las frecuencias acumuladas. 4. Encontrar las frecuencias relativas acumuladas. 5. Dibujar un histograma con los datos del apartado a. 6. Por qu se ha utilizado un histograma para representar estos datos, en lugar de una grfica de barras?

Grficos para variable cuantitativa:

76

Grafico de Bastones:
Esta representacin grfica se utiliza solo con variables discretas donde los bastones estn en alturas proporcionales a las frecuencias que representan. Ejemplo 8: Con los datos de la tabla 2.2, construya el respectivo grfico. Figura 2.3.- Diagrama de bastones que muestra el nmero de bebs nacidos en una determinada hora del da por hospitales. (Ver tabla 2.2) hi%

20 %

15 %

Porcentaje

10 %

5%

0% 10 11 12 13 14 15

Nmero de bebes

Para variables cuantitativas continuas, tales como la edad, la tensin arterial o el ndice de masa corporal, el tipo de grfico ms utilizado es el Histograma de Frecuencias: Para

77

construir un grfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud. En el eje de las abscisas representamos los intervalos de la variable y en el eje de las ordenadas las frecuencias respectivas de cada clase. La construccin consiste en formar rectngulos como en el caso del grfico de barras con la diferencia que ahora dichos rectngulos estn colindantes entre si, dada la continuidad de la variable. Histograma de Frecuencias Acumuladas: El histograma de frecuencias acumuladas tambin es obtenido a partir de una distribucin de frecuencias, tomando en el eje horizontal los intervalos de clase de la variable y en el eje vertical las frecuencias acumuladas correspondientes a cada intervalo. La tabla 2.4 muestra la distribucin de 80 pacientes entre 20 y 59 aos de ambos sexos, segn niveles de colesterol en sangre. Se procede a construir el histograma, como se muestra en la figura 2.4. Usando los puntos medios del extremo superior de las barras del histograma se obtiene una imagen que se llama Polgono de frecuencias: Dicha figura pretende mostrar, de la forma ms simple, en qu rangos se encuentra la mayor parte de los datos. Esta grfica se emplea tambin en distribuciones de variables continuas. Se construye como hemos visto con las marcas de clase o los puntos medios de cada uno de los intervalos en la parte superior de cada barra del histograma de frecuencias, los cuales se unen con segmentos de recta formando un polgono. Figura 2.4.- Histograma de frecuencias que muestra los niveles de colesterol en sangre de 80 pacientes entre 20 y 59 aos de ambos sexos.

4 0

3 0

2 0

P O R C E N T A J E
1 0 0 2 4

260,5

120,5 140,5 160,5 180,5 200,5 280,5 Nivel de Colesterol

220,5

0 240,5

78

Otros Grficos Estadsticos:


Otro modo, y muy til, de resumir una variable cuantitativa, es utilizando el concepto de percentiles, mediante Diagramas de Cajas, que lo veremos mas adelante. Es til para comprobar, grficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan ms apropiados para representar variables que presenten una gran desviacin de la distribucin normal. Son de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.

COMPARACIN DE DOS O MS GRUPOS: Cuando se quieren comparar datos de dos o ms grupos de individuos, los grficos apropiados para visualizar esa relacin, dependen del tipo de variables que estemos manejando. Cuando se trabaja con dos variables cualitativas podemos seguir empleando grficos de barras (Figuras 2.5, 2.6, 2.7) o de sectores. Podemos determinar, por ejemplo, si en una muestra dada, la frecuencia de sujetos que padecen una enfermedad coronaria es ms frecuente en aquellos que tienen algn familiar con antecedentes cardiacos. A partir de dicha muestra podemos representar, como se hace en la Figura 2.5, dos grupos de barras: uno para los sujetos con antecedentes cardiacos familiares y otro para los que no tienen este tipo de antecedentes. En cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaos de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el grfico podra resultar engaoso. Figura 2.5. Diagrama de barras agrupadas. Relacin entre la presencia de alguna enfermedad coronaria y los antecedentes cardiacos familiares en una muestra.

79

Figura 2.6. Diagrama de barras agrupadas. Distribucin de pacientes con cncer pulmonar y por gnero y lugar de residencia.

8 7 6 5 4 3 2 1 0 A B C D

Nmero de Pacientes

Femenino Masculino

CIUDAD

Este mismo grfico lo podemos representar en grficas apiladas, de la siguiente manera:

80

Figura 2.7. Diagrama de barras apiladas. Distribucin de pacientes con cncer pulmonar y por gnero y lugar de residencia.

100 Porcentajes de pacientes 90 80 70 60 50 40 30 20 10 0 A B C D

CIUDAD

Femenino

Masculino

Por otro lado, la comparacin de variables continuas en dos o ms grupos se realiza habitualmente en trminos de su valor medio, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas no slo permiten ver si existe o no diferencia entre los grupos, sino que adems nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. Los Grficos de Lneas pueden resultar tambin especialmente interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo (Figura 2.8). No son ms que una serie de puntos conectados entre s mediante rectas, donde cada punto puede representar distintas cosas segn lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categora, el valor mximo en cada grupo, etc). Este grfico se utiliza cuando se quiere mostrar el comportamiento de una variable cuantitativa a travs del tiempo (das, semanas, meses, aos). El grfico de lneas consiste en segmentos rectilneos unidos entre s, resaltando variaciones de los datos de la variable por unidad de tiempo. Para su construccin ha de procederse de la siguiente manera: en el eje de las ordenadas se marcan los puntos, frecuencias; de acuerdo con la escala que se est utilizando. En el eje de la variable X se divide en unidades de tiempo iguales, teniendo presente el nmero de tems que ha de presentarse, as como la longitud del eje. Por ejemplo: Figura 2.8. Grfico de lneas. Nmero de pacientes trasplantados renales en el Hospital "Juan Canalejo" durante el periodo 1981-1997.

81

Grfico de Lneas Compuesto: Se utiliza cuando se tienen varias variables a representar, con la finalidad de hacer comparaciones entre ellas, siempre que su unidad de medida sea la misma. Figura 2.9. Grfico de lneas. Nmero de alumnos matriculados por sexo en el colegio fiscalizado de C.C. y H.H. Javier Perez de Cuellar.

82

120 100 Nmero de alumnos 80 60 40 20 0 2005 2006 2007 Aos 2008 2009 Masculino Femenino

RELACIN ENTRE DOS VARIABLES CUANTITATIVAS: Cuando lo que interesa es estudiar la relacin entre dos variables continuas, un modo sencillo de comprobar, grficamente, si existe una correlacin alta, es mediante Diagramas de Dispersin, donde se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables altamente correlacionado es la relacin entre el peso y la talla de un sujeto. Partiendo de una muestra arbitraria, podemos construir el diagrama de dispersin de la Figura 2.10. En l puede observarse claramente como existe una relacin directa entre ambas variables, y valorar hasta qu punto dicha relacin puede modelizarse por la ecuacin de una recta. Este tipo de grficos son, por lo tanto, tiles en la etapa de seleccin de variables cuando se ajusta a un modelo de regresin lineal.

Figura 2.10. Diagrama de dispersin entre la talla y el peso de una muestra de individuos.

83

Hemos visto, la importancia y utilidad que las representaciones grficas pueden alcanzar en el proceso de anlisis de datos. La mayora de los textos estadsticos y epidemiolgicos hacen hincapi en los distintos tipos de grficos que se pueden crear, como una herramienta imprescindible en la presentacin de resultados y el proceso de anlisis estadstico. No obstante, es difcil precisar cundo es ms apropiado utilizar un grfico que una tabla. Ms bien podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La utilizacin de distintos programas informticos hace especialmente sencillo la obtencin de las mismas. La mayora de los paquetes estadsticos (SPSS, STATGRAPHICS, entre otros.) ofrecen grandes posibilidades en este sentido. Adems de los grficos vistos, es posible elaborar otros grficos, incluso tridimensionales, permitiendo grandes cambios en su apariencia y facilidad de exportacin a otros programas para presentar finalmente los resultados de un estudio de investigacin.

84

CAPITULO 3 DESCRIPCIN, EXPLORACIN Y COMPARACIN DE DATOS 3.1.- INTRODUCCIN: Para describir un conjunto de datos acerca de sus caractersticas usamos medidas descriptivas. Las siguientes tres caractersticas de los datos son muy importantes y pueden facilitar una considerable comprensin: 1.- Un valor representativo, tal como un promedio. 2.- Una medida de dispersin o variacin. 3.- La naturaleza o forma de la distribucin de los datos, tales como: la forma acampanada, uniforme, o sesgada. Para variables numricas, en las que puede haber un gran nmero de valores observados, podemos hacernos las siguientes preguntas: a. Alrededor de qu valor se agrupan los datos? b. Cmo lo hacen? Muy concentrados? Muy dispersos? c. Cul es la forma de la distribucin de los datos? Como resultado a estas preguntas tendremos: 1. Un valor central de estos datos, que se obtiene a travs de las medidas de tendencia central. 2. Adems de la tendencia de los valores a agruparse alrededor de un valor promedio, es necesario saber cuanto se dispersan o varan. Las medidas de acercamiento o alejamiento, se conocen como: medidas de dispersin o de variabilidad. 3. Tambin debemos considerar la forma de una distribucin de frecuencias as como su simetra. Cuando se trata de fenmenos biolgicos, estos no suelen ser constantes, por lo que ser necesario examinar varias caractersticas, a travs de medidas siendo las ms comunes: Los datos que ocupan ciertas posiciones, La dispersin o variacin con respecto a un valor central; La simetra de los datos y la forma en la que los datos se agrupan. 3.2. CLASIFICACIN DE MEDIDAS DESCRIPTIVAS: Para la interpretacin del comportamiento de los datos se procede entonces al clculo de estas medidas, que se pueden clasificar en: Medidas de Posicin Medidas de Dispersin o de Variabilidad Medidas de Distribucin.

85

3.2.1. - Medidas de Posicin: Son aquellas medidas que nos ayudan a saber donde se posicionan los datos pero sin indicar como se distribuyen. Las medidas de posicin son de dos tipos: 1.Medidas de Tendencia Central. 2. Medidas de Localizacin. 1. Medidas de Tendencia Central: Las medidas de tendencia central informan sobre los valores medios de una serie de datos. Las siguientes medidas de tendencia central conocidas son: Media Aritmtica Media Ponderada Media Geomtrica Media Armnica Media Cuadrtica Mediana.

MEDIA ARITMTICA.- Es la medida de tendencia central ms utilizada, la ms conocida, y fcil de calcular. Esta medida se calcula para datos agrupados y para no agrupados. Media Aritmtica para datos no agrupados: La media aritmtica de un conjunto de datos que no estn ordenados en una tabla, es igual a la suma de cada uno de los valores observados (xi): x1 , x 2 ,......., x n ; o valores de la variable X, dividida entre n; donde n es el nmero de valores en una muestra o el nmero de elementos del conjunto de observaciones. Se representa por x (se pronuncia x barra) a la media de un conjunto de valores de una variable en una muestra y esta dado por: Frmula 3.1

x=
x=

x
i =1

n
x1 + x 2 + ..... + x n n

Ejemplo 1: La siguiente lista son los aos de experiencia profesional de diez docentes de la UNDAC. Hallar la media aritmtica para estos datos. 10 Solucin La media se calcula utilizando la frmula 3.1. Primero sumamos los datos: 29 26 28 15 23 17 25 0 20

86

x
i =1

10

= 10 + 29 + 26 + 28 + 15 + 23 + 17 + 25 + 0 + 20 = 193

Ahora se divide este total entre el nmero de datos, n = 10, y obtenemos:

x=

x
i =1

10

193 = 19,3 10

El valor de la media es19, 3 aos. En algunas calculadoras se puede encontrar la media de un conjunto de datos, para ello se tiene que registrar los datos y presionar la tecla rotulada por x . Se denota a (se pronuncia mu) como la media de todos los valores de una variable en una poblacin, donde N representa al nmero de valores de una variable en una poblacin. Si contamos con todos estos valores, entonces podemos calcular la media denotada por . Frmula 3.2

X
i =1

La media aritmtica cuando los valores de la variable cuenta con sus respectivas frecuencias, se calcula multiplicando cada valor de la variable por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra, y se define por la siguiente expresin: Frmula 3.3

x=

x
i =1

fi

Esta misma frmula tambin se puede aplicar si. Ejemplo: De la tabla 2.5: Sea xi los valores de la variable: edad, vamos a determinar el promedio de edad de 100 pacientes:

xi:
18 19 20 21 22 23 24 25 26

fi 1 3 4 7 5 8 10 8 9

xi.fi
18 57 80 147 110 184 240 200 234

87

27 28 29 30 31 32 33 34 35 36 37 38 39 41 42

6 6 4 3 4 5 3 2 3 1 2 3 1 1 1

162 168 116 90 124 160 99 68 105 36 74 114 39 41 42

fi = 100 xi fi = 2708

x=

x
i =1

fi

aos. 2708 = 27 100

Media Aritmtica para datos agrupados: Si los datos estn agrupados en intervalos, la expresin de la media aritmtica, (Frmula 3.3) es la misma, pero utilizando las marcas de clase mi en lugar de los valores xi. Frmula 3.4

x=

m
i =1

fi

Donde (mi) representa el punto medio de cada clase, (fi) es la frecuencia o nmero de observaciones en cada clase y (n) es el tamao de la muestra siendo igual a la suma de las frecuencias de cada clase. En general, la media aritmtica obtenida a partir de las marcas de clase mi, diferir de la media obtenida con los valores reales, xi. Es decir, habr una perdida de precisin que ser tanto mayor, cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las amplitudes de los intervalos. Ejemplo: La media aritmtica para el contenido de hemoglobina Hb en 30 nios de 2 a 12 aos (usando la tabla anterior) es:

88

[ ) Hb 10.0 10.8 10.8 11.6 11.6 12.4 12.4 13.2 13.2 14.0 14.0 14.8 14.8 15.6 15.6 16.4
k

mi 10,4 11,2 12,0 12,8 13,6 14,4 15,2 16,0

fi 3 4 3 4 11 4 0 1 n=30

fi.mi 31,20 44,80 36,00 51,20 149,60 57,60 0,00 16,00 386.40

x=

fm
i =1 i

386,4 = 12,88 30

Donde K es el nmero de clases o intervalos, para nuestro ejemplo K = 8. Lo que nos indicara que el promedio de hemoglobina en 30 nios de 2 a 12 aos es de 12,9 aproximadamente. Si ha estos mismos resultados le aplicamos la ecuacin para datos no agrupados (Ecuacin 3.1), tomando como referencia cada uno de los valores individuales, obtendramos que la media es igual a 12,94. Lo que nos indicara que el promedio de edad para los datos no agrupados es de 12.94 aos aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente la exactitud de los clculos. Ventajas e inconvenientes: - La media aritmtica viene expresada en las mismas unidades que la variable. - En su clculo intervienen todos los valores de la distribucin. - Es el centro de gravedad de toda la distribucin, representando a todos los valores observados. - Es nica. A pesar de las buenas propiedades que ofrece la media aritmtica, sta no es recomendable usarla como medida central en las distribuciones muy asimtricas; porque posee algunos inconvenientes: La media aritmtica se ve afectada por los valores extremadamente grandes o pequeos de la distribucin, ya que todas las observaciones intervienen en el clculo de la misma, la aparicin de una observacin extrema, har que la media se desplace en esa direccin. Depende de la divisin en intervalos en el caso de variables continuas.

MEDIA ARITMTICA PONDERADA.-

89

Es una media aritmtica que se emplea en distribuciones de tipo unitario, en las que se introducen unos coeficientes de ponderacin, denominados i , que son valores positivos, que representan el nmero de veces que un valor de la variable es ms importante que otro. Hay ocasiones en que se quiere dar el resultado de varios grupos de datos, cada uno de los cuales ya han sido resumidos previamente mediante un promedio, para ello se aplica la media ponderada y se define como: Sean X 1 ,X 2 ,...., X r las medias aritmticas de r subconjuntos menores, cada uno con i las ponderaciones. La media aritmtica del conjunto formado por los trminos de los r subconjuntos es dado por la frmula:

Frmula 3.5

w X + w2 X 2 + ......... + wr X r Xp = 1 1 = w1 + w2 + ....... + wr
w = wi
i =1 r

w X
i =1 i

donde :

MEDIA GEOMTRICA.Media Geomtrica para datos no agrupados: La Media geomtrica (G), es la media de los logaritmos de los valores de la variable:
log G = log X 1 + log X 2 + ........ + log X n n

O tambin puede definirse como la raz n-sima del producto de los n valores de la distribucin: Frmula 3.6
G = n X 1 X 2 X 3 ......... X n

donde n es el nmero total de datos

Media Geomtrica para datos agrupados: Si los datos estn agrupados en intervalos, la expresin de la media geomtrica, es la misma, pero utilizando la marca de clase (Xi), asociadas a las frecuencias absolutas f 1, f2, ........, fk, respectivamente. . Se eleva cada valor al nmero de veces que se ha repetido, es decir a su respectiva frecuencia. Se multiplican todo estos resultados y al producto final se le calcula la raz "n" (siendo "n" el total de datos de la muestra). La media geomtrica de X es dado por:
G=
n

X .X

f1 1

f2 2

.X

f3 3

...... X

fk k

donde :

n = fi
i =1

Aplicando logaritmo tenemos:

90

log G =

k f 1 log X 1 + f 2 log X 2 + ....... + f k log X k = f i log X i n i =1

Frmula 3.7

Luego;

k f i log X i G = Anti log i =1 n

La media geomtrica se suele utilizar en series de datos como: porcentajes, tasas, nmeros ndices tipos de inters anuales, inflacin, etc., es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas. Ventajas e inconvenientes: Segn el tipo de datos que se analice ser ms apropiado utilizar la media aritmtica o la media geomtrica. Al igual que en la media aritmtica es que en su clculo se utilizan todos los valores de la distribucin, por lo que no se pierde ninguna informacin. Los valores extremos tienen menor influencia que en la media aritmtica. Su clculo es ms complicado que el de la media aritmtica. La media geomtrica no puede determinarse cuando hay valores negativos entre los datos, porque los logaritmos no estn definidos para valores negativos, tampoco puede determinarse las races de ndice par de nmeros negativos. La media geomtrica presenta el inconveniente de que si uno de los valores de la variable es igual a cero, el resultado de la media es cero. MEDIA ARMNICA La media armnica, denotada por H, se define como el recproco de la media aritmtica de los recprocos de los valores de la variable, est dada por: 1 1 1 H= = n = 1 1 1 1 X + + ....... + X1 X 2 Xn i =1 X i n n Sea X1,X2,....,Xk una serie de valores de la variable X, asociadas a las frecuencias absolutas f1, f2, ........, fk, respectivamente. La media armnica de X por tanto es:
H= n =
i

n 1 1 1 + + ....... + X1 X 2 Xn

Frmula 3.8

X
i =1

91

La media armnica para datos agrupados: H= n f f1 f + 2 + ..... + k X1 X 2 Xk = n


k

Frmula 3.9 n = fi
i =1 k

X
i =1

fi
i

donde :

Ventajas e inconvenientes: La media armnica no es aconsejable en distribuciones de variables con valores pequeos. Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc. En su clculo intervienen todos los valores de la distribucin. Da a los valores extremadamente grandes un peso menor que el que les da la media geomtrica, mientras que los valores pequeos les da un peso mucho mayor que el que las da la media aritmtica como la media geomtrica. Su clculo no tiene sentido cuando algn valor de la variable toma valor cero. La media armnica es indeterminado.

Relacin entre la Media Aritmtica, Geomtrica y Armnica: La Media Geomtrica de una serie de valores positivos de una variable X: X 1,X2,....,Xn es menor o igual que su media aritmtica, pero es mayor o igual que su media armnica; es decir: H G X, siempre que se trate de la misma serie y cuando los trminos no son iguales. MEDIA CUADRTICA La media cuadrtica, es la raz cuadrada de la media aritmtica de los cuadrados. Se denota por x c :

MEDIANA (Me) La mediana es una medida de tendencia central muy til, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos. En comparacin con la media aritmtica no presenta el problema de estar influida por los valores extremos dentro del grupo, pero en cambio no utiliza en su clculo toda la informacin de la serie de datos (no pondera cada valor por el nmero de veces que se ha repetido). Es aquella

92

que divide a la serie de datos de tal manera que 50% de los valores son inferiores y otro 50% de los valores son superiores al valor de la mediana. Clculo de la mediana: Variar segn el tipo de dato: Mediana para datos no agrupados: La mediana de un conjunto de datos no agrupados, es el valor central cuando los datos estn ordenados en forma ascendente o descendente en magnitud, de manera que quedan divididos en dos grupos de igual nmero de observaciones. a) Variables discretas no agrupadas: En el clculo de la mediana, se considera 4 casos: CASO I: Se trata de encontrar la mediana para datos pequeos no agrupados cuando la variable en estudio es discreta y n es impar. Para determinar la posicin de la mediana se utiliza la frmula
n +1 Posicin de la mediana = 2

En este caso, la mediana ser el valor de la variable que ocupa la posicin media. Ejemplo: Encontrar la mediana (ejemplo anterior) de los aos de experiencia profesional para los primeros siete docentes de la UNDAC en orden alfabtico. 10 10 29 15 26 17 28 23 15 26 23 28 17 29 Solucin: Empezamos por arreglar los datos en forma creciente: El nmero de datos es siete, como es un nmero impar, encontramos la posicin que
7 +1 = 4 ). Lo que nos indica que el valor de la mediana corresponde a 2 la cuarta posicin de la serie, que equivale al nmero 23 que est exactamente en la mitad.

ocupa la mediana: (

Por lo tanto la mediana para estos datos es 23 aos. CASO II: Se trata de encontrar la mediana para datos pequeos no agrupados cuando la variable es discreta y n es par. En este caso, es necesario promediar los dos valores medios, porque no existe en la ordenacin un valor de la variable que ocupe la posicin central. Se toma como mediana de la ordenacin a la media aritmtica de los valores que ocupan las posiciones:
n n y +1, 2 2 sto es :

Me =

X n / 2 + X n / 2+1 2

Ejemplo: Sean los datos ordenados previamente: 5 6 8 10 11 13

93

Solucin: Como el nmero de datos es seis, un nmero par, encontramos la posicin que ocupa la mediana de la siguiente manera:
Me = 8 + 10 = 9 , resulta del promedio de los dos valores centrales 8 y 10. 2 6 6 y +1, 2 2 sto es : 3 y 4. Entonces la

Si cambiamos la ltima observacin por otra anormalmente grande, esto no afecta a la mediana, pero si a la media: 5

10

11

120

x = 80 ,

Me = 9

En este caso la media no es un posible valor de la variable, y se ha visto muy afectada por la observacin extrema. Este no ha sido el caso para la mediana. CASO III: Variables discretas no agrupadas: (cuando los datos son grandes) 1) 2) Se calcula n/2 y se construye la columna de las Fi ( frecuencias acumuladas ) Se observa cual es la primera Fi que supera o iguala a n/2, distinguindose dos casos:
n < F j , entonces se toma como Me= xj 2 x + x j +1 ii) Si existe un valor i tal que Fj = n/2, entonces la Me = j , donde xi es un 2

i) Si existe un valor de xi tal que F j 1

valor de la variable. Ejemplo: Sea la distribucin: Xi 2 3 5 7 10 13 fi 3 4 9 10 7 2 Fi 3 7 16 26 33 35

Fj-1 Fj

94

Lugar que ocupa: n/2 = 35/2 = 17,5 Como F j 1


n < Fj 2

16 < 17,5 < 26 , por lo tanto, Me= 7

El otro caso lo podemos ver en la siguiente distribucin: Xi 2 3 5 7 10 fi 3 4 9 10 6 32 Fi 3 7 16 26 32

Fj

Lugar que ocupa: n/2 = 32/2 = 16 Me = Mediana para datos agrupados:

x j + x j +1 2

5+7 =6 2

CASO IV: Se trata de encontrar la mediana para datos agrupados. La variable es continua o discreta, en este caso hay que detectar en que intervalo est el valor mediano. Dicho intervalo se denomina intervalo mediano. Procedimiento: Cada intervalo vendr expresado segn la notacin [ Li-1, Li ); observando la columna de las frecuencias acumuladas, buscaremos el primer intervalo cuya Fi sea mayor o igual

95

que n/2, que ser el intervalo mediano (I.Me); una vez identificado dicho intervalo, procederemos al clculo del valor mediano, debiendo diferenciar dos casos: 1) Si existe el intervalo i tal que F j 1 [ Li-1, Li ); y la mediana es: Frmula 3.10 Donde : Li-1 Ai n fj Fj-1 2) es el lmite inferior del intervalo que contiene a la mediana. es la amplitud de clase o tamao del intervalo que contiene a la mediana. . es el tamao de muestra o el nmero de observaciones. es la frecuencia absoluta del intervalo que contiene a la mediana. . es la frecuencia absoluta acumulada anterior a la frecuencia acumulada del intervalo que contiene a la mediana. . Anlogamente si existe el intervalo i tal que Fj = n/2, la mediana es Me= Li
Me = Li 1 n F j 1 + Ai 2 fj

n < F j , entonces el intervalo mediano es el 2

Ejemplo: Con los datos de la tabla 2.4, calculamos la mediana. Hb (g/dl) 10,0 11,0 11,1 12,1 12,2 13,2 13,3 14,3 14,4 15,4 15,5 16,5 fi 3 7 4 15 0 1 30 Fi 3 10 14 29 29 30

SOLUCION

1 Calculamos 30/2 = 15

96

Observamos la columna de las frecuencias acumuladas, buscaremos el primer intervalo cuya Fi sea mayor o igual que 15, tal que 14 15 < 29 , entonces el intervalo mediano (I.Me) corresponde a [13,3 14,3), puesto que 29 es el F i inmediatamente superior a 15. Luego reemplazamos en la frmula:
Me = Li 1 n F j 1 + Ai 2 fj 30 14 2 =13,3 +1 =13,4 15

Interpretacin: 15 nios tienen hemoglobina menor o igual a 13,4 g/dl y otros 15 nios tienen hemoglobina mayor o igual a 13,4 g/dl. Propiedades de la Mediana: Entre las propiedades de la mediana, vamos a destacar las siguientes:

Es la medida ms representativa en el caso de variables que solo admiten la escala ordinal. En su determinacin no intervienen todos los valores de la variable. En la mediana solo influyen los valores centrales, tiene la ventaja de no estar afectada por el tamao de los valores extremos u outliers, ya que no depende de los valores que toma la variable, sino del nmero de valores observados y del orden de los mismos. Por ello es adecuado su uso en distribuciones asimtricas. La mediana es un valor muy adecuado cuando se utiliza para describir distribuciones cuyos valores centrales estn muy prximos. Algunas veces es un valor ms representativo de un conjunto de datos que otros promedios, gracias a su independencia a sus valores extremos. Es de clculo rpido y de interpretacin sencilla. La mediana se puede calcular an cuando los intervalos de clase de la distribucin de frecuencias son de lmites abiertos. A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. La mediana de la variable nmero de hijos toma siempre valores enteros).

Ejemplo: Obtener la media aritmtica y la mediana en la siguiente distribucin. Determinar grficamente cul de los dos promedios es ms significativo. Li-1 - Li 0 - 10 10 - 20 20 - 30 30 - 100 100 - 500 fi 60 80 30 20 10

97

Solucin:

Li-1 - Li 0 - 10 10 - 20 20 - 30 30 - 100 100 - 500

fi 60 80 30 20 10 n=200

Fi 60 140 170 190 200

Ai 10 10 10 70 400

mi 5 15 25 65 300

mi fi = 6.550

mi fi 300 1.200 750 1.300 3.000

La media aritmtica es:

x=

1 6.550 mi fi = = 32,75 n 200

Para hallar la mediana primero obtenemos n/2=100, luego en la columna de frecuencias acumuladas vemos que la primera frecuencia absoluta acumulada que supera el valor de 100 es Fi=140. Por ello el intervalo mediano es [10; 20).
Me = Li 1 n F j 1 + Ai 2 fj 100 60 = 10 +10 = 15 80

Para ver la representatividad de ambos promedios, realizamos el histograma en la siguiente figura y observamos que dada la forma de la distribucin, la mediana es ms representativa que la media.
Figura: Para esta distribucin de frecuencias es ms representativo usar como estadstico de tendencia central la mediana que la media.

98

2. Medidas de Localizacin: Moda Cuantiles

MODA (Mo): La moda de un conjunto de datos, es el valor que ocurre con ms frecuencia, es denotada por Mo. Es un valor de la variable que tiene la ms alta frecuencia, o es el valor ms frecuente de la distribucin. La moda no siempre existe y no siempre es nica. Cuando no hay un valor que se repita decimos que no hay moda. Cuando dos valores ocurren con la misma mayor frecuencia, decimos que el conjunto de datos es bi modal. Cuando ms de dos valores ocurren con la misma mayor frecuencia decimos que el conjunto de datos es multimodal. Cuyo procedimiento de clculo es como sigue: Moda para datos no agrupados: Ejemplo: Determinar la moda para cada uno de los siguientes conjuntos de datos. a. 5 b. 1 c. 1 5 2 2 5 2 3 3 2 6 1 3 7 5 4 8 1 5 9 4 3 6 6 10. 5. 6 7 9

Solucin: a. El nmero 5 es la moda, porque es el valor que ocurre con ms frecuencia. El conjunto de datos es unimodal.

99

b. Los nmeros 2 y 6 son ambas modas, porque ocurren con la misma frecuencia. El EDAD (AOS) fi < 10 10 10 20 15 fj-1 I.Mo 20 30 20 fj 30 40 04 fj+1 >40 01 conjunto de datos es bimodal. c. No hay moda, porque no hay valor que se repita. Entre las diferentes medidas de posicin se considera a la moda como la nica medida que puede ser usada con datos a nivel nominal en la escala de medicin, como se ilustra en el siguiente ejemplo: Ejemplo: En un estudio de tiempos de reaccin concerniente a 30 sujetos zurdos, 50 sujetos diestros, y 20 sujetos quienes son ambidextros. A pesar de que no podemos numricamente promediar estas caractersticas, podemos referir que la moda es diestro, porque es la caracterstica con la mayor frecuencia. Moda para datos agrupados: 1er Paso: Se identifica la clase modal (clase de mayor frecuencia). En el caso de variables continuas es ms correcto hablar de clases o intervalos modales. Una vez que este intervalo, (li-1, li], se ha obtenido, se utiliza la siguiente frmula para calcular la moda: 1 Mo = Li 1 + Ai Frmula 3.11 + 1 2 Donde : Li-1 Ai es el lmite del intervalo modal (al que corresponde la mayor frecuencia. es la amplitud de clase. = fj fj-1 (fj es la frecuencia del intervalo modal) = fj fj+1

1 2

Ejemplo : Dada la siguiente distribucin de pacientes segn edad, obtenga la moda.

100

Reemplazando en la frmula:
1 Mo = Li 1 + Ai + 1 2 5 = 20 + 10 5 + 16 = 22.38aos

Interpretacin: Es mas frecuente encontrar pacientes con edad de 22 aos. Propiedades de la moda: De la moda destacamos las siguientes propiedades: El valor de la moda es totalmente independiente de los valores extremos. La moda est en funcin de los intervalos elegidos a travs de su amplitud, nmero y lmites de los mismos, es una medida inestable porque vara si se cambia el intervalo de clase. Aunque el primero o el ltimo de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada Es muy fcil de calcular. Puede no ser nica. Su significado es limitado cuando no se dispone de un gran nmero de valores. La moda no se presta a manipulaciones algebraicas posteriores.

Relacin emprica entre media, mediana y moda Para curvas de frecuencias unimodales que sean moderadamente sesgadas, se tiene la relacin emprica: Media Moda = 3(Media Mediana). En este caso de distribuciones unimodales, la mediana est con frecuencia comprendida entre la media y la moda (incluso ms cerca de la media). En distribuciones que presentan cierta inclinacin, es ms aconsejable el uso de la mediana. Sin embargo en estudios relacionados con propsitos estadsticos y de inferencia suele ser ms apta la media. Veamos un ejemplo de clculo de estas tres magnitudes. Ejemplo: Consideramos una tabla estadstica relativa a una variable continua, de la que nos dan los intervalos, marcas de clase mi, y las frecuencias absolutas, fi. Intervalos 0 -- 2
mi fi

101

2 -- 4 4 -- 6 6 -- 8 8 - 10

3 5 7 9

1 4 3 2

Para calcular la media podemos aadir una columna con las mi f i cantidades. La suma de los trminos de esa columna dividida por n = 12 es la media: Intervalos 0 -- 2 2 -- 4 4 -- 6 6 -- 8 8 - 10 mi 1 3 5 7 9 fi 2 1 4 3 2 Fi 2 3 7 10 12
mi f i

2 3 20 21 18 64

La media aritmtica es:


x=

1 64 mi fi = = 5,3 n 12

La mediana es el valor de la variable que deja por debajo de s a la mitad de las n observaciones, es decir n/2 = 6. Construimos la tabla de las frecuencias absolutas acumuladas, Fi, y vemos que la primera frecuencia absoluta acumulada que supera el valor de 6 es Fi = 7, esto ocurre en la modalidad tercera, es decir: i = 3 . Por ello el intervalo mediano es [l i 1, l i ) =[4,6) , que es el intervalo donde se encuentra la mediana
Me = Li 1 n F j i + Ai 2 fj 12 3 = 4 + 2 2 = 5,5 l i 1, l i ) 4

Para el clculo de la moda, lo primero es encontrar los intervalos modales, buscando el mximo valor en la columna de las frecuencias absolutas, fi. Vemos que la moda correspondiente a la modalidad i=3, se encuentra en el intervalo modal [4;6), siendo la moda el punto perteneciente al mismo que se obtiene como:
1 4 1 Mo = Li 1 + Ai ( 4 1) + (4 3) = 5,5 + = 4 + 2 1 2

102

Cuando los datos se distribuyen de forma simtrica (esto ocurre cuando los valores de su media y mediana estn prximos), se usan para describir esa variable su media y desviacin tpica. En el caso de distribuciones asimtricas, la mediana y la amplitud son medidas ms adecuadas. En este caso, se suelen utilizar adems los cuartiles y percentiles. CUANTILES.Los cuantiles no son medidas de tendencia central sino medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales. El trmino cuantil es el nombre genrico para un punto de divisin relacionado con cualquier particin. Son cuantiles los percentiles, deciles, cuartiles.

Relacin entre los cuantiles P25 P0 | Do P10 | D1 P20 | D2 P30 | D3 Q1 Percentiles: Los percentiles son 99 valores que dividen al conjunto de observaciones en 100 partes iguales, en los que cada uno de ellos concentra el 1% de los resultados. Percentiles para datos no agrupados: Para una variable discreta, el percentil, es el valor de la variable que indica el porcentaje de una distribucin que es igual o menor a esa cifra. Se define el percentil de orden k, (Pk) es el valor por debajo del cual cae el k% de las observaciones. As por ejemplo, el percentil 30, (P30), es el valor por debajo del cual cae el 30% de las observaciones. Esta definicin nos recuerda a la mediana, pues como consecuencia de la definicin es evidente que Me = P50. Percentiles para datos agrupados: En el caso de una variable continua, el intervalo donde se encuentra Pk ( Li 1, Li ] , se calcula buscando el que deja debajo de si al k% de las observaciones. Dentro de l, Pk se obtiene mediante la frmula: P40 | D4 P50 | D5 Q2 P60 | D6 P70 | D7 Q3 P75 P80 | D8 P90 | D9 P100 | D10

103

Frmula 3.12 Donde: Li-1 Ai fj

Pk = Li 1

kn F j 1 + Ai 100 fj

es el lmite inferior del intervalo que contiene el percentil k. es la amplitud de clase. es la frecuencia absoluta correspondiente al intervalo que contiene el percentil k.

Fj1 es la frecuencia acumulada de la clase precedente a la que contiene a k. Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distribucin, por lo que no puede considerrsele como una medida de tendencia central. Ejemplo: En la siguiente distribucin calcule P25. N unidades Vendidas por semana < 12 12 24 24 36 36 48 48 60 60 - 72 N farmacias fi 06 10 14 05 03 02 40 Solucin
kn 25 x 40 F j 1 6 100 100 =12 +12 =16.8 Pk = Li + A fj 10

Fi 06 16 30 35 38 40 Fj-1 Fj

1 calculamos:

rn 25 x 40 = = 10 100 100

De los Fi el inmediatamente mayor es 16, entonces el intervalo que contiene a P 25 es el que va de 12 24 Reemplazando en la frmula:
kn F j 1 Pk = Li + A 100 fj 25 x 40 6 100 =12 +12 =16.8 10

P25 = 16,8

104

Interpretacin: Es decir que el 25% de las farmacias locales vendieron menos de 16.8 unidades del especfico de inters. Cuartiles: Son un caso particular de los percentiles. Son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro partes iguales, en los que cada uno de ellos concentra el 25% de las observaciones. Los cuartiles son los valores de la variable que dejan por debajo de s el 25%, 50% y el 75% del total de las observaciones y as tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y el tercer cuartil (Q3) y se definen como:
Q1 Q2 Q3 = = = P25 P50 P75 = Me

Cuartiles para datos no agrupados: Ejemplo: Dada la siguiente distribucin correspondiente al nmero de hijos de cien familias, calcular sus cuartiles. x
i

fi 14 10 15 26 20 15 n=100

Fi 14 24 39 65 85 10 0

0 1 2 3 4 5 Solucin: 1. Primer cuartil:


n = 25 4

Observamos en la columna de las frecuencias absolutas acumuladas y encontramos que de los Fi el inmediatamente mayor es Fi = 39 > n/4; luego Q1 = 2. Se interpreta como: 25 familias tienen 2 menos hijos y las 75 familias restantes tienen 2 ms hijos. 2. Segundo cuartil:
2n = 50 4

Observamos en la columna de las frecuencias absolutas acumuladas y encontramos que de los Fi el inmediatamente mayor es Fi = 65 > 2n/4; luego Q 2 = 3. Se interpreta como: 50 familias tienen 3 menos hijos y las 50 familias restantes tienen 3 ms hijos.

105

3. Tercer cuartil:

3n = 75 4

Observamos en la columna de las frecuencias absolutas acumuladas y encontramos que de los Fi el inmediatamente mayor es Fi = 85 > 3n/4; luego Q3 = 4. Se interpreta como: 75 familias tienen 4 menos hijos y las 25 familias restantes tienen 4 ms hijos. Cuartiles para datos agrupados: Primer Cuartil: Frmula 3.13 Q1 = Li 1 Segundo Cuartil: Frmula 3.14 Q2 = Li 1 Tercer Cuartil: Frmula 3.15 Q3 = Li 1
3n F j 1 + Ai 4 fj 2n F j 1 + Ai 4 fj n F j 1 + Ai 4 fj

Ejemplo: En la siguiente tabla se muestran datos de los pesos de 20 personas: li-1 -- li 38 -- 45 45 -- 52 52 -- 59 59 -- 66 66 -- 73 Encontrar: Q1, Q2 y Q3. Solucin: Para calcular: Q1, Q2 y Q3, aadimos a la tabla la columna con las frecuencias acumuladas, para localizar qu intervalos son los que contienen a los cuartiles buscados:
li-1 -- li 38 45 fi 2 Fi 2

fi 3 2 7 3 5 20

106

45 52 52 59 59 66 66 -- 73

2 7 3 6 20

4 11 14 20
Q3

Q1,Q2

Q1, y Q2 se encuentran en el intervalo 52 - 59, ya que F3=11 es la primera frecuencia acumulada que supera a 20/4 y 20(2)/4. Q3 se encuentra en el intervalo 66 - 73, pues F5=20 es la primera frecuencia acumulada que supera a 20(3)/4. As se tiene que:
n F j 1 20 5 4 4 = 52 + 7 = 5 i = 3 Q1 = Li 1 + Ai = 53 4 fj 7 2n F j 1 2(20) 10 4 4 = 52 + 7 = 10 i = 3 Q2 = Li 1 + Ai = 58 4 fj 7 3n F j 1 3( 20 ) 15 14 4 = 66 + 7 = 15 i = 4 Q3 = Li 1 + Ai = 67,17 4 fj 6

Obsrvese que Q2 = Me. Esto es lgico, ya que la mediana divide a la distribucin en dos partes con el mismo nmero de observaciones, y Q2, hace lo mismo, pues deja a dos cuartos de los datos por arriba y otros dos cuartos por debajo de su valor. Ejemplo: La distribucin de una variable tiene por polgono acumulativo de frecuencias el de la siguiente figura. Si el nmero total de observaciones es 50: 1. Elaborar una tabla estadstica con los siguientes elementos: intervalos, marcas de clase, frecuencias absolutas, frecuencias absolutas acumuladas, frecuencias relativas y frecuencias relativas acumuladas. 2. Cuntas observaciones tuvieron un valor inferior a 10, cuntas inferior a 8 y cuntas fueron superior a 11. 3. Calcule la moda. 4. Determine los cuartiles.

Figura: Diagrama acumulado de frecuencias relativas.

107

Solucin: 1. Construimos la tabla de frecuencias: En primer lugar vemos en el grfico que muestra los intervalos y las frecuencias relativas acumuladas. Teniendo los intervalos podemos calcular la amplitud de cada intervalo (Ai) y las marcas de clase (mi), as: En el intervalo [0,5) la amplitud Ai es 5 y la marca de clase mi es En el intervalo [5,7) la amplitud Ai es 2 y la marca de clase mi es
0+4 =2. 2 5+6 = 5,5 . 2 7 + 11 =9. 2 12 + 14 = 13 . 2

En el intervalo [7,12) la amplitud Ai es 5 y la marca de clase mi es

En el intervalo [12,15) la amplitud Ai es 3 y la marca de clase mi es

Tambin contamos con las frecuencias relativas acumuladas podemos obtener las frecuencias relativas simples. Asi: H1 = h1 = 0,2 H2 = h1 + h2 = 0,2 + h2 = 0,7. Entonces: h2 = 0,7 0,2 = 0,5 H3 = h1 + h2 + h3 = 0,2 + 0,5 + h3 = 0,8. Entonces: h3 = 0,8 0,7 = 0,1 H4 = h1 + h2 + h3 + h4 = 0,2 + 0,5 + 0,1 + h4 = 1. Entonces: h4 = 1 0,7 = 0,2 Conociendo las frecuencias relativas, podemos calcular las frecuencias absolutas de la siguiente manera h1 = f1 f1 = h1 (n) = 0,2(50) = 10 n

108

h2 =
h3 =
h4 =

f2 f 2 = h2 ( n) = 0,5(50) = 25 n
f3 f 3 = h3 n = 0,1 50 = 5 n
f4 f 4 = h4 n = 0,2 50 = 10 n

En la siguiente tabla se proporciona la informacin pedida: Intervalos


0-5 5-7 7 - 12 12 - 15

fi 10 25 5 10 50

Fi 10 35 40 50

hi 0,2 0,5 0,1 0,2 1,0

Hi
0,2 0,7 0,8 1

mi 2 5,5 9 13

Ai 5 2 5 3

2. Calculemos el nmero de observaciones:

10 + 25+3 = 38 observaciones tomaron un valor inferior a 10

10 + 25+1 = 36 observaciones tomaron un valor inferior a 8 El nmero de observaciones que tomaron valores superiores a 11 es la que est comprendida en el intervalo de 12 a 15 que son 10 observaciones.
1 15 3.Moda: Mo = Li 1 + Ai + = 5 + 2 15 + 20 = 5,86 1 2

4. Cuartiles:

109

n F j 1 12,5 10 = 5 + 2 Q1 = Li 1 + Ai 4 = 5,2 fj 25 2n F j 1 25 10 = 5 + 2 Q2 = Li 1 + Ai 4 = 6,2 f 25 j 3n F j 1 37,5 35 = 7 + 5 Q3 = Li 1 + Ai 4 = 9,5 fj 5

Deciles: De forma anloga se definen como D1, D2, ..., D9, 9 valores de la variable que dividen a las observaciones en 10 grupos de igual tamao, en los que cada uno de ellos concentra el 10% de los resultados. Frmula 3.16
Pk = Li 1 kn F j 1 + Ai 100 fj

3.2.2. - Medidas de Dispersin o Variabilidad: Al describir datos continuos otro aspecto importante es la dispersin de los mismos. Al grado en que los datos tienden a extenderse alrededor de una medida de tendencia central se le llama variacin o dispersin de los datos. Este tipo de medida nos permiten identificar que tanto se dispersan los datos alrededor de su media, nos indican si esos datos o valores estn prximos entre s o por el contrario estn muy dispersos. Existen distintas formas de cuantificar esa dispersin. Las medidas de dispersin o variabilidad ms comunes son: Amplitud o Rango. Rango Intercuartil Desviacin Media. Varianza Desviacin Estndar y Coeficiente de variacin

Este tipo de medidas nos permiten identificar que tanto se dispersan los datos alrededor del punto central; es decir, nos indican cuanto se desvan las observaciones alrededor de su media. AMPLITUD O RANGO:

110

Cuando se quieren sealar valores extremos en una distribucin de datos, se suele utilizar la amplitud o rango como medida de dispersin. La amplitud es la diferencia entre el valor mayor y el menor de la distribucin. Para datos no agrupados: Mide la amplitud de los valores de la muestra y se calcula por diferencia entre la observacin mayor y la observacin menor: R = X max X mn. Es fcil de calcular y de gran utilidad cuando el nmero de datos es pequeo (n < 12) sus unidades son las mismas que las de la variable, aunque posee varios inconvenientes:

No utiliza todas las observaciones (slo dos de ellas); Se puede ver muy afectada por alguna observacin extrema; El rango aumenta con el nmero de observaciones, o bien se queda igual. En cualquier caso nunca disminuye.

Como puede observarse es sensible a valores extremos, no se obtiene una idea clara de la dispersin, puesto que varias distribuciones diferentes pueden tener la misma amplitud o rango. Es de poca utilidad cuando el nmero de datos es mayor, no nos da ninguna informacin sobre lo que ocurre entre estos valores extremos. En este caso de amplitud no indica en modo alguno la forma de distribucin de datos. RANGO INTERCUARTIL: DESVIACIN MEDIA Para datos no agrupados: Se define la desviacin media como la media Aritmtica de los valores absolutos de las desviaciones, que es el promedio de las distancias a la media. Es decir, si tenemos un conjunto de n observaciones, x1, ..., xn, entonces Frmula 3.17 Donde: n es el nmero de datos de la muestra. es el i-simo valor de la muestra es la media aritmtica son las desviaciones o las diferencias entre cada valor de la variable y la media aritmtica.

DM =

xi x
i

xi
X
xi x

111

x i x

son los valores absolutos de las desviaciones.

Clculo de la D.M: 1. Calcular la X de la distribucin de datos.


2. Calcular la desviacin xi x entre cada dato y la media.

3. Calcula el valor absoluto de cada desviacin

x i x

xi 4. Sumar los valores absolutos de las desviaciones.

5. Dividir esta suma por el nmero de datos

xi x
i

Ejemplo: Calcular la desviacin media de la siguiente distribucin de datos: xi 32 32 34 31 36 33 35 37 34 38 32

n
xi x

x i x

-2 -2 0 -3 +2 -1 +1 +3 0 4 -2
x
i x =0

2 2 0 3 2 1 1 3 0 4 2

x = 20

x=

x
i =1

n
i

= 34

DM =

xi x
n

20 = 1,81 11

Interpretacin: D.M. = 1,81, significa que cada uno de los valores de la variable se diferencia en promedio de la media en una unidad y 81 cntimos. Dado que el valor es relativamente

112

pequeo se puede decir que el conjunto de los valores de la variable se aproxima bastante al valor medio ( la dispersin es pequea). Para datos agrupados:
Si los datos estn agrupados en una tabla estadstica es ms sencillo usar la relacin

Frmula 3.18

D.M =

m
i =1

x fi

Ejemplo: Hallar la D.M. en la siguiente distribucin de datos. Hb [ ) 10.0 10.8 10.8 11.6 11.6 12.4 12.4 13.2 13.2 14.0 14.0 14.8 14.8 15.6 15.6 16.4
k
mi x

mi 10.4 11.2 12.0 12.8 13.6 14.4 15.2 16.0

mi x

mi x f i

-2.5 -1.7 -0.9 -0.1 0.7 1.5 2.3 3.1

2.5 1.7 0.9 0.1 0.7 1.5 2.3 3.1

7.5 6.8 2.7 0.4 7.7 6.0 0.0 3.1

D.M =

m
i =1

x fi

34.2 = 1.14 30

Interpretacin: D.M = 1.14, significa que cada uno de los valores de la variable se diferencia en promedio de la media en 1.14. Por lo tanto la dispersin es pequea. Observacin: Como se observa, la desviacin media guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente: Desde el punto de vista geomtrico, la distancia que induce la desviacin media en el espacio de observaciones no es la natural (no permite definir ngulos entre dos conjuntos de observaciones). Esto hace que sea muy engorroso trabajar con ella a la hora de hacer inferencia a la poblacin. VARIANZA: Esta medida es la ms utilizada, nos permite identificar el promedio de diferencia que hay entre cada uno de los valores respecto a su punto medio, este promedio es calculado,

113

elevando cada una de las diferencias al cuadrado, sumado todos los cuadrados de sus diferencias y dividiendo por el numero de observaciones que se tengan y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. Varianza para datos no agrupados a) La varianza poblacional se representa por 2: Si la varianza es calculada a una poblacin (total de componentes de un conjunto o serie de datos), la ecuacin sera: Frmula 3.19 Donde: Xi, N son los valores de la variable. es la media de la poblacin. es el nmero total de datos.

2 =

( X )
i =1 i

Donde (2) representa la varianza, (Xi) representa cada uno de los valores de la variable, () representa la media poblacional y (N) es el nmero de observaciones tamao de la poblacin. En el caso que estemos trabajando con una muestra la ecuacin que se debe emplear es: b) La varianza muestral se denota por S2: Si la varianza es calculada de una muestra, la ecuacin sera: Frmula 3.20
x x i 2 i =1 S = n 1 n 2

Clculo: 1. Calcular la media aritmtica del conjunto de datos.


2. Calcular la desviacin xi x entre cada dato y la media de la distribucin.

3. Calcular el cuadrado

xi x

de estas desviaciones.
xi x 2

4. Sumar los cuadrados de las desviaciones

114

xi x 5. Dividir la suma por el nmero de datos menos uno i =1 n 1 n

Ejemplo: Calcular la varianza con los datos de la distribucin anterior. xi 32 32 34 31 36 33 35 37 34 38 32


x x i = 52 = 5,2 2 i =1 S = n 1 10 n 2
xi x
2

xi x

-2 -2 0 -3 +2 -1 +1 +3 0 4 -2

4 4 0 9 4 1 1 9 0 16 4

Varianza para datos agrupados: Se calcula como la sumatoria de las diferencias al cuadrado entre cada valor del punto medio o marca de clase y la media, multiplicadas por el nmero de veces que se ha repetido cada valor y se divide por el tamao de la muestra menos uno. La varianza muestral pata datos agrupados se define mediante la frmula: Frmula 3.21 o por su equivalente: Frmula 3.22
2 2 m f n x i i i = 1 S2 = n 1 k

mi x f i S 2 = i =1 n 1 k

Ejemplo: Hallar la varianza para la siguiente distribucin.

115

[ ) Hb 10.0 10.8 10.8 11.6 11.6 12.4 12.4 13.2 13.2 14.0 14.0 14.8 14.8 15.6 15.6 16.4
m
i =1 k

mi 10.4 11.2 12.0 12.8 13.6 14.4 15.2 16.0 30


2

fi 3 4 3 4 11 4 0 1

mi2 fi 324.48 501.76 432.00 655.36 2034.56 829.44 0 256.00 5033.60

2 i

S2 =

f i n x n 1

5033.6 30(12.88) 2 = = 1.96 29

Propiedades de la Varianza: La varianza siempre va ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de los datos alrededor de la media y mientras mayor sea la varianza, ms dispersos sern los valores de los datos. La varianza no tiene la misma magnitud que las observaciones (ejemplo, si las observaciones se miden en metros, la varianza lo hace en metros al cuadrado.). Si queremos que la medida de dispersin sea de la misma dimensionalidad que las observaciones bastar con tomar su raz cuadrada. Se refiere a la desviacin estndar tpica. Desviacin Estndar o Tpica: La desviacin estndar o tpica (S), es la raz cuadrada de la varianza. Expresa la dispersin de la distribucin y se expresa en las mismas unidades de medida de la variable. La desviacin tpica es la medida de dispersin ms utilizada en estadstica, posee las propiedades que necesitamos para realizar inferencias a la poblacin.
= 2 En la poblacin
S = S2

En la muestra.

La desviacin estndar del ejemplo anterior es:


S = S 2 = 5,2 = 2,28

Observaciones: Como medidas de variabilidad ms importantes, conviene destacar algunas caractersticas de la varianza y desviacin tpica. Adems de las observaciones hechas a la varianza (y por tanto est sobre entendido la desviacin estndar), es conveniente mencionar otras que enunciamos a continuacin:

116

Para su clculo se utilizan todos los datos de la distribucin; por tanto, cualquier cambio de valor ser detectado. Ambas medidas son sensibles a la variacin de cada uno de los datos, es decir, si un dato cambia, cambia con ella la varianza. La razn es que si miramos su definicin, la varianza es funcin de cada uno de los datos. Si se calculan a travs de datos agrupados en una tabla de frecuencias, dependen de los intervalos elegidos. Es decir, cometemos cierto error en el clculo de la varianza cuando los datos han sido resumidos en una tabla estadstica mediante intervalos, en lugar de haber sido calculados directamente como datos no agrupados. Este error no ser importante si la eleccin del nmero de intervalos, amplitud y lmites de los mismos ha sido adecuada. La desviacin estndar tiene la propiedad de que en el intervalo se encuentra, al menos, el 75% de las observaciones (vase el teorema de Thebycheff). Incluso si tenemos muchos datos y estos provienen de una distribucin normal podremos llegar al 95%. Al aumentar el tamao de la muestra, disminuye la varianza y la desviacin tpica. Para reducir a la mitad la desviacin tpica, la muestra se tiene que multiplicar por 4. Cuando todos los datos de la distribucin son iguales, la varianza y la desviacin tpica son iguales a 0. Intervalos fi 7 -- 9 9 -- 11 11 -- 12 12 -- 13 13 -- 14 14 -- 15 15 -- 17 17 -- 19 4 18 14 27 42 31 20 1

Ejemplo: Las edades de un grupo de personas se reflejan en la tabla siguiente:

Determinar la variabilidad de la edad mediante los estadsticos varianza, desviacin estndar o tpica, coeficiente de variacin y rango intercuartlico. Solucin: En primer lugar realizamos los clculos necesarios a partir de la tabla de frecuencias: Intervalos 7 -- 9 fi 4 mi 8 Fi 4 mi fi 32 mi2 fi 256,00

117

9 -- 11 11 -- 12 12 -- 13 13 -- 14 14 -- 15 15 -- 17 17 -- 19

18 14 27 42 31 20 1 157

10 11,5 12,5 13,5 14,5 16 18

22 36 63 105 136 156 157

180 161 337,5 567 449,5 320 18 2.065

1.800,00 1.851,50 4.218,75 7.654,50 6.517,75 5.120,00 324,00 27.742,25

La media es

n columna mi2 fi como sigue:


m
i =1 k

x=

fm
i =1 i
2

aos. La varianza la calculamos a partir de la 2.065 = 13,15 157

2 i

S2 =
S =

f i n x n 1

27.742,25 157(13,15) 2 aos2 = = 3,78 156

= 3,78 =1,94

aos.

Coeficiente de Variacin (C.V.) Es una medida de dispersin que se utiliza en la comparacin de dos o ms variables que estn expresadas en diferentes magnitudes. Se define como el cociente entre la desviacin estndar de una distribucin de datos y su media aritmtica, multiplicado por 100. El resultado puede expresarse en forma de porcentaje. Frmula 3.23 C.V = S X

x100

Ejemplo: Es una muestra de 180 pacientes de 16 aos se han medido la talla y el peso obteniendo los siguientes resultados. Talla: Peso:
X =1,65m S = 0,07 m X = 55kg S = 4kg

Calcule los coeficientes de variacin respectivos. Solucin:

118

a)

C.VT =

S X

x100 =

0,07 x100 = 4,24% 1,65

Lo que representa que la desviacin estndar de las tallas de los 180 pacientes resulta ser aproximadamente el 4.24% del valor promedio de las tallas. b) C.VP = S X

x100 =

4 x100 = 7,27% 55

Lo que representa que la desviacin estndar de los pesos de los 180 pacientes resulta ser un 7.27% del valor medio de los pesos. De a y b observamos que: CVT < CVP. Lo que significa que las tallas de los pacientes presentan menos variacin entre si que los pesos correspondientes en los mismos pacientes. Para comparar una serie de datos como hemos visto el nivel de dispersin de la talla de los pacientes y otra serie como es el peso de dichos pacientes, sus unidades de medida son muy diferentes, no se puede utilizar las desviaciones estndar o tpicas (una serie viene expresada en cm y la otra en kg). En cambio, sus coeficientes de variacin son ambos porcentajes, por lo que s se pueden utilizar. Ejemplo Si tenemos el peso de 5 pacientes: 70, 60, 56, 83 y 79 Kg, cuya media es de 69,6 kg y su desviacin tpica o estndar S = 10,44 Kg y la tensin arterial sistlica (TAS) de los mismos pacientes:150, 170, 135, 180 y 195 mmHg, cuya media es de 166 mmHg y su desviacin tpica de 21,3 mmHg. La pregunta sera: qu distribucin es ms dispersa, el peso o la tensin arterial?. Observamos que la desviacin tpica de la tensin arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variacin: Solucin: CV de la variable peso = 69,6 x100 = 15% CV de la variable TAS =
21,30 x100 = 12,8% 166
10,44

Observamos que la distribucin de la variable peso es mas dispersa, como el coeficiente de variacin no posee unidades se puede decir que hay un 15% de variabilidad de la variable peso. Observacin: El inters del coeficiente de variacin es que al ser un porcentaje permite comparar el nivel de dispersin de dos muestras. Esto no ocurre con la desviacin tpica o estndar, ya que viene expresada en las mismas unidades que la serie de datos.

119

Ejemplo: vamos a utilizar la tabla de distribucin de frecuencias con los datos de estaturas de los alumnos del segundo semestre 2008 de la Escuela de Enfermera de la UNDAC., para calcular medidas de posicin y de dispersin. Variable (Valor) 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 Frecuencias Absolutas fi Fi 2 2 4 6 4 10 6 16 3 19 1 20 2 22 2 24 3 27 2 29 1 30 30 Frecuencias Relativas hi Hi 0,067 0,067 0,133 0,200 0,133 0,333 0,200 0,533 0,100 0,633 0,033 0,666 0,067 0,733 0,067 0,800 0,100 0,900 0,067 0,967 0,033 1,000 1.000

Vamos a calcular los valores de las Medidas de Posicin:

Media aritmtica:

x=

1,55(2) + 1,56(4) + 1,57(4) + 1,58(6) + ................ + 1,65(1) 47,75 = = 1,59 n 30 30 Por lo tanto, la estatura media de este grupo de alumnos es de 1,59 cm.
i =1 i i

x f

Media geomtrica:
n2 n3 x = x1n1 x 2 x3 ....... x knk

1/ n

n2 n3 nk x y = n x1n1 x 2 x3 ......x k = 30 1,55 2 1,56 4 1,57 4 ...... 1,651 = 1,59

Por lo tanto, la estatura media de este grupo de alumnos es de 1,59 cm. En este ejemplo la media aritmtica y la media geomtrica coinciden, pero no tiene siempre por qu ser as. Mediana:

120

La mediana de esta muestra es 1,58 cm, ya que por debajo est el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas. Moda: La moda de esta muestra es 1,58 cm., es el valor que se repite en 6 ocasiones. Cuartiles 1 cuartil: es el valor 1,57 cm, ya que por debajo de este valor se sita el 25% de la frecuencia (tal como se puede ver en la columna de las frecuencias relativas acumuladas). 2 cuartil: es el valor 1,58 cm, ya que entre este valor y el 1 cuartil se sita otro 25% de la frecuencia. 3 cuartil: es el valor 1,62 cm, ya que entre este valor y el 2 cuartil se sita otro 25% de la frecuencia. Adems, por encima de este valor queda el restante 25% de la frecuencia. Medidas de Dispersin: Rango: Es la diferencia entre el mayor valor de la muestra (1,65) y el menor valor (1,55). Luego el rango de esta muestra es 10 cm. Varianza: recordemos que la media de esta muestra es 1,59. Luego, aplicamos la frmula:
mi x f i (1,55 1,59) 2 2 + (1,56 1,59) 2 4 + (1,57 1,59) 2 4 + .... + (1,65 1,59) 2 1 = S 2 = i =1 = n 1 29 0,0251 S2 = = 0,0008655 29 k 2

) (

Por lo tanto, la varianza es 0,0008655 Desviacin estndar o tpica: es la raz cuadrada de la varianza.
S = S 2 = 0,0008655 = 0,029

Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin tpica y la media de la muestra. C.V = S X

100 =

0,029 100 = 1.82% 1,59

Distribuciones simtricas y distribuciones sesgadas Se dice que la distribucin es simtrica si se puede dividir en dos mitades que parecen ser la imagen una de la otra. En estos casos las frecuencias en los extremos de la distribucin son idnticas. La grfica puede tener diferentes formas. Una de estas formas es la de campana.

121

Para ver el grfico seleccione la opcin Descargar trabajo del men superior Otra forma es la rectangular

Si la distribucin tiene algunos valores extremos muy bajos, entonces en la grfica se nota una cola larga y fina hacia la izquierda de la distribucin y se dice que la distribucin est sesgada negativamente o que tiene un sesgo a la izquierda. Para ver el grfico seleccione la opcin Descargar trabajo del men superior Si la distribucin tiene algunos valores extremos altos, entonces en la grfica se nota una cola larga y fina hacia la derecha de la distribucin y se dice que la distribucin est sesgada positivamente o que tiene un sesgo a la derecha. Para ver el grfico seleccione la opcin Descargar trabajo del men superior La relacin entre la grfica de la distribucin y las medidas de tendencia central y dispersin A. Distribuciones unimodales cuando la media, la moda y la mediana coinciden En distribuciones unimodales cuando la media, la moda y la mediana coinciden la distribucin es simtrica. Para ver el grfico seleccione la opcin Descargar trabajo del men superior Ejemplo La media, mediana y moda coinciden en la distribucin B. Distribuciones unimodales cuando la media, la moda y la mediana no coinciden En distribuciones unimodales cuando la media, la moda y la mediana no coinciden la distribucin es sesgada. Si la media es mayor que la mediana (la media a la derecha de la mediana) entonces la distribucin est sesgada a la derecha (positivamente) Ejemplo Para ver el grfico seleccione la opcin Descargar trabajo del men superior

122

Si la media es menor que la mediana (la media a la izquierda de la mediana) entonces la distribucin est sesgada a la izquierda (negativamente) Ejemplo Para ver el grfico seleccione la opcin Descargar trabajo del men superior Nota En estos casos la media siempre est ms cerca del sesgo que la mediana. Relacin entre las grficas de dos distribuciones con medidas de tendencia central y dispersin iguales o diferentes A. Dos distribuciones con desviacin estndar igual, pero medias diferentes Si dos distribuciones tienen la misma desviacin estndar, pero medias diferentes; entonces van a tener la misma forma. La diferencia consiste en que se encuentran desplazadas a lo largo del eje de x. Para ver el grfico seleccione la opcin Descargar trabajo del men superior B. Dos distribuciones con medias iguales pero desviacin estndar diferentes Si dos distribuciones tienen la misma media, pero sus desviaciones estndar son diferentes; entonces se diferencian en que la que tiene la desviacin estndar ms pequea tiene los valores ms concentrados alrededor de la media y por lo tanto es ms "alta". Ejercicio Para ver el grfico seleccione la opcin Descargar trabajo del men superior La relacin entre la grfica de la distribucin y la grfica de caja y bigote. A. Si ambas partes de la caja son iguales (la mediana en el medio de la caja) y los dos bigotes tambin son iguales, aunque algo ms largos que las partes de la caja entonces la distribucin tiene tipo de campana (bell shaped distribution) Para ver el grfico seleccione la opcin Descargar trabajo del men superior B. Si los bigotes son diferentes y la mediana no se encuentra en el medio de caja entonces la distribucin est sesgada. Negativamente, si el bigote y la parte de la caja largos se encuentran a la izquierda. Positivamente, si el bigote y la parte de la caja largos se encuentran a la derecha. Para ver el grfico seleccione la opcin Descargar trabajo del men superior D. Si los bigotes y las partes de la caja son todos del mismo largo, entonces la distribucin es rectangular o uniforme. Tiene la misma frecuencia en cada uno de sus valores.

123

E. Si los bigotes son cortos y la caja muy larga la distribucin tiene forma de U, con mucha concentracin de valores en los extremos. Para ver el grfico seleccione la opcin Descargar trabajo del men superior Conclusiones Una distribucin de frecuencia es una tabla de resumen en la que los datos se disponen en agrupamientos o categoras convenientemente establecidas de clases ordenadas numricamente. En esta forma las caractersticas ms importantes de los datos se aproximan muy fcilmente, compensando as el hecho de que cuando los datos se agrupan de ese modo, la informacin inicial referente a las observaciones individuales de que antes se dispona se pierde a travs del proceso de agrupamiento o condensacin. La principal ventaja de usar una de estas tablas de resumen es que las principales caractersticas de los datos se hacen evidentes inmediatamente para el lector. La principal desventaja de tal tabla de resumen es que no podemos saber como se distribuyen los valores individuales dentro de un intervalo de clase particular sin tener acceso a los datos originales. El punto medio de la clase, sin embargo, es el valor usado para representar todos los datos resumidos en un intervalo particular. El punto medio de una clase (o marca de clase) es el punto a la mitad de los lmites de cada clase y es representativo de los datos de esa clase.

3.2.3. - Medidas de Distribucin: Sabemos cmo calcular valores alrededor de los cuales se distribuyen las observaciones de una variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecen los mismos con respecto al valor de central. Nos proponemos dar un paso ms all en el anlisis de la variable. En primer lugar, nos vamos a plantear el saber si los datos se distribuyen de forma simtrica con respecto a un valor central, o si bien la grfica que representa la distribucin de frecuencias es de una forma diferente del lado derecho que del lado izquierdo. Si la simetra ha sido determinada, podemos preguntarnos si la curva es ms o menos apuntada (larga y estrecha). Este apuntamiento habr que medirlo comparado a cierta distribucin de frecuencias que consideramos normal. La utilidad de este tipo de medidas radica en la posibilidad de identificar las caractersticas de la distribucin sin necesidad de generar el grfico. Sus principales medidas son la Asimetra y la Curtosis. Simetra Simetra se refiere a, si la curva distribuye aproximadamente la misma cantidad de valores en ambos lados de la media o mediana de una serie de datos. La distribucin es simtrica cuando los valores de la media, mediana y moda coinciden. Para saber grficamente si una distribucin de frecuencias es simtrica, hay que precisar con

124

respecto a qu, podra ser la mediana, ya que para variables continuas divide al histograma de frecuencias en dos partes de igual rea. En base a ella se puede decir que una distribucin de frecuencias es simtrica si el lado derecho de la grfica (a partir de la mediana) es la imagen del lado izquierdo (ver figura).

Figura: Distribuciones de frecuencias: simtrica y asimtricas

Figura Cuando la variable es discreta, decimos que es simtrica, si lo es con respecto a la media.

Asimetra Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor de la Media aritmtica. Hay dos tipos de asimetra posible:

125

Asimetra positiva: Se dice que la asimetra es positiva cuando la mayora de los datos se encuentran por encima del valor de la media aritmtica. Las frecuencias ms altas se encuentran en el lado izquierdo de la media, mientras que en el derecho hay frecuencias ms pequeas, por lo que la cola se encuentra en el lado derecho, como se muestra en la figura, de cola derecha prolongada. La distribucin es asimtrica positiva si la moda, mediana y la media se encuentra en este orden. Asimetra negativa: Se dice que la asimetra es negativa cuando la mayora de los datos se aglomeran en los valores menores que la media aritmtica. Las frecuencias ms altas se encuentran en el lado derecho de la media, mientras que en el izquierdo hay frecuencias ms pequeas, por lo que la cola est en el lado izquierdo, como se muestra en la figura, de cola izquierda prolongada. La distribucin es asimtrica negativa si la media, la mediana y la moda estn en este orden. Estadsticos de asimetra: Cuando realizamos un estudio descriptivo es altamente improbable que la distribucin de frecuencias sea totalmente simtrica. En la prctica diremos que la distribucin de frecuencias es simtrica si lo es de un modo aproximado. Por otro lado, an observando cuidadosamente la grfica, podemos no ver claro de qu lado estn las frecuencias ms altas. Conviene definir entonces unos estadsticos que ayuden a interpretar la asimetra, a los que llamaremos ndices de asimetra, y que denotaremos mediante As . Vamos a definir a continuacin algunos de los ndices de asimetra ms usuales como son: El coeficiente de asimetra de Fisher, el ndice basado en los tres cuartiles, el momento de tercer orden y la distancia entre la moda y la media o la media y la mediana. Coeficiente de Asimetra de Fisher, mide el nivel de asimetra en una distribucin de frecuencias, que se define como: Frmula 3.24
g1 = (1 / n ) x i (1 / n )
x fi 3/ 2 3

2 x x i fi

Donde: (g1) representa el coeficiente de asimetra de Fisher, (xi.) cada uno de los valores de la variable, ( x ) la media aritmtica y (fi) la frecuencia de cada valor. Los resultados de la frmula se interpretan de la siguiente manera: (g1 = 0). Se acepta que la distribucin es Simtrica, es decir, existe aproximadamente la misma cantidad de valores a la derecha y a la izquierda de la media. Este valor es difcil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos ( 0.5).

126

(g1 > 0). La curva es asimtrica positiva, por lo que los valores se tienden a reunir ms en la parte derecha que en la izquierda de la media. (g1 < 0). La distribucin es asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media. Ejemplo: Vamos a calcular el Coefiente de Asimetra de Fisher de la serie de datos referidos a la estatura de un grupo de alumnos. Variable (Valor) 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 Frecuencias Absolutas Simple Acumulada 2 2 4 6 4 10 6 16 3 19 1 20 2 22 2 24 3 27 2 29 1 30 30 Frecuencias Relativas Simple Acumulada 0,067 0,067 0,133 0,200 0,133 0,333 0,200 0,533 0,100 0,633 0,033 0,666 0,067 0,733 0,067 0,800 0,100 0,900 0,067 0,967 0,033 1,000 1.000

Recordemos que la media de esta muestra es 1,59. Luego pasaremos a desarrollar la frmula: Variable (Valor) 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 fi 2 4 4 6 3 1 2 2 3 2 1 30
3

xi x

x i x fi

x i x fi

-0,04
-0,03 -0,02 -0,01 0 0,01 0,02 0,03 0,04 0,05 0,06

0,0032 0,0036 0,0016 0,0006 0 0,0001 0,0008 0,0018 0,0048 0,0050 0,0036

-0 000128 -0,000108 -0,000032 -0,000006 0 0,000001 0,000016 0,000054 0,000192 0,000250 0,000216

0,0251

0,000455

g1 =

(1 / n ) x i (1 / n )

fi x 2 3/ 2

x i x fi

(1 / 30(0,0251)) 3 / 2

1 / 30(0,000455)

= 0,6268

127

Por lo tanto el Coeficiente de Fisher de Simetra de esta muestra es 0,6268, lo que quiere decir que presenta una distribucin asimtrica positiva (se concentran ms valores a la izquierda de la media que a su derecha). ndice basado en los tres cuartiles (Yule-Bowley) Si una distribucin es simtrica, deben haber tantas observaciones entre la que deja por debajo de s las tres cuartas partes de la distribucin y la mediana, como entre la mediana y la que deja por debajo de s un cuarto de todas las observaciones. De forma abreviada esto es, Q3 Q2 = Q2 Q1 Si una distribucin de frecuencias es asimtrica positiva se tiene que: Q3 Q2 > Q2 Q1 Por analoga, si es asimtrica negativa, se tendr Q3 Q2 < Q2 Q1 Para quitar dimensionalidad al problema, utilizamos como ndice de asimetra la cantidad: Frmula 3.25

As =

( Q3 Q2 ) ( Q2 Q1 )
Q3 Q1

1 As =
El nmero obtenido,
As

( Q3 Q2 ) ( Q2 Q1 )
Q3 Q1

, es invariante ante cambios de origen de referencia y de escala.

Figura: Uso de los cuartiles para medir la asimetra

ndice basado en el momento central de tercer orden Sea X una variable cuantitativa y
p .

Llamamos momento de orden p a:

128

P =

1 n p xi n i =1
p

Se denomina momento central de orden p a la cantidad:


mp =
1 n xi x n i =1

Si los datos estn agrupados en una tabla, mp admite otra expresin equivalente:
1 k m p = f i xi x n i =1 p

Ejemplo: Si m2 = 0. El momento de orden 2 es la varianza muestral: m2 = S 2 . Es sencillo comprobar que los momentos de orden p impar, son siempre nulos en el caso de variables simtricas, ya que para cada i que est a un lado de la media, con
xi x < 0 le corresponde una observacin x j x = xi x . Elevando cada una de esas m = 0 que: p si la distribucin es simtrica.

j del otro lado de la media tal que cantidades a p impar, y sumando se tiene
p

Si la distribucin fuese asimtrica positiva, la cantidad

xi x

, con

p 3

impar

positiva estaran muy aumentadas al elevarse a p. Esta propiedad nos indica que un ndice de asimetra posible consiste en tomar p= 3 y definir: Frmula 3.26
1 n x x i m3 n i =1 As = a3 = = 3 S m2 m 2 3

que para datos organizados en una tabla sera:


1 k f i mi x Frmula 3.27 n As = a3 = i =1 3 S 3

Diremos entonces que hay asimetra positiva si a3>0, y que la asimetra es negativa si a3<0. Observacin Hemos dividido m3 por el cubo de S para que a3 sea un nmero abstracto sin dimensiones, independiente de la variabilidad de la variable. Por otro lado, la cantidad As definida por la relacin (2.17) no es la misma que la definida en (2.21). Otros ndices de asimetra

129

Basndonos en que si una distribucin de frecuencias es simtrica y unimodal, entonces la media, la mediana y la moda coinciden, podemos definir otras medidas de asimetra, como son:

o bien, Diremos que hay asimetra positiva si As > 0 y negativa si As < 0.

Ejemplo Las edades de un grupo de personas se reflejan en la tabla siguiente:


Intervalos 7 -- 9 9 -- 11 11 -- 12 12 -- 13 13 -- 14 14 -- 15 15 -- 17 17 -- 19 ni 4 18 14 27 42 31 20 1

Determinar la variabilidad de la edad mediante los estadsticos varianza, desviacin estndar o tpica, coeficiente de variacin y rango intercuartlico. Estudie la simetra de la variable. Solucin: En primer lugar realizamos los clculos necesarios a partir de la tabla de frecuencias:
Intervalos 7 -- 9 9 -- 11 11 -- 12 12 -- 13 13 -- 14 14 -- 15 15 -- 17 17 -- 19 ni 4 18 14 27 42 31 20 1 xi 8 10 11,5 12,5 13,5 14,5 16 18 Ni 4 22 36 63 105 136 156 157 xi ni 32 180 161 337,5 567 449,5 320 18 xi2 ni 256 1.800 1.851,5 4.218,75 7.654,5 6.517,75 5.120 324

130

157

2.065

27.742,25

La media es aos. La varianza la calculamos a partir de la columna de la xi2 ni como sigue:

El coeficiente de variacin no posee unidades y es:

En lo que concierne a la simetra podemos utilizar el coeficiente de asimetra de YuleBowley, para el cual es preciso el clculo de los cuartiles:

Lo que nos dice que aproximadamente en un rango de encuentra el 50% central del total de observaciones. Adems:

aos se

Este resultado nos indica que existe una ligera asimetra a la izquierda (negativa). Un resultado similar se obtiene si observamos en la Figura que la distribucin de frecuencias es unimodal, siendo la moda:

131

Figura: La distribucin de frecuencias de la edad presenta una ligera asimetra negativa.

en cuyo caso podemos usar como medida del sesgo:

Observaciones:

Se podra pensar que definir la simetra usando la mediana para variables continuas y usando la media para variables discretas es una eleccin arbitraria. En realidad esto no es as, pues si una variable es continua, coinciden los ambos criterios de simetra (con respecto a la media y a la mediana). Es ms, se tiene que media y mediana coinciden para distribuciones continuas simtricas. En el caso de variables discretas, la distribucin es simtrica si el lado derecho del diagrama se obtiene por imagen especular desde la media. En este caso coincide la media con la mediana si el nmero de observaciones es impar. Si la variable es continua simtrica y unimodal, coinciden la media, la mediana y la moda.

132

MEDIDAS DE APUNTAMIENTO O CURTOSIS Esta medida determina el grado de concentracin que presentan los valores en la regin central de la distribucin. Si la simetra ha sido determinada, podemos luego preguntarnos si la curva es ms o menos apuntada o no. Este apuntamiento habr que medirlo mediante un patrn de referencia. El patrn de referencia es la distribucin normal o curva simtrica normal o mesocrtica (ver figura). Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentracin de valores (Leptocrtica), una concentracin normal (Mesocrtica) una baja concentracin (Platicrtica). Una curva simtrica con apuntamiento mayor que de la normal, es denominada curva leptocrtica, es decir la distribucin es larga y estrecha (ver figura). Una curva simtrica con apuntamiento menor que de la normal, es denominada curva platicrtica (ver figura).

Figura

Estadsticos de apuntamiento: Se define el coeficiente de curtosis de Fisher como:

Donde m4 es el momento emprico de cuarto orden. Es un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve para medir si una distribucin de frecuencias es muy apuntada o no. Para decir si la distribucin es larga y estrecha, hay que tener un patrn de referencia. El patrn de referencia es la distribucin normal o gaussiana para la que se tiene:

La frmula anterior puede expresarse de la siguiente manera:


1 k x x fi i n i =1 1 k ( xi x) 2 f i n i =1 2 4

K=

133

Donde: (K) representa el coeficiente de Curtosis, (xi.) cada uno de los valores, ( x ) la media y (fi) la frecuencia de cada valor. Tericamente, el valor de la curtosis se mide respecto al nmero 3; es decir, se mide el estado de la curtosis comparando el valor con el nmero 3. Los resultados de esta frmula se interpretan: (K = 0) la distribucin es Mesocrtica, es decir, cuando la distribucin de frecuencias es tan apuntada como la normal. Al igual que en la asimetra es bastante difcil encontrar un coeficiente de Curtosis de cero, por lo que se suelen aceptar los valores cercanos (0.5). (K > 0) la distribucin es Leptocrtica, si la distribucin de frecuencias es ms apuntada que la normal. (K < 0) la distribucin es Platicrtica, si la distribucin de frecuencias es menos apuntada que la normal. Cuando la distribucin de los datos cuenta con un coeficiente de asimetra (g 1 = 0.5) y un coeficiente de Curtosis de (0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayora de los procedimientos de estadstica inferencial se requiere que los datos se distribuyan normalmente. La principal ventaja de la distribucin normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estndar de la media aritmtica, es decir si tomamos la media y le sumamos dos veces la desviacin y despus le restamos a la media dos desviaciones, el 95% de los casos se encontrara dentro de este rango. De este modo, atendiendo a, Leptocrtica: Cuando, Mesocrtica: Cuando, Platicrtica: Cuando, o sea, o sea, se clasifican las distribuciones de frecuencias en

134

3.2.4.- ANALISIS EXPLORATORIO DE DATOS (EDA) Algunas veces observamos o recogemos datos con un objetivo especfico, por ejemplo, para verificar la efectividad de un nuevo tratamiento para el insomnio, pero otras veces no tenemos ningn objetivo especfico y simplemente deseamos explorar los datos para ver lo que ellos revelan. Para explorar los datos, podemos usar muchas de las tcnicas ya presentadas anteriormente, donde vimos tres caractersticas muy importantes de los datos, como son: 1. Un valor promedio 2. Una medida de variacin 3. La naturaleza o forma de la distribucin (distribucin normal o distribucin sesgada) Es importante considerar la distribucin de los datos para utilizar mtodos estadsticos adecuados como tambin el anlisis de los datos a travs de los grficos que utilicemos. Dentro del anlisis exploratorio de datos no debemos simplemente ver un histograma y pensar que comprendemos la naturaleza de la distribucin, porque pueda estar equivocado, ejemplo: por un error involuntario en la base de datos, se ha considerado un valor muy alto con respecto al verdadero valor, se debe tener en cuenta que un simple error en solo uno de los valores va a tener un efecto impresionante en la forma del histograma. En otros casos, tales valores extremos (llamados valores atpicos) pueden ser correctos pero pueden ocultar la verdadera naturaleza de la distribucin cuando son ilustrados a travs de un histograma. Si no impulsamos la exploracin de datos, podemos obtener resultados incorrectos del histograma. Con el anlisis exploratorio de datos, el significado est en las observaciones originales con el objetivo de simplificar la manera que los datos son descritos y ganar intuicin ms profunda en la naturaleza de los mismos. La siguiente tabla compara el anlisis exploratorio de datos y la estadstica tradicional en tres reas principales.

ANALISIS EXPLORATORIO DE DATOS

ESTADSTICA TRADICIONAL

Usado para explorar datos en un nivel preliminar. Pocas o ningunas suposiciones son hechas acerca de los datos. Tiende a incluir clculos y grficos simples. -

Usado para confirmar conclusiones acerca de los datos. Tpicamente requiere algunas suposiciones muy importantes acerca de los datos. Los clculos son a menudo complejos y los grficos son a menudo innecesarios.

La analizacin exploratoria pretende partir de un conocimiento profundo y creciente de los datos para , trabajarlo inductivamente y llegar a un modelo ajustado de los datos. Los pasos en este tipo de anlisis son los siguientes: Anlisis de cada una de las variables incluidas en la matriz de datos. Los datos se agrupan de una manera rpida y a ser posible de forma grfica. Las tcnicas mas utilizadas son:

135

Tallo y hojas La caja y patillas Ambas pretenden: Conocer la variable analizada para determinar si su distribucin es simtrica o no. Poder descubrir valores extremos y analizarlos antes de poder pasar al anlisis multivariante.

Diagramas de Tallo y Hojas:


Es una de las herramientas comnmente usadas en EDA, los cuales no fueron incluidos antes, porque para su elaboracin es necesario de los cuartiles, los cuales fueron discutidos en la seccin anterior (dentro del captulo 3). La construccin de tablas de frecuencia y los correspondientes histogramas nos dan informacin til acerca de la naturaleza de una distribucin de datos; pero, tenemos la desventaja de perder algo de informacin en el proceso. Generalmente no podemos reorganizar el conjunto de datos originales de la tabla de frecuencias o histograma. En cambio los diagramas de tallo y hojas permiten ver la distribucin de datos sin perder informacin en el proceso. En un diagrama de tallo y hojas organizamos los datos segn un esquema que revela la distribucin fundamental. El esquema implica separar un nmero en dos partes, por ejemplo el nmero 121, por lo general los primeros uno o dos dgitos (12) y el otro dgito (7). El tallo consiste en los dgitos del extremo izquierdo (en este caso, 25), y las hojas consisten en los dgitos del extremo derecho (en este caso, 7). EL mtodo se ilustra en el siguiente ejemplo. Ejemplo : Con los datos del ejemplo 4, niveles de colesterol, vamos a construir el diagrama de tallo y hojas. Solucin: Si usamos los dos dgitos del extremo izquierdo para los tallos, seran: 12, 14, 15,.., 28. Luego dibujamos una lnea vertical y listamos las hojas como se muestran abajo. El primer valor en el ejemplo 4, es 121, e incluimos ese valor introduciendo el uno en la fila del tallo 12. Continuamos introduciendo todos los 80 valores. Arreglamos las hojas (los dgitos colocados a la derecha) en orden creciente, de tal manera que la primera fila representa el nmero 121, la segunda fila el nmero 141, la tercera fila representan los nmeros: 155, 156, 156, 156, 156, 156, 159, etc. Tallo 12 14 15 16 17 18 19 20 21 Hojas 1 1 5666669 019 088899 001223788 034556667777889999 00004588999 0189

136

22 23 24 25 27 28

02578899 033 3 006678 5 0

La gran ventaja del diagrama de tallos y hojas es que podemos ver la distribucin de los datos y aun conservamos toda la informacin de los datos originales; si es necesario podramos reconstruir la lista original de valores u observaciones. Puede observar que las filas de dgitos en un diagrama de tallos y hojas son de naturaleza similar a las barras en un histograma. Una de las normas para construir histogramas es que el nmero de clases podra ser entre 5 a 20 y esa misma norma es aplicable al diagrama de tallos y hojas. Este diagrama puede ser ampliado, agregando mas filas y tambin puede ser resumido abarcando menos filas. El primer paso par organizar los datos es decidir el nmero de subdivisiones, llamadas clases o intervalos. Se clasifican las observaciones de 5 en 5. Para formar un diagrama de tallo y hojas, de esta forma, trazar una lnea vertical y colocar los primeros 5 dgitos de cada clase, llamados tallos, del lado izquierdo de la lnea. Los nmeros del lado derecho de la lnea representan el segundo dgito de cada resultado, son las hojas. Cuando es necesario reducir el nmero de filas, reducimos el diagrama, por combinacin de filas adyacentes, como en la siguiente ilustracin. Observe que separamos dgitos en las hojas asociadas con los nmeros en cada tallo por un asterisco. Cada fila en el diagrama resumido debe contener exactamente un asterisco, tal que la forma del diagrama no se distorsione. 78 79 80 81 82 83 84 85 86 87 07*4 *55 9* * 79*0

Esta fila representa: 780, 787, 794. Esta fila representa: 815, 815. Esta fila representa: 829. Esta fila no tiene datos. Esta fila representa: 867, 869, 870

Otra ventaja de estos diagramas es que su construccin proporciona un rpido y fcil procedimiento para organizar los datos (disponiendo los datos en forma ordenada.).

Diagramas de caja (box Plots)


Hemos visto grficas estadsticas que muestran informacin acerca de un conjunto de datos, que ubican cada observacin en un plano cartesiano. Los diagramas de caja en cambio presentan el resumen de los datos en un solo eje. Este diagrama es til porque refleja las propiedades de los datos (tendencia central, variacin y distribucin de los datos). La construccin de un diagrama de caja requiere que obtengamos: la puntuacin mnima, el primer cuartil Q1, la mediana o segundo cuartil Q2, el tercer cuartil Q3, y el mximo puntaje, los cuales constituyen el resumen de una serie de datos. La mediana (o la media) es usada para mostrar la tendencia central, los cuartiles (para mostrar la variacin de los datos), y las

137

puntuaciones mnima y mxima son los valores extremos. La caja representa el rango intercuartil que encierra el 50% de los valores y tiene la mediana dibujada dentro. El rango intercuartil tiene como extremos el cuartil superior (el percentil 75) y el cuartil inferior (percentil 25). Adems de la caja se incluye la extensin de los datos mediante segmentos que se extienden de la caja hacia el valor mximo (U) de los datos o extremo superior y hacia el valor mnimo (L) de los datos o extremo inferior. El diagrama de caja tiene la ventaja de no ser tan sensibles a los valores extremos como otros diagramas basados en la media y desviacin estndar. Los diagramas de caja no muestran tanta informacin detallada como los histogramas o diagramas de tallo y hojas, por tanto no pueden ser la mejor eleccin cuando se est tratando con una serie de datos simples. Sin embargo, los diagramas de caja son a menudo ms tiles cuando se comparan dos o ms series de datos, para que ello suceda es importante usar la misma escala. Este diagrama se puede representar en forma horizontal o vertical como se indica en las figuras siguientes:

12 0

16 0

20 0

24 0

28 0

Nivel de Colesterol

138

300

Nivel de Colesterol

250

200

150

100

Si observamos este grfico vemos que se obtiene informacin de los datos acerca de: La centralizacin (ubicacin de la mediana en el centro de la caja) La dispersin o variabilidad (es el rango intercuartil: RI = P75 - P25 ) La asimetra (comparando: P75 Me con Me - P25) Las colas (por la longitud de los segmentos que salen de los lados de la caja) Valor atpico: En un diagrama de caja es fcil de identificar los valores atpicos , los cuales estn muy distantes de la mayora de los datos. Los datos atpicos o raros llamados outliers (aislados) son aquellos que se ubican fuera del intervalo [P 25 -1.5RI, P75 + 1.5RI], donde RI es el rango intercuartil, P25 -1.5RI = L, es el dato mnimo no outlier, P75 + 1.5RI = U, es el dato mximo no outlier. Todos los puntos fuera de este rango se representan con crculos, estas observaciones se consideran valores atpicos o datos que no son representativos del resto de los valores. Cuando exploramos un grupo de datos, los valores atpicos deben ser considerados, porque ellos pueden revelar informacin importante. Por ejemplo: Considerar la lista completa de pulsaciones por minuto en los datos del ejercicio 8 del anexo B; vemos que los valores 8 y 15 son valores atpicos. Son estos valores atpicos pulsaciones excepcionales o son errores?. Aunque hubiera un par de estudiantes cuya condicin fsica podra ser descrita como inconsciente, es muy poco probable que alguien con una pulsacin por minuto de 8 a 15 sera capaz de entrar y salir de un aula bajo su propia fuerza. Por lo tanto, 8 y 15 son errores y tiene sentido eliminarlos del grupo de datos. Debemos eliminar la pulsacin mxima de 100?. No, ese valor no est demasiado distante de los dems y muy probablemente pertenece a alguien quien estuvo muy emocionado por estar en la clase de Estadstica. Por lo general, debemos eliminar los valores atpicos si obviamente

139

son errores, aunque ellos son a menudo anomalas interesantes que deben ser investigados. De hecho, en algunos grupos de datos, los valores atpicos son los aspectos ms importantes. Un estudio de huevos y colesterol incluy a un hombre, quien haba consumido varios huevos todos los das por muchos aos. Su ndice de consumo de huevos fue un valor atpico; sin embargo fue muy importante ver que el exceso de huevos no pareca afectar su nivel de colesterol, el cual era promedio. Explorando los datos, podemos estudiar los efectos de los valores atpicos construyendo grficos y medidas con y sin los valores atpicos incluidos. Una manera para plasmar los valores atpicos en diagramas de caja, es usar una modificacin til, como la siguiente: a) Calcular la diferencia entre los cuartiles Q3 y Q1, y denotarlo como D, as como: D = Q3 - Q1. b) Dibuje la caja con la mediana y cuartiles, como es usual, pero cuando se extienden las lneas que se ramifican desde la caja, llegue hasta los puntos que estn dentro de 1,5D de la caja. c) Valores atpicos moderados, son aquellos puntos por encima del Q3, mediante una cantidad de 1,5D a 3D, o por debajo del Q1, mediante una cantidad de 1,5D a 3D. Se denotan con puntos marcados. d) Valores atpicos extremos, son puntos que sobrepasan al Q3, por ms de 3D o estn por debajo del Q1, mediante una cantidad ms de 3D. Se denotan estos puntos con pequeos crculos. Use este procedimiento para la construccin del diagrama de caja descrito.

140