Вы находитесь на странице: 1из 30

Facultad de Medicina

CURSO DE POSTGRADO EN EPIDEMIOLOGA DIRECTOR: PROF. ALBERTO PALLADINO AO 2004

Universidad Nacional del Nordeste

ESTADISTICA
INTRODUCCIN
La variabilidad de los fenmenos que estudia la medicina (tanto la clnica como la salud pblica) llevan a diferentes problemas al intentar el anlisis de los mismos. Por empezar, se presenta la dificultad de cmo expresarlos sin recurrir a la repeticin del total de los resultados obtenidos en la observacin. Pinsese, por ejemplo, en el dilema que se le presentara a un cirujano que desee relatar su experiencia de veinte aos en el tratamiento quirrgico del cncer de mama. La acumulacin de casos diversos en: las caractersticas de las pacientes tratadas, la naturaleza misma de la neoplasia, la tcnica empleada y los resultados inmediatos y mediatos, haran sumamente complicado presentar en forma clara, entendible y con posibilidades de anlisis la informacin acumulada. El mismo problema se le presentara a un docente universitario que desee analizar los resultados de un turno de examen (con alrededor de trescientos examinados) y su relacin con las condiciones personales del alumno y con las distintas metodologas de enseanza utilizadas. Una segunda dificultad en el manejo de informacin es el establecer cierto grado de probabilidad en la ocurrencia de un fenmeno o en la evolucin futura del mismo. El tratamiento que se sugiere (o se indica a un paciente) es el que ha mostrado haber sido exitoso en una proporcin importante de casos en los que se ha utilizado; aunque en algunos de esos casos la intervencin haya sido ineficaz o, peor an, haya tenido efectos indeseables. Cmo saber si el enfermo al que se le est indicando vacuna antirrbica no har una reaccin alrgica y, si la hiciera, cul sera su probabilidad de morir en la emergencia?. El mdico se maneja con el conocimiento de que este riesgo es menor (por la frecuencia con la que ocurre el accidente alrgico) que el riesgo de dejar al paciente sin tratamiento (por la frecuencia con la que la enfermedad se presenta sin el tratamiento). En otro ejemplo (pero que est relacionado con el problema en cuestin) es el que se presenta cuando a partir de un estudio especial (por ejemplo el control de la presin arterial a un grupo seleccionado de estudiantes) se desea extraer conclusiones para toda la poblacin de la que proviene el grupo estudiado (en el ejemplo: todos los estudiantes del mismo curso). El manejo de estos problemas lo permite el uso de la estadstica. Siguiendo a Kendall MG y Buckland WR (A Dictionary of Statistical Terms, 4th ed. London; Longman, 1982) se puede definir la estadstica como la : Disciplina que tiene por objeto la recoleccin, resumen y anlisis de datos sujetos a variaciones por el azar.
Prof. Dr. Alberto C Palladino

Las finalidades bsicas de la estadstica son: 1) 2) 3) Resumir una masa importante de mediciones. Cuantificar la influencia del azar. Controlar variables de confusin. La primera de las finalidades es lo que comprende la estadstica descriptiva y de las dos restantes se ocupa la estadstica inferencial (o inferencia estadstica). Las etapas del mtodo, y de acuerdo a la definicin dada de estadstica, incluye: 1) la recoleccin de datos; 2) su elaboracin o procesamiento y 3) su anlisis.

VARIABLES - CATEGORAS - DATO ESTADISTICO


La obtencin de datos estadsticos se hace por recoleccin directa del investigador o por la utilizacin de fuentes de datos disponibles ( es decir datos obtenidos y elaborados por otros investigadores). De acuerdo a una clasificacin utilizada, en el primer caso la fuente es primaria y, en el segundo, es secundaria. A su vez, esta ltimas pueden ser directas (bases de datos) o indirectas (informacin elaborada y presentada en tablas y grficos). Cuando el propio investigador es quin recoge los datos puede dar fe de la confiabilidad de los mismos; asimismo, puede definir las variables, las categoras, los indicadores , los procedimientos, etc. La desventaja, obviamente, son los recursos que debe destinar. Lo inverso ocurre con las fuentes secundarias. De stas, constituye una ventaja las fuentes directas por las extensas posibilidades de anlisis que brindan. Las fuentes de datos ms utilizadas (tanto por la salud publica como por la clnica) son los registros de hechos vitales (bsicamente nacimientos y defunciones), los registros hospitalarios (consultorio externo, internacin) y los censos de poblacin que brindan el universo de referencia, necesario para la construccin de indicadores y para contextualizar los fenmenos. De manera excepcional se utilizan encuestas y censos especiales, registros de obras sociales, fuerzas armadas, estudios especiales, etc. La recoleccin de datos (primera etapa del mtodo estadstico) implica la observacin de la realidad (reglada de acuerdo a tcnicas especficas) con la finalidad de medir las caractersticas que los fenmenos de la misma presentan. (El trmino medicin es aplicable aunque el resultado sea una expresin numrica o literal). Esas caractersticas a medir son las variables. Una variable puede definirse como una cualidad, propiedad o caracterstica de las personas, cosas o hechos en estudio que puede ser enumerada o medida y que puede variar de un sujeto a otro y, a veces, de un momento a otro en el mismo sujeto. Las variables son utilizadas para describir las particularidades que distinguen al fenmeno en estudio y a las personas que lo presentan. Los diferentes modos en que puede encontrarse una variable en el sujeto de estudio son sus estados, categoras o valores. Aunque stos trminos son aplicables indistintamente, algunos autores utilizan categora slo para los estados de las variables cualitativas (llamando a stas: atributos) y valor numrico para los de las variables cuantitativas. Aqu se utilizarn las tres primeras expresiones como sinnimos, independientemente del tipo de variable de que se trate. Segn el nivel de medicin que pueda alcanzarse, a las variables se las clasifica en cualitativas y cuantitativas. Las variables cualitativas se refieren a propiedades de los sujetos en estudio cuya medicin slo informa sobre la pertenencia a una categora sin poder Prof. Dr. Alberto C Palladino 2

precisar la intensidad de la caracterstica de manera cuantificable. El sexo, la ocupacin, el color de cabello, la conducta frente a una adiccin, etc., son variables cualitativas. En tanto, las variables cuantitativas brindan informacin sobre diferentes tipos de intensidad con la que se presenta en los sujetos; permitiendo establecer rdenes jerrquicos y comparaciones numricas entre los diferentes estados en que puede observarse la variable. Las medidas antropomtricas y muchas de las determinaciones bioqumicas son buenos ejemplos de ellas. A su vez, las variables cuantitativas pueden ser de dos tipos: discretas o discontinuas o continuas. Las primeras pueden expresar el estado de la variable slo por algunos valores (habitualmente valores enteros); no admitiendo valores intermedios (nmero de hijos por mujer, consultas por paciente, etc.). Es posible expresar la paridez por 0, 1, 2, 3 hijos; pero no por 1y 1/2, 2 y 3/4 hijos por mujer. Las continuas pueden expresar el estado de la variable por un nmero infinito de valores (edad, peso, uremia, etc.) dentro de un rango determinado por la naturaleza misma de la variable; siendo el lmite de la capacidad de discriminacin la del instrumento de medicin o la del observador. Una persona de 25 aos, por ejemplo, puede expresar su edad de esa manera o, tambin: 25 aos y 3 meses, 25 aos 3 meses y 2 das; 25 aos 3 meses 2 das y 1 hora, etc.; y as hasta el infinito (con las limitaciones expresadas). El resultado de una observacin es la obtencin de un dato estadstico. Se puede decir que dato estadstico es la expresin del resultado de la medicin de una variable. Es decir, es expresar el estado en que se encuentra una variable. Observacin y medicin son utilizados aqu como sinnimos. Ms adelante se ver que esta expresin puede incluir un valor numrico o, simplemente, hacer referencia a un atributo. La confiabilidad del dato est referida a la medida en la que el dato refleja el hecho que se mide. Un dato ser mas confiable cuanto ms se acerque a la realidad a la que se refiere. Por ejemplo, la lectura de una baciloscopa ser ms confiable si quien la realiza tiene mayor experiencia en esa prueba. Es decir, cada vez que se expide sobre una observacin como positiva existe alta probabilidad de que realmente el material provenga de un paciente bacilfero; y cada vez que informe un resultado negativo existe alta probabilidad de que se trata de un paciente no bacilfero. Los problemas de confiabilidad asociados a los datos mas comnmente utilizados en clnica y en salud publica se refieren a los provenientes de: 1) la definicin de caso utilizada; 2) el sujeto en observacin (variabilidad de los fenmenos biolgicos y sociales); 3) los instrumentos utilizados en la medicin (tanto formularios de recoleccin de datos como aparatos de medicin); 4) los procedimientos utilizados (tipo de encuesta, problemas de recuerdo y de declaracin, etc.); 4) el observador (capacitacin, experiencia, fatiga al momento de la medicin). Un dato ser confiable en la medida en que sea reproductible; es decir, repetidas observaciones deben producir los mismos resultados (con las variaciones tolerables estadsticamente). La confiabilidad se controla por la repeticin de la observacin por parte del mismo observador (confiabilidad intraobservador) y por el control con otro /s observador /es (confiabilidad interobservador). A fin de que las lecturas reiteradas informen sobre la reproductibilidad es necesario que se cumpla: 1) las sucesivas mediciones deben realizarse bajo las mismas condiciones de observacin; 2) la tcnicas deben estar lo suficientemente estandarizadas; 3) el observador no debe conocer el resultado de la lectura anterior (propia o de otro observador). La confiabilidad suele expresarse por ndice de Kappa; el que vara entre 1 y +1. El 1 indica el mximo desacuerdo y el +1 el mayor acuerdo. El 0 se interpreta como un valor de acuerdo aleatorio. Entonces, esta medida indicar mayor confiabilidad (intra o interobservador) cuanto ms cerca est de + 1.
Prof. Dr. Alberto C Palladino

MEDICIN ESCALAS
Medicin es la asignacin de una categora o valor de una caracterstica o variable dada a un sujeto de observacin. Estas caractersticas (o variables) pueden presentarse de distinta manera de un sujeto observado a otro. Por ejemplo, sexo: varn, mujer; estado civil: soltero, casado, separado viudo; edad: 2 meses 3 aos; talla: 55 cm 2 mm. Como se ve, existen diferentes estados en los que se puede encontrar una variable en un sujeto de observacin. Estos son los estados, categoras o valores de la variable y lo que hace la medicin es verificar esa situacin. Para esto se aplica una escala; o sea, un instrumento referencial en el que estn contemplados todos los posibles estados de esa variable. Es decir, la medicin es la aplicacin de una escala en una observacin con la finalidad de verificar el estado de la variable en la unidad observada. Tambin, medicin es la cuantificacin de las diferentes categoras de la variable en la poblacin estudiada. Una escala de medicin es el conjunto (ordenado o no) de categoras (o estados o valores) que puede presentar una variable. No confundir la escala con el aparato que sirve de soporte a la misma; por ejemplo, una regla lleva inscripta una escala que corresponde a medidas de longitud del sistema mtrico decimal. La escala no es la regla, es el conjunto de valores all grabados cuya existencia es independiente del aparato. La medicin puede ofrecer diferentes niveles de informacin, segn la discriminacin (o precisin) que brinde respecto al estado en que se encuentra la variable. No es lo mismo, por ejemplo, decir sobre una persona que es varn (variable: sexo, para la que no hay mas que dos posibilidades) que decir que mide 1,82m (variable: estatura, para la que las posibilidades de resultados diferentes son mayores). En funcin del tipo de escala que se aplique es que se tendr esa mayor o menor diferenciacin en la informacin. Hay cuatro clases de escalas que determinan distintos tipos de medicin: NOMINAL: Es la que da el nivel mas elemental de medicin; la que alcanza al simple conteo de las unidades sin que del resultado de la medicin pueda establecerse un orden jerrquico (del estilo de mayor a menor o ms intenso a menos intenso). Se pueden considerar dos tipos: dicotmicas y politmicas. Las primeras admiten slo dos categoras (dolor: si / no; sexo: masculino / femenino; condicin al egreso: vivo / muerto); mientras que las politmicas admiten mas de dos categoras, sin que esto implique un orden (nacionalidad: argentino / paraguayo / brasileo / boliviano / uruguayo / peruano / espaol / etc.; estado civil: soltero / casado / viudo / otros). Ntese que en todos los casos lo que se expresa es la presencia o ausencia de la categora. Esto se cumple, an, en una escala politmica; en donde slo es posible determinar la presencia o ausencia de un estado o valor de la variable. Por ejemplo: la categora argentino (para nacionalidad) implica la ausencia de las restantes; es decir, excluye cualquier otro tipo de nacionalidad. El estado (o valor) de esa caracterstica se define por el tipo SI / NO; no existiendo posibilidad de discriminacin de intensidad en la medicin (siguiendo con nacionalidad: no es posible definir mayor o menor grado de argentino). ORDINAL: Con este tipo de escala el resultado de la medicin se expresa por categoras que indican un orden; aunque no es posible establecer relaciones cuantitativas entre ellas (bueno, por ejemplo, no es el doble o el triple de regular). (Soplo: grado I / II / III / IV; temperatura: afebril / subfebril / febril; resultado de una evaluacin: excelente / bueno / regular / malo). O Prof. Dr. Alberto C Palladino 4

sea, el uso de una escala ordinal permite establecer un orden jerrquico entre las categoras de la variable; pero no es posible definir la distancia que separa una de otra. A su vez no es posible distinguir entre diferentes intensidades dentro de una categora. Si a la variable edad se la mide con una escala ordinal se tendrn categoras del tipo: nio / adolescente / adulto / viejo; en donde la categora nio incluir a un conjunto de observaciones con distintas edades, no diferenciables con este tipo de medicin. DE INTERVALO: En esta escala las distancias entre categoras de las variables son cuantificables y la separacin entre unidades de la escala se hace por perodos iguales. Con ella se miden variables cuantitativas. Una caracterstica de este tipo de escala es que el cero es arbitrario y convencional. Esto no permite la comparacin entre dos escalas que no tengan fijado en el mismo punto ese valor cero. Adems, no es posible establecer razones o proporciones entre diferentes valores (ver medidas de resumen). La temperatura es un ejemplo: el cambio se marca por espacios iguales. As, de 36 C a 37 C existe la misma distancia que entre 38 C y 39 C y lo mismo se podra hacer para variaciones de dcimas o divisiones menores de la escala. Sin embargo no se puede afirmar que 40 C es el doble de 20 C. Slo se dir, en este caso, que 40 C son veinte grados ms que 20 C. Por otra parte, 0 C no expresa ausencia de temperatura sino un estado ms de la variable. Las escalas que miden el cociente intelectual corresponde, tambin, a este tipo. DE PROPORCIN O RAZN: Esta escala constituyen el nivel mas alto de medicin para variables cuantitativas. Adems de las propiedades que posee la de intervalo, se destaca el hecho de que posee el cero absoluto: este valor expresa la ausencia de la caracterstica. As es posible obtener proporciones o razones entre valores. Un individuo de 40 aos de edad ha vivido el equivalente a dos de 20 aos de edad. El peso, la talla, la capacidad inspiratoria y muchas de las medidas utilizadas en medicina (antropomtricas y cuantitativas de laboratorio) utilizan este tipo de escala. Por extensin, suele hacerse referencia a las dos primeras como escalas cualitativas y a las dos restantes como escalas cuantitativas. En este trabajo se usa, alternativamente, esta terminologa para simplificar. Un nivel ms alto de medicin (ms alta discriminacin) posibilita el uso de un mayor nmero de tcnicas estadsticas; lo que determina el alcance del anlisis de los datos que se efectuar. Por ello, es recomendable aplicar la escala de mayor nivel posible para la variable a medir. Por ejemplo, edad acepta la medicin por medio de una escala de proporcin o razn. Pero es posible, tambin, expresarla en categoras tales como: nio, adolescente, adulto, viejo, utilizando una escala ordinal; y, an, como: mayor y menor, utilizando una escala nominal. (Siempre que hay slo dos categoras se trata de una escala nominal). En realidad cuando se utiliza una escala de intervalo o de proporcin suele hacerse una conversin a una escala de tipo nominal u ordinal, con fines de sntesis. Claro est que existen variable que, por su naturaleza, no pueden ser medidas con escalas de intervalo o de proporcin (sexo, profesin, estado civil); por lo que, en estos casos, no cabe ms que la categorizacin nominal u ordinal, segn corresponda. En el caso contrario, cuando se aplica una escala cuantitativa, es posible efectuar la referida conversin. Por ejemplo, la presin arterial puede expresarse por los valores de la medicin (escala de razn) o por categoras cmo: normotensin, hipertensin leve, hipertensin moderada, hipertensin grave (escala ordinal). Habitualmente, en medicina se recurre a esta conversin de escalas para hacer referencia al diagnstico, al tratamiento o al pronstico. Se puede decir que dicha conversin solo es posible de una escala de mayor a
Prof. Dr. Alberto C Palladino

menor poder de discriminacin del estado de la variable: 1) de cuantitativa a ordinal o nominal; o 2) de ordinal a nominal. Nunca en sentido inverso Como se dijo anteriormente, el trmino medicin no hace referencia, exclusivamente, a la aplicacin de una escala de intervalo o de proporcin. Simplemente, es la aplicacin de una escala (de cualquier tipo) en la observacin para el reconocimiento del estado de una variable. El simple conteo (3 varones, 4 mujeres) es el resultado de haber utilizado una forma (la mas simple) de medicin estadstica (presencia o ausencia de la categora). El resultado de una medicin arroja un dato estadstico. Si la medicin se efectu con una escala nominal u ordinal el dato se expresar por el nombre del estado o categora de la variable. Si se lo hizo con una escala de mayor nivel el dato ser expresado por un valor numrico y una unidad de medida. El valor numrico es la expresin en cifras con la que se hace alusin al estado de la variable de acuerdo a la escala utilizada. La unidad de medida es la base (dentro de esa escala) con la que se est expresando el resultado. He aqu ejemplos de mediciones de variables cuantitativas de dos tipos en las que se han utilizado una escala de proporcin o razn: Variables cuantitativas Dato estadstico continua edad 28 aos discreta concentracin de glbulos rojos en sangre 5.000.000 de glbulos rojos x mm3

Valor num. un. de medida / valor num.

un. de medida

Una vez ms se destaca: una variable puede presentar diferentes estados, o categoras o valores (todos sinnimos). Cualquiera sea la variable observada, puede presentar distintos valores en esta aceptacin del trmino. En tanto, el valor numrico es una parte constitutiva del dato estadstico proveniente de una medicin con escala de intervalo o de proporcin. Otro trmino utilizado en Estadstica es el de unidad de anlisis. Est referido a: cada elemento constitutivo del conjunto en el que se estudia un fenmeno (universo). La definicin de la unidad de anlisis es de suma importancia a los efectos de que el fenmeno que se investiga sea observado y medido, exclusivamente, en aquellos elementos que forman parte del conjunto que es materia de estudio. La unidad de observacin en tanto, es el elemento definido para la observacin efectiva del fenmeno. Si se quiere evaluar cobertura de vacuna BCG en menores de un ao de una localidad, por ejemplo, cada nio de esa edad ser la unidad de anlisis; pero, a los efectos de localizar los nios en una muestra habrn de definirse familias que sern las unidades de observacin. En otros casos ambas unidades coinciden. Algunos autores utilizan el trmino unidad de anlisis para ambos conceptos. En general, as se lo utilizar en este documento. Las unidades de anlisis pueden tener mayor o menor agregacin. Pueden ser unidades de anlisis de un estudio: nios menores de un ao de edad; las escuelas de una provincia; los barrios de una ciudad; las provincias de un pas; los pases de un continente. Segn cmo haya sido definida la unidad de anlisis, ser la definicin de las variables a estudiar. Algunas pueden ser utilizadas solamente en determinados niveles de agregados. Por ejemplo: violencia familiar requerir una forma de medicin que no es sustituible por la violencia de cada uno de sus miembros. Otras veces, las variables de las unidades de anlisis surgen de la combinacin de variables de Prof. Dr. Alberto C Palladino 6

unidades ms desagregadas. Por ejemplo, la mortalidad infantil con la que se expresa el fenmeno en una localidad o provincia es un resumen estadstico de la presencia o ausencia del fenmeno (defuncin antes del ao de edad) en cada uno de los nacidos dentro de un perodo.

DISTRIBUCIN DE FRECUENCIAS - CLASIFICACIN


Obtenidos todos los resultados de las mediciones de un estudio se cuenta con una masa de datos estadsticos cuyo anlisis requiere de un tratamiento previo que la haga ms comprensible. Esta es la primera de las finalidades de la estadstica (citada al inicio): resumir una masa importante de datos. Lo primero es ordenar los datos conforme a la escala utilizada o a la naturaleza de la variable medida. Si se aplic una escala cualitativa la categorizacin es simple y se la har segn la presencia o ausencia de la caracterstica estudiada si es nominal (ictericia: presente / ausente) o con arreglo a un determinado orden si es ordinal (dolor: ausente / leve / moderado / intenso). Si la escala es cuantitativa el orden estar en funcin de los valores referenciales de la escala y los datos se acomodarn de forma que exista una progresin creciente o decreciente. He aqu un ejemplo con nmero de hijos por mujer entrevistada en una encuesta, tal como fue registrada la informacin: 0 3 2 1 3 3 3 1 0 4 7 4 0 1 1 2 1 7 2 4 1 3 5 3 2

El primer paso consiste, entonces, en ordenar los datos. Aqu se lo ha hecho en sentido creciente. (Podra hacrselo decreciente). 0 3 0 3 0 3 1 3 1 3 1 3 1 4 1 4 1 4 2 5 2 7 2 7 2

Con esto se ha obtenido una serie. Una serie es un conjunto ordenado de datos. La lectura y comprensin de los datos as presentados resulta, ahora, ms fcil. Sin embargo, poco puede decirse sobre que valores se repiten mas, cules menos o cules faltan en la serie; es decir, la descripcin de la misma, an, es dificultosa. Como habitualmente se trabaja con serie, todava, ms grandes, este problema es mayor si no se avanza en el proceso de resumir la informacin. El paso siguiente es el agrupar los datos segn la caracterstica referida; haciendo nucleamientos con los que arrojan iguales resultados o que reflejan un mismo estado de la variable. Para ello se agrupan segn esas similitudes, colocando el valor de referencia y al lado las veces que ese valor se presenta en el conjunto de datos. Esto ltimo es la frecuencia ( f ): nmero de veces que un fenmeno se presenta con determinada caracterstica en una serie de datos. Lo que se obtiene es una distribucin de frecuencias; es decir, un ordenamiento de datos en funcin de los estados de la variable y de las frecuencias que le corresponden a cada uno de esos estados. En el ejemplo dado: N de hijos 0 1 2
Prof. Dr. Alberto C Palladino

f 3 6 4 7

6 3 1 0 2 TOTAL: 25 Ahora se tienen ocho grupos de datos. Cada grupo representa un estado de la variable (nmero de hijos) y f la frecuencia con la que se observa ese estado (mujeres que tiene ese nmero de hijos). Podra sintetizarse ms esta serie (haciendo mas fcil su descripcin y anlisis) agrupando las observaciones que tiene un nmero parecido (aunque no exactamente igual) de hijos. N de hijos 0a1 2a3 4a5 6a7 TOTAL: f 9 10 4 2 25 f.r. 36 % 40 % 16 % 8% 100 %

3 4 5 6 7

Se ha obtenido, ahora, una agrupacin en clases. Clase es una subdivisin de una escala que permite agrupar datos de caractersticas similares. En el ltimo ejemplo se ha incluido la frecuencia relativa ( f.r. ); la que resulta de expresar en forma proporcional (ac como porcentaje) la relacin de cada clase con el total. Su utilidad est dada por la mejor comprensin que brinda la expresin en proporciones cuando lo que se desea es destacar el peso que tiene una parte en el todo (vase Proporciones). Otra frecuencia que suele calcularse es la acumulada; tanto para valores absolutos (frecuencia acumulada: f.a.) como para valores relativos (frecuencia acumulada relativa: f.a.r) y que resultan de sumar desde el inicio de la serie (desde el menor valor o desde al mayor valor, segn como se haya hecho el ordenamiento) las frecuencias de cada agrupamiento en forma acumulativa. Esto es til cuando se quiere expresar la cantidad de observaciones (en nmero absoluto o en proporcin) que existe desde el inicio de una serie hasta determinado valor. Continuando con el ejemplo: N de hijos 0a1 2a3 4a5 6a7 f 9 10 4 2 f.r. 36 % 40 % 16 % 8% f.a 9 19 23 25 f.a.r. 36% 76% 92% 100%

Se ha desarrollado un ejemplo de datos provenientes de una medicin con escala cuantitativa. Si los datos fueron obtenidos por aplicacin de una escala cualitativa se tendrn resultados que sealan el estado de la variable respecto a la caracterstica buscada sin discriminacin de intensidad; la medicin, aqu, se limita a cuantificar la presencia o ausencia de cada una de las categoras. Supngase los siguientes resultados para la variable estado civil, correspondiente a las mujeres del ejemplo anterior, segn el orden en el que fueron registradas:

Prof. Dr. Alberto C Palladino

soltera casada casada soltera casada unin de hecho viuda casada soltera soltera soltera casada casada separada casada unin de hecho soltera casada casada casada soltera casada unin de hecho soltera casada Aqu el ordenamiento se hace por la similitud del estado en la que se encontr cada unidad relevada; no habiendo mayor posibilidad de discriminacin en la medicin por la naturaleza misma de la escala (cualitativa): soltera soltera soltera soltera soltera soltera soltera soltera casada casada casada casada casada casada casada casada casada casada casada casada unin de hecho unin de hecho unin de hecho viuda separada La distribucin de frecuencias se construira con las siguientes clases: N de hijos soltera casada unin de hecho viuda separada
TOTAL:

f 8 12 3 1 1 25

f.r. 32 % 48 % 12 % 4% 4% 100 %

El nmero de clases a definir depender del inters en diferenciar los distintos estados de la variable. Lo que, en definitiva, se busca es obtener agrupamientos que sean homogneos hacia su interior (que renan observaciones de caractersticas parecidas) y heterogneos hacia afuera (diferenciables de las observaciones de otros agrupamientos). Esta homo o heterogeneidad est referida a cmo se piensa que se comporta el fenmeno en estudio respecto a esos agrupamientos. Las clases deben ser exclusivas y excluyentes. Exclusivas significa que a cada observacin le corresponde una clase; y excluyente que, correspondindole a una observacin una clase, no puede corresponderle otra. La clasificacin de datos no es ms que este procedimiento por el que se ha llegado a una distribucin de frecuencias, se han obtenido clases y calculado las frecuencias de cada una. El nmero de clases depender del inters del estudio; pero recordando el principio de economa que debe regir en la estadstica a fin de hacer ms comprensible la informacin que se procesa y que se analizar. Un nmero elevado de clases hace engorroso el anlisis (casi como si la informacin no estuviera agrupada); mientras que si se obtienen pocas clases la clasificacin podra no servir para mostrar diferencias de frecuencias entre grupos que, naturalmente, son diferentes. Como quiera que se definan las clases debe tenerse presente que una clasificacin debe ser exhaustiva; esto es: todos los posibles estados de las variables deben estar contemplados en ella. Al definir las clases en una escala cuantitativa se deben fijar puntos de separacin entre ellas (adonde termina una y comienza otra). Estos se denominan puntos de corte y son de suma importancia para definir categoras distintas de la variable. En medicina son tiles para diferenciar estados mrbidos, con fines de diagnstico y pronstico. P.ej., si se toma 110 mg % como lmite de normoglucemia; se est definiendo que por encima se pasa a otro estado: hiperglucemia, con las implicancias de tratamiento y de pronstico que esta definicin implica. Cuando se trata de resultados de tipo cualitativo, cada
Prof. Dr. Alberto C Palladino

clase corresponde a una categora definida nominalmente (tambin llamada, en este caso atributo).

Prof. Dr. Alberto C Palladino

10

PRESENTACIN DE DATOS ESTADSTICOS: TABLAS Y GRFICOS


En la presentacin de un informe, al hacer referencia a un conjunto de datos estadsticos, se puede recurrir a ms de una manera de mostrar esos datos. Dependiendo del detalle de informacin que se brinde y de la claridad que esto implique para la lectura y anlisis se tiene distintas formas de presentacin. Entonces, la presentacin de datos estadsticos es la manera en la que se muestran los resultados de un estudio, experiencia o investigacin. Puede ser: textual, semitabular, tabular o grfica. Desde la primera a la ltima se gana en sntesis, comprensibilidad en la lectura e interpretacin de los resultados; pero, a su vez, se va perdiendo en la cantidad de informacin que es posible mostrar y en el grado de precisin de los resultados presentados. La presentacin textual es la forma ms simple y consiste en la inclusin de datos estadsticos en el texto de un informe. Es decir, es una forma de brindar resultados numricos en el relato mismo del informe. Esto brinda la posibilidad de explicar cada grupo de datos (o, an, hacer referencia a un dato en particular) y discutir sobre el conjunto tan detalladamente como al autor le interese. Claro que la lectura de esta informacin puede ser abrumadora; lo que complicar su interpretacin. Por ello, se suele recurrir a otras formas de presentacin complementarias de la textual; las que enriquecen el informe. Otra manera de mostrar datos estadsticos es mediante la presentacin tabular. sta es una forma de presentacin que utiliza una grilla en la que se incluyen las frecuencias de las diferentes clases definidas. Una tabla estadstica consta de tres partes: ttulo, cuerpo y notas aclaratorias. El ttulo, que habitualmente encabeza la presentacin, debe ser claro, conciso y debe expresar cabalmente el fenmeno que se presenta. Numerado en forma correlativa dentro del informe, el ttulo no debe llevar abreviaturas (excepto las que son muy conocidas y no se prestan a confusin) y suele escribirse con letras maysculas. Para obtener un ttulo completo, es decir que haga una buena referencia al fenmeno que se presenta, debe responder a las siguientes preguntas: Qu?, Cmo?, Dnde? y Cundo?. Estas preguntas se refieren a: la naturaleza del hecho que se presenta (el qu), el criterio utilizado en la clasificacin -variables presentadas- (el cmo) y el lugar y tiempo en que ocurrieron los hechos (el dnde y el cundo). El cuerpo es la parte mas importante de la tabla; en l se escriben las frecuencias. Es un entrecruzamiento de lneas horizontales y verticales que forman filas y columnas y que determinan cuadrilteros a los que se les conoce como casillas, celdas o celdillas. En la primera fila y en la primera columna se inscriben los ttulos de las columnas y de las filas, respectivamente, y corresponden a las categoras de las variables utilizadas como criterio clasificatorio. La ltima fila y la ltima columna (a veces, las segundas) se reservan para los totales. En las celdas se inscriben las frecuencias correspondientes a cada clase; las que podrn expresarse en forma de valores absolutos o relativos. Las inscripciones S/I y S/D se reservan para cuando no existe informacin. Nunca una celda debe quedar vaca. En aquellas categoras en donde no hubo ninguna observacin la frecuencia ser 0 . El cero, entonces, es un tipo de frecuencia. No es correcto en estos casos, dejar la celda en blanco o colocar - . En realidad, no es correcto dejarla en blanco en ningn caso. Si del cruzamiento de dos variables utilizadas resulta una categora inexistente se lo consignar: - . Por ejemplo, si se ha hecho una clasificacin segn sexo y tipo de cncer, en el entrecruzamiento de femenino y cncer de prstata no habr una categora posible; lo cual se lo consignar como y no 0 . Las notas aclaratorias van al pi del grfico y sirven para especificar o referir algn elemento especial que deba ser
Prof. Dr. Alberto C Palladino

11

aclarado o que se desee explicar con mayor detalle. No debe abusarse de estas aclaraciones, pues la inclusin de un texto extenso hara perder sentido a la presentacin tabular. Siempre debe incluirse la fuente de datos en esta seccin. En el ejemplo dado en distribucin de frecuencias se ha trabajado con dos variables: nmero de hijos y estado civil de la madre que corresponden al criterio de clasificacin. La presentacin tabular de los datos trabajados quedara como lo muestra la Tabla N 1 (los datos son imaginarios):
TABLA N 1: EMBARAZADAS CONTROLADAS EN EL CENTRO DE SALUD SAN BENITO SEGN ESTADO CIVIL DE LA MADRE POR NMERO DE HIJOS . GOYA (CORRIENTES). MARZO DE 2003

EST. CIVIL | N HIJOS SOLTERA CASADA UNION DE HECHO VIUDA SEPARADA TOTAL

0-1 3 3 1 1 1 9

2-3 3 6 1 0 0 10

4-5 1 3 0 0 0 4

6-7 1 0 1 0 0 2

TOTAL 8 12 3 1 1 25

FUENTE: Seccin Estadsticas del Centro de Salud San Benito (Goya, Corrientes) NOTA: Todas las madres residen en el barrio San Benito de Goya, Corrientes.

Los errores mas frecuentes en la construccin de una tabla derivan de la inobservancia de las recomendaciones generales dadas: ttulos muy extensos, confusos o con abreviaturas no usuales; clasificaciones que no son exhaustivas o no son excluyentes en sus clases; celdas en blanco; falta de totales; notas aclaratorias demasiado extensas que transforman la lectura de la tabla, casi, en una lectura textual, etc. Una forma intermedia (entre la textual y la tabular) es la presentacin semitabular. Esta se caracteriza por ofrecer un ordenamiento de los datos en filas y columnas que no renen todos los elementos de una tabla (ttulo, fuentes, notas aclaratorias, trazado de la grilla). Se la utiliza para facilitar la lectura de los datos dentro de una presentacin textual; no pudindosela interpretar fuera del texto que la contiene. Los agrupamientos dados anteriormente en Distribucin de Frecuencias son ejemplos de presentaciones semitabulares. Por ltimo, se dispone de la presentacin grfica. Es una forma de presentacin de datos estadsticos mediante un dibujo que resume las principales caractersticas cuantitativas del conjunto de observaciones medidas y sirve para comparar la intensidad de las variables y de las categoras del estudio. La presentacin grfica no pretende brindar precisin en los valores de las categoras que se presentan; ms bien, es un auxilio visual para facilitar la comprensin de informacin numrica. La inclusin de cifras dentro del dibujo no es necesaria; siempre que no complique la lectura e interpretacin del grfico. En este caso puede llegar a ser contraproducente en el sentido de la finalidad misma de esta forma de presentacin.
Prof. Dr. Alberto C Palladino

12

Un grfico estadstico consta de cinco partes: ttulo, dibujo, referencias, letreros y notas aclaratorias. Para el ttulo (que en los grficos se acostumbra escribirlo abajo) y para las notas aclaratorias se aplican las mismas recomendaciones que para la tabla estadstica. El dibujo es la parte mas importante; representndose en l las variables y categoras con sus correspondientes frecuencias. Los letreros dan denominacin a las escalas (son el nombre de las variables presentadas). Las referencias hacen aclaraciones sobre aspectos de la tcnica del dibujo (color, textura, rayado, etc.); es decir, aclaran respecto a la manera en la que se han representado las variables y sus categoras. A los grficos se los clasifica segn la base utilizada para el dibujo en: grficos de coordenadas cartesianas (de barras simples, dobles, superpuestas, proporcionales; histogramas; lineal; semilogartmico; de correlacin); grficos circulares (sectorial) y grficos mixtos (pictograma; cartograma, tridimensionales; etc.). En el cuadro que sigue se resume la clasificacin general de grficos.

1.- GRFICOS DEL SISTEMA DE COORDENADAS CARTESIANAS 1.1.- DE BARRAS 1.1.1.- DE BARRAS SIMPLES 1.1.2.- DE BARRAS DOBLES, TRIPLES, MULTIPLES 1.1.3.- DE BARRAS SUPERPUESTAS 1.1.4.- DE BARRAS PROPORCIONALES 1.2.- HISTOGRAMA / POLGONO DE FRECUENCIA 1.3.- LINEAL 1.4.- SEMILOGARITMICO 1.5.- DE CORRELACIN 2.- GRFICOS CIRCULARES 2.1.- SECTORIAL 3.- GRFICOS DE TCNICA MIXTA 3.1.- PICTOGRAMA 3.2.- CARTOGRAMA 3.3.- TRIDIMENSIONAL 3.4.- GRFICO DE CAJA ETC.

Es interesante sealar que a medida que se avanza en la clasificacin (de 1. a 3. del cuadro) los grficos ganan en facilidad de lectura y en comprensibilidad de los fenmenos presentados; a la vez que pierden precisin y detalles de cuantificacin de las distintas variables y categoras. GRFICOS DE COORDENADAS CARTESIANAS: Utilizan este sistema para el dibujo graficndose en el rea que queda arriba y a la derecha del entrecruzamiento de una lnea horizontal (abcisa) y una vertical (ordenada). El entrecruzamiento de ambas representa el valor cero para las escalas que se inician hacia la derecha (sobre la abcisa) y hacia arriba (sobre la ordenada). (Algunos grficos hacen excepcin a esto ltimo). La escala de la ordenada indica las frecuencias de las categoras que se presentan. La escala de la
Prof. Dr. Alberto C Palladino

13

abcisa seala las categoras de clasificacin. (Ver grficos N 1 al N 6, inserto mas adelante, para mayor comprensin del tema). Los primeros de este grupo, los grficos de barra, son de los mas utilizados para presentaciones cientficas. Sirven para datos medidos con escala cualitativa o cuantitativa (variables discretas). Para su construccin se dibujan barras (figuras cuadrilteras de igual ancho) que, partiendo de la lnea de la abcisa, se alzan hasta la altura que referencialmente marca la escala de las frecuencias (trazada sobre la ordenada, verticalmente). El ancho de las barras, as como el espacio que las separa, ser definido por quin construye el grfico y depender del efecto visual que se desee obtener. El grfico de barras simple (Grfico N 1) sirve para la presentacin de una sola variable y cada barra representa una categora. Si la variable, por ejemplo, es sexo habr dos barras (una para masculino y otra para femenino). Es posible presentar dos variables agrupando barras y se tienen, as, los grficos de barras dobles, triples o mltiples (Grfico N 2). En stos cada grupo de barras representan una categora de una de las variables y cada tipo de barra individual (dentro de cada grupo) representa una categora de la otra variable utilizada como criterio de clasificacin. El grfico de barras superpuestas o subdivididas (Grfico N 3) se utiliza, tambin para representar clasificaciones de dos variables; pero en lugar de agrupar las barras se las apila. El grfico de barras proporcionales muestra la composicin de cada categora de una variable segn las categoras de una segunda variable (Grfico N 4). Es parecido al anterior (de barras superpuestas) con la diferencia que, en el proporcional, todas las barras tiene la misma altura. Cada una representa el cien por ciento de una categora de la primera variable utilizada en la clasificacin y se la subdivide en funcin de la participacin proporcional (habitualmente., en porcentajes) que tienen las categoras de la segunda variable. Los grficos de barra suelen presentarse, tambin, en posicin horizontal; es decir, con el dibujo rotado 90 (en el sentido de las agujas del reloj); con lo que la abcisa queda vertical y la ordenada horizontal. Esto no cambia la tcnica de construccin ni la interpretacin del grfico. Para datos cuantitativos continuos se utiliza el histograma, en donde las categoras estn representadas por cuadrilteros (como barras; aunque, ac, pueden ser de ancho desiguales) que se dibujan adosados unos a otros. La intensidad del fenmeno lo marca la superficie de esos cuadrilteros y no su altura (como en los anteriores). En la abcisa de este grfico se inscribe una escala de tipo cuantitativa continua y los cuadrilteros que representarn a cada clase tendrn el ancho que sus intervalos determinen. La altura estar dada por la frecuencia media para cada valor individual de la clase; de modo que al multiplicar la base (el intervalo) por la altura (esa frecuencia media) dar la frecuencia total de la clase. Por ejemplo, si se tiene que para una clase de 5 a 9 aos de edad hay una frecuencia de 80 casos, el ancho ser el dado por los valores 5 y 9 de la escala de la abcisa y la altura ser de 16; que es el promedio de casos por ao de ese grupo. Un ejemplo de histograma es la pirmide de poblacin. Si se traza el perfil del histograma uniendo los puntos medios de los lados superiores de cada cuadriltero (y borrando el resto del dibujo del histograma) se obtendr una lnea quebrada que indicar (con el rea que quede por debajo) la frecuencia del fenmeno; y los distintos niveles de la lnea, las variaciones por clase. A este grfico se lo llama polgono de frecuencias y, su utilidad, se hace ms manifiesta cuando en un mismo grfico se dibujan varios perfiles de histograma; ya que, con esto, se puede comparar un fenmeno en diferentes poblaciones. El grfico lineal es til para presentar series de datos obtenidas por mediciones a lo largo del tiempo. Sirve para mostrar la tendencia de fenmenos (o variables); ya sea, a travs de los aos o meses de un perodo de tiempo o de las diferentes edades de una poblacin.
Prof. Dr. Alberto C Palladino

14

Para su construccin se marcan puntos en los lugares en que se entrecruza la referencia de la escala de la abcisa (un ao, un mes, una edad determinada) con la frecuencia que le corresponde en la escala de la ordenada. Al unir estos puntos se traza una lnea que es lo que da el nombre a este tipo de presentacin. (Grfico N 5). Pueden graficarse ms de una variable o ms de una categora de una variable. Cada una ser representada por una lnea. El nmero de lneas a dibujar estar determinado por las que puedan leerse sin confusin. Aunque clasificado por separado, el grfico semilogartmico es, en definitiva, un grfico de tipo lineal; con la salvedad que para las frecuencias (sobre la ordenada) se usa una escala logartmica. En ella la progresin de los valores se hace en forma geomtrica y no aritmtica. Es decir, a igual tramo en la escala no corresponde un igual incremento en valores absolutos (10, 20, 30); sino un igual incremento en trminos relativos (10, 100, 1000). (Grfico N 6). Esto permite comparar fenmenos (o variables) cuyas intensidades corresponden a tramos muy distantes en la escala de referencia y en donde las tendencias no son bien reflejadas por el grfico lineal. Los grficos 5 y 6 presentan las tasas de mortalidad infantil y de mortalidad materna de un rea (expresadas por mil nacidos vivo) en sendas series segn los siguientes valores: 1985 Mortalidad Infantil Mortalidad Materna 66,0 3,0 1987 48,0 2,2 1989 38,0 1,7 1991 35,0 1,0

Como puede observarse las variaciones son mayores (en trminos de diferencia absoluta de los valores) para la mortalidad infantil que para la mortalidad materna; lo que determina una cada ms pronunciada en la curva que refleja el primer fenmeno. Sin embargo, en trminos relativos el descenso ha sido mayor para la mortalidad materna: en el perodo referido descendi a un tercio desde su inicio; mientras que la mortalidad infantil descendi menos de la mitad de su nivel inicial. El grfico de correlacin se utiliza para representar dos variables cuantitativas que han sido medidas simultneamente en cada unidad de observacin; por ejemplo: glucemia y glucosuria. Poseen, en consecuencia dos escalas (una para cada variable) que se trazan sobre la abcisa y la ordenada, respectivamente. En este caso, esas escalas no necesariamente deben partir de 0 . En realidad, debe marcarse el tramo de la escala que vaya del menor al mayor valor para cada una de las dos variables. A su vez, y a fin de obtener el efecto visual que se describir, el largo de ambas escalas debe ser igual. Cada unidad de observacin es representada por un punto que se marca en la interseccin de lneas imaginarias que pasan por los valores correspondientes en cada una de las escalas. El conjunto de puntos (correspondiente al conjunto de observaciones) forma un sombreado, un puntillado (nombre, este ltimo, con el que se conoce, tambin, a este grfico) cuya dispersin en el rea indicar si existe alguna asociacin estadstica entre ambas variables. Si el puntillado forma una franja que corre oblicuamente de izquierda a derecha, en forma ascendente o descendente, indica que hay alguna asociacin. sta ser directa si es ascendente: ambas variables se mueven en un mismo sentido en cada escala (como temperatura y pulso); e inversa si es descendente: las variables se mueven en sentido opuesto en cada escala (como ingreso familiar y desnutricin infantil). Cualquier otra distribucin del puntillado indicar que no existe asociacin estadstica entre las variables. Y esa asociacin ser ms fuerte cuanto menos ancha sea esa franja (ms se acerque a una lnea) y, a su vez, ms se
Prof. Dr. Alberto C Palladino

15

aproxime a los 45 de inclinacin. El coeficiente de correlacin de Pearson indica la fuerza de esa asociacin. Este coeficiente vara entre -1 y +1. Ambos valores indican una asociacin perfecta: a igual incremento en la escala de una variable corresponde un aumento o una disminucin (asociacin directa o inversa) siempre igual en la escala de la otra variable. No existe un valor universalmente aceptado como bueno para este coeficiente; aunque comienza a considerarse una asociacin aceptable cuando es superior a 1 (con cualquier signo). GRAFICOS CIRCULARES: A este grupo corresponde un solo tipo: el grfico sectorial. Es, ste, un grfico de fcil comprensin que no requiere demasiado entrenamiento para su lectura. Por este motivo es til, tambin, para difusin masiva de datos estadsticos. Sirve para la presentacin de datos provenientes de mediciones con cualquier tipo de escala. Para su construccin se utiliza la escala radial, en donde los 360 (toda la superficie del crculo) representan el total de observaciones. Cada categora de la variable que se presenta ocupar un sector del crculo, cuya superficie ser proporcional al peso que tiene esa categora en el total de las observaciones. Por ejemplo, en un grupo cuya composicin por sexo sea: 80 varones y 40 mujeres, la determinacin del sector que le corresponde a cada categora se obtiene por una la regla de tres simple: VARONES 120 observaciones 80 observaciones X=
80 x 360 120

MUJERES 360 X 120 observaciones 40 observaciones X=


40 x 360 120

360 X

= 240

= 120

(Los varones sern representados por un sector de 240 y las mujeres por uno de 120) En la pgina de grficos se presenta mediante un sectorial (el N 7) a las mujeres de 0 a 1 hijo segn estado civil correspondiente a la serie presentada en la Tabla N 1 ( y en los grficos 1 a 4). Son limitaciones del grfico sectorial: se debe conocer la totalidad de las observaciones (trabaja con el 100%) y no es aconsejable representar ms que una variable como criterio de clasificacin. (Una segunda variable obligara a subdividir los sectores; lo que lo hara muy confusa la lectura e interpretacin). GRFICOS DE TECNICAS MIXTAS: El pictograma es til para difusin masiva por ser muy comprensible; aunque carece, en absoluto, de precisin. (No es usado, habitualmente, en presentaciones cientficas). Lo que se busca con este grfico es la rpida interpretacin; para lo que se usan dibujos (esquemticos, artsticos o humorsticos) en los que cada unidad dibujada representa un nmero de observaciones. As, por ejemplo: si se quiere representar camas hospitalarias por provincia y una provincia tiene dos mil camas, se pueden dibujar veinte elementos (un dibujo simple que represente una cama) dndole el valor de cien camas a cada elemento del dibujo. Como puede deducirse, es sta una forma de presentacin donde la precisin es muy escasa. (Si se deseara graficar dos mil catorce camas, por ejemplo, habra que recurrir a un elemento ms para incluir las catorce unidades excedentes de dos mil; el que sera incompleto y, obviamente, muy impreciso). El cartograma es un grfico que utiliza un mapa, un plano o un croquis para referir frecuencias de fenmenos acaecidos por reas geogrficas. Las frecuencias se representan
Prof. Dr. Alberto C Palladino

16

por colores o diferentes tramados del dibujo; o adhirindole chinches, alfileres, imanes que expresen determinado nmero de casos por elemento agregado; o, simplemente, inscribiendo el nmero de casos en rea. Tiene la particularidad de que, sobre el dibujo base, es posible la actualizacin permanente de los datos; lo que lo convierte en un medio til en vigilancia epidemiolgica. (Los grficos lineales comparten esta utilidad). Los grficos tridimensionales tienen las caractersticas de los grficos de barra; pero le agregan una tercera dimensin (en profundidad). De esta manera es posible representar hasta tres variables: una por cada grupo de barras, otra por cada barra dentro de cada grupo y otra por cada plano en profundidad. Su lectura e interpretacin es ms compleja que los anteriores. Un grfico de mucha utilidad para la comparacin de diferentes series de datos cuantitativos es el grfico de caja (box-plot, en ingls). Para su construccin, SE traza una escala (la de los valores de referencia) sobre una lnea vertical que es creciente de abajo hacia arriba; y a su derecha, la/s caja/s. Cada una de ellas representa una serie. La caja es un cuadriltero que tiene por altura la extensin que va del cuartil 1 al cuartil 3 de la serie (ver Medidas de Resumen); es decir, comprende al 50 % de las observaciones. El ancho no tiene ms significado que el determinado por la esttica del dibujo. Dentro de la caja, una lnea transversal marcar la ubicacin de la mediana. Hacia arriba y hacia debajo de la caja salen lneas verticales (llamadas bigotes) que tendrn, como mximo, una longitud igual al largo de la caja; hasta abarcar el 95 % de las observaciones; es decir, corresponde a la amplitud dada por dos desvos estndar (ver Medidas de Resumen). Terminan en los llamados cercados interiores. Si no hay observaciones que lleguen a esos extremos, el bigote podr ser ms corto y, tambin, podrn ser diferentes el superior al inferior. Si la serie Con puntos o estrellitas se marcan observaciones distantes; las que estn por fuera de los bigotes. Como puede verse, este grfico permite tomar conocimiento de las caractersticas de una serie: su simetra, su apuntamiento (curtosis), la ubicacin de la mediana, del intervalo intercuartlico y de eventuales valores extremos; as como, comparar varias series en un mismo grfico. La Figura 1 muestra una serie asimtrica, con su cola ms larga hacia los valores ms altos de la serie y sin que se observen perifricos (observaciones que estn ms all de los cercados interiores. Aqu se ha dibujado una serie y de manera horizontal; pero, lo habitual (se reitera) es graficar la caja verticalmente y, por otro lado, puede compararse varias series en la misma presentacin.

8 9 (aos de edad)

Figura 1: Grfico de caja en una distribucin muy sesgada (sesgo positivo). Existen otros tipos de grficos que por su complejidad y su menor uso en medicina y en ciencias sociales no son pertinentes desarrollar en este documento. El buen manejo de los ya descriptos es suficiente para una buena presentacin de datos en esas disciplinas.
Prof. Dr. Alberto C Palladino

17

Es importante considerar que, en la actualidad, los programas informticos realizan grficos de todo tipo. Con solo introducir datos y seleccionar el tipo de dibujo el programa efectuar una presentacin que, por otra parte, supera estticamente lo que pueda hacerse manualmente. Sin embargo, esto no invalida el conocimiento bsico de graficacin que debiera disponerse a la hora de graficar con la computadora; puesto que la indicacin de qu grfico utilizar en cada caso, as como ciertos efectos del diseo, son posible slo si el operador conoce la necesidad de su introduccin. Un programa es capaz de mostrar un dibujo totalmente inadecuado al fenmeno estudiado o que no exprese lo que se desea si no se han sabido dar lar rdenes pertinentes. Para finalizar este punto es menester reiterar que las formas de presentacin tabular y grfica persiguen la finalidad de mejorar la comprensin de los datos presentados y solo debe recurrirse a ellas cuando la complejidad de la informacin lo haga recomendable.Un informe pletrico de tablas y dibujos no aseguran la calidad de la presentacin y, mucho menos, la validez de la informacin que se est brindando.

MEDIDAS DE RESUMEN
Se ha visto que una de las finalidades de la estadstica (la primera) es la de poder resumir una masa importante de datos a efectos de mejor comprender las variaciones del fenmeno (o fenmenos) en estudio. Algo de esto se logra al ordenar, clasificar y presentar los datos. Sin embargo, an as, no se expresa con suficiente sntesis la distribucin de frecuencias de los datos. Es mas cmodo (y ms til para el anlisis) el trabajar con unos pocos valores que representen al conjunto observado. Para el citado objetivo se recurre a las medidas de resumen (MR): instrumentos estadsticos que sintetizan en unos pocos valores los correspondientes a un conjunto numeroso de observaciones. Es decir, son valores que representan a una serie. A estos valores que resumen a otros se los llama, tambin, estadsticos. Dependiendo de cmo han sido medidas las observaciones existen MR para escalas cualitativas y MR para escalas cuantitativas. Las primeras corresponden a las cifras relativas, (muy utilizadas en epidemiologa) y conocidas como: proporciones, tasas y razones. Dentro de las segundas se tiene a las: medidas de posicin (de tendencia central -MTC- o promedios y no centrales los cuantiles-) y medidas de variabilidad o de dispersin (MD). En la pgina siguiente se presenta un cuadro con una sntesis de la principales MR utilizadas. CIFRAS RELATIVAS: Es la que resulta de relacionar dos valores absolutos; en dnde uno es tomado como base de comparacin. Desde el punto de vista matemtico es un cociente. Las proporciones son cifras relativas en las que el numerador est contenido en el denominador (proporcin de alumnos de sexo masculino de un curso, p. ej.). Las tasas son proporciones especiales en las que se expresa el riesgo (= probabilidad) de ocurrencia de un fenmeno. La caracterstica especial por las que se las diferencia de las proporciones comunes es la referida expresin de riesgo y la necesidad de un perodo de referencia durante Prof. Dr. Alberto C Palladino 18

el cual hayan ocurrido los hechos. La tasa indica la velocidad de ocurrencia de un fenmeno y el riesgo de la poblacin expuesta de padecerlo. Por ello, se dice que siempre est implcita la idea de un perodo de ocurrencia: el perodo en el que ocurrieron los hechos. Una tasa de mortalidad es un ejemplo. En tanto que la proporcin indica la participacin de una categora dentro de una variable, sin que sea necesario un perodo para su referencia. El porcentaje de alumnos varones (anteriormente mencionado) es una proporcin. Ambas son cocientes en los que el numerador est contenido en el denominador. En consecuencia, el resultado variar entre 0 y 1 . Como los fenmenos de morbilidad y mortalidad son de baja frecuencia, ese resultado suele ser un nmero con varios ceros despus de la coma; lo que lo torna difcil de expresar y de interpretar. Por eso, se lo multiplica por un factor de amplificacin que no es ms que la unidad seguida de cero; utilizndose ms habitualmente: 100, 1000, 10000, 100000, 1000000. El uso del factor de amplificacin, adems, permite comparar cifras relativas correspondientes a poblaciones diferentes en tamao; ya que ajusta la expresin del fenmeno al nmero de casos por XX cantidad de habitantes. As, al decir que una tasa de mortalidad general es del 8.0 se est diciendo que cada mil habitantes mueren 8 en el perodo de referencia. El factor de amplificacin utilizado hace referencia a la cantidad de poblacin (denominador) tomado para la expresin del fenmeno.

ESCALA

TIPO DE MEDIDA CIFRAS RELATIVAS -

MEDIDA DE RESUMEN PROPORCIONES TASAS RAZONES MEDIA ARITMETICA MEDIANA MODO

CUALITATIVA

MEDIDAS DE TENDENCIA CENTRAL

CUANTILES o FRACTILES: MEDIDAS DE POSICIN CUANTITATIVA NO CENTRALES PERCENTILES DECILES QUINTILES CUARTILES ETC. AMPLITUD DESVIO MEDIO DESVIO ESTNDAR INTERVALO INTERCUARTLICO

MEDIDAS DE VARIABILIDAD O DE DISPERSIN

Prof. Dr. Alberto C Palladino

19

Una razn, en tanto, es una cifra relativa que relaciona dos fenmenos diferentes (p.ej.: densidad poblacional = habitantes / superficie) o dos categora diferentes de un mismo fenmeno o variable (p.ej.: ndice de masculinidad = varones / mujeres). Pueden llevar o no factor de amplificacin. Si se coloca el valor mayor en el numerador el resultado se expresar por cada unidad del denominador. (Densidad de habitantes: 12 hab/km 2). Sin embargo, y slo por costumbre, algunas razones se utilizan con factor de amplificacin. (ndice de masculinidad al nacer: 106 varones c/100 mujeres). Las cifras relativas son de uso frecuente en epidemiologa y salud pblica; sugirindose la consulta de un texto de estas disciplinas para una explicacin ms detallada. MEDIDAS DE TENDENCIA CENTRAL: Las MTC (o promedios) son MR que tienden a ubicarse en el centro de una serie de observaciones y sirven como valores representativos de la misma. Brindan informacin sobre el punto (o tramo) de la escala de referencia donde se posiciona la distribucin; por lo que se las llama, tambin, constantes de posicin. La media aritmtica (X) es una medida algebraica de esa posicin media; para cuyo clculo se tienen en cuenta los valores de todas las observaciones de la serie. En el lenguaje no tcnico es el conocido como promedio; aunque, estadsticamente, promedio es sinnimo de medida de tendencia central. Matemticamente, se obtiene por la sumatoria de los valores de cada una de las observaciones dividido el nmero de esas observaciones:

x = i =1
Donde:

xi n

X = media aritmtica = sumatoria de los valores de las observaciones ( i ) n = nmero de observaciones

Si se trata de datos agrupados en clases el numerados ser la sumatoria de los productos de los puntos medios de clase por la frecuencia de clase. (Punto medio de clase: promedio de los lmites superior e inferior de una clase mayor y menor valor respectivamente- que se utiliza como valor representativa de la misma). El denominador siempre se refiere al conjunto de observaciones. Pueden resumirse las ventajas de la media aritmtica as: es el ms conocido de los promedios, es de clculo fcil, toma en cuenta todas las observaciones y tiene estabilidad en el muestreo (medias obtenidas de diferentes muestras de un mismo universo tienden a ubicarse en un mismo punto de la escala). Respecto a sus desventajas puede decirse: no es posible utilizarla cuando no se conocen los valores de algunas de las observaciones y tiende a desplazarse del centro en series muy asimtricas (lo cual puede ocurrir, por ejemplo, cuando existen valores extremos o aberrantes). Se entiende por valores aberrantes a aquellos que se apartan del agrupamiento principal de la
Prof. Dr. Alberto C Palladino

20

distribucin. Su presencia influye en la media aritmtica haciendo que la misma se desplace hacia el extremo donde se ubica el valor aberrante, dejando de ser una MTC ya que su valor no tender a ubicarse en el centro de la serie. Obsrvese el siguiente ejemplo de datos referidos a edades (en aos): 2, 2, 3, 4, 4, 5, 5, 5, 6 Aplicando la frmula: la sumatoria de los valores es 36. Al dividir esta sumatoria por 9 observaciones, dar: 4. Por lo tanto la media aritmtica es de 4 aos de edad; valor que, como puede verse, corresponde a una posicin central en el tramo de la escala utilizada para la medicin de estas observaciones; es decir un valor que cae en el centro de la serie. Supngase, ahora que uno de esos valores fuera muy apartado del conjunto (un valor aberrante): 2, 2, 3, 4, 4, 5, 5, 5, 24 (!!) Ahora la suma ser 54 y la media ser de 6 aos de edad. Este, obviamente, no es un valor central y, por lo tanto, mal representar a esta serie. En estos casos resulta aconsejable la utilizacin de otra medida: la mediana (Ma). Esta es una MTC que se ubica en el centro espacial de la serie. Es el valor que corresponde a un lugar de la serie que deja igual nmero de observaciones por delante y por detrs de la misma. Para su clculo es necesario seguir los siguiente pasos: 1) 2) 3) Ordenar los datos. (Es decir, hacer del conjunto de datos una serie). Hallar el lugar donde cae la mediana. Hallar el valor de la mediana. Ordenada la serie se busca el lugar. Para ello se aplica la frmula: Siguiendo con el ejemplo anterior: 2, 2, 3, 4, 4, 5, 5, 5, 6 n+1 2

9 + 1= 5 2

5 es el lugar donde cae la mediana. Hallar el valor, en este caso en que hay un nmero impar de observaciones, es fcil: es la quinta observacin (contando de izquierda a derecha o de derecha a izquierda). Esa observacin tiene el valor 4. Por lo tanto, la mediana de esta serie es de 4 aos de edad. Si el nmero de observaciones fuera par: 2, 2, 3, 4, 4, 5, 5, 5, 6, 8 10 + 1 = 5,5 2

5,5 es el lugar donde cae la mediana; es decir en la mitad entre el 5 y el 6 lugar. Para hallar el valor deber sacarse la media de los valores de las observaciones que corresponden a esos lugares; ya que 5,5 representa la mitad del espacio comprendido entre ambas. El quinto y el sexto lugar lo ocupan observaciones que tiene valores 4 y 5, respectivamente. Por lo tanto, la mediana ser la media de 4 y 5; es decir: 4,5 aos de edad. Si existiera un valor aberrante: 10 + 1 = 5,5 2 Prof. Dr. Alberto C Palladino 21

2, 2, 3, 4, 4, 5, 5, 5, 24 Como puede verse el lugar de la mediana no cambia y su valor tampoco; es decir, no se ve influido por un valor aberrante. Podra ocurrir, tambin, que no se conociera el valor de una o ms observaciones; pero sabiendo que ellas existen. En este caso se distribuyen en el comienzo y en el final de la serie como S/D (o, lo que es lo mismo, ignorndolas). Para el ejemplo dado con diez observaciones, si se desconociera el 3 y el 6 se ordenara as: 10 + 1 S/D, 2, 2, 4, 4, 5, 5, 5, 8, S/D = 5,5 2 Nuevamente, ac se ve cmo la mediana no se ve afectada por esta circunstancia. Para datos agrupados en clases la mediana se calcula siguiendo los tres pasos descriptos con anterioridad; slo que, en este caso, el lugar donde cae la mediana estar ubicado dentro de una clase. Para obtener el valor (que estar comprendido dentro de esa clase) se aplica una frmula especial por la que se establece la proporcin del intervalo de clase que representa la distancia entre el inicio de la misma y el lugar donde cae esta MTC. (Intervalo de clase: distancia entre una clase y la siguiente, indica el tamao de la clase o el tramo de la escala de referencia que la define). En resumen, las ventajas de la mediana son: es til en series muy asimtricas (como las que se obtienen cuando existen valores aberrantes) y es aplicable an, cuando falta informacin (como ocurre en series agrupadas con clases abiertas). Sus desventajas son: su clculo es algo ms complejo que el de la media; es, matemticamente, menos exacto como promedio y su estabilidad en el muestreo es menor. Aunque aqu se ha clasificado a la mediana como de uso para datos cuantitativos, es aplicable tambin en datos provenientes de una medicin con escala ordinal. Ordenados los datos de manera jerrquica, la mediana corresponder al valor de la observacin ubicada en el centro; igual que con datos cuantitativos, aunque no se exprese numricamente. Por ltimo se dispone del modo (Mo) que es el valor que se repite con mayor frecuencia en una serie. En el ejemplo que se viene desarrollando: 2, 2, 3, 4, 4, 5, 5, 5, 6, 8 El modo ser 5 (5 aos de edad) ya que se presenta con mayor frecuencia que los otros valores. Son ventajas del modo: es fcilmente comprensible y de fcil obtencin. Y son sus desventajas: matemticamente es el promedio menos exacto; no tiene estabilidad en el muestreo; puede no ser una MTC y, an ms desventajoso, una serie puede tener ms de un modo (series bimodales, polimodales) e, incluso, no tener ninguno. Como promedio es el menos til como medida de tendencia central (usado aisladamente). Tambin el modo es aplicable en datos cualitativos: ser, simplemente, la frecuencia del tipo de dato que ms se repite. En realidad las tres medidas son tiles de alguna manera y su uso simultneo brinda informacin, no slo de la posicin que la distribucin de frecuencias ocupa en la escala de
Prof. Dr. Alberto C Palladino

22

referencia, sino tambin de la mayor o menor simetra de la curva que la representa, como lo muestra la Figura 2.
modo mediana media modo media mediana modo mediana media

asimetra negativa

curva simtrica

asimetra positiva

Figura 2: Diferentes curvas de distribucin de frecuencias (segn su simetra) y ubicacin de la medidas de tendencia central. Cuanto ms simtrica sea esa curva, ms tendern a confluir las tres medidas en el centro de la misma. En las curvas asimtricas la media aritmtica se desplaza en el sentido del lado en donde se encuentra el mayor peso o la cola ms larga; alejndola de la posicin central. En tanto, la mediana, habitualmente, se desplaza menos; lo que la ubica entre la media aritmtica y el modo. Este, siempre estar en el punto ms alto de la curva ya que, por definicin, es el valor de mayor frecuencia en la serie. Cuanto ms apartadas estn estas medidas entre si indican una mayor asimetra de la distribucin. Representando grficamente estas distribuciones: MEDIDAS DE POSICIN NO CENTRALES: Son medidas de posicin que no se ubican en el centro de la distribucin. Surgen de divisiones de la serie en tramos iguales de observaciones. Son los cuantiles o fractiles. El valor del cuantil ser el que le corresponda a la observacin ubicada en la posicin que esta medida seala. De aquellos, los ms usados son: los percentiles, los quintiles, los deciles y los cuartiles. Los percentiles (P), o percentilos o centiles o centilos, resultan de dividir la serie de observaciones en cien. De modo que hay cien percentiles, uno por cada divisin centesimal. Cada percentil tomar el valor que corresponde a la observacin ubicada en esa divisin centesimal. Se nominan del percentilo 1 (P1) al percentilo 100 (P100). Supnganse los siguientes valores y frecuencias acumuladas en una serie de cuatrocientas observaciones de sujetos normales: Glucemia (mg /100cc): Observacin N: Percentilo: 67 4 1 75 83 87 91 95 98 100 105 112 40 120 160 200 280 320 360 380 400 10 30 40 50 70 80 90 95 100

Hasta el valor 67 hay cuatro observaciones = 1% de observaciones de la serie 67 mg es el percentilo 1


Prof. Dr. Alberto C Palladino

23

Hasta el valor 83 hay 120 observaciones = 30% de observaciones de la serie 83 mg es el percentilo 30 Hasta el valor 112 hay 400 observaciones = 100% de observaciones de la serie 112mg es el percentilo 100 Entonces, el percentilo 40 ser 87 mg /100 cc; el percentilo 50: 91 mg/100 cc; etc. Obsrvese que la mediana constituye el percentilo 50. Con la misma metodologa puede dividirse la serie en cinco y se obtienen los quintiles (Q); o en diez y se obtienen los deciles (D); o en cuatro y se obtienen los cuartiles (C). El C1 = P25, el C2 = P50, el C3 = P75. Es decir, el decil 5 y el cuartil 2 corresponden al percentilo 50; el que, a su vez es la mediana. Aunque estas son medidas de posicin dan idea, tambin, de la dispersin de los valores al sealar el mayor o menor alejamiento del cuantil respecto al centro de la distribucin. Cuando est indicado el uso de la mediana como MTC se la suele acompaar de los cuartiles, como MD. Se llama intervalo intercuartlico (o recorrido o rango intercuartlico)a la diferencia entre el tercer cuartil (C3) y el primer cuartil (C1). Este espacio abarca el 50% de las observaciones. MEDIDAS DE VARIABILIDAD O DE DISPERSIN: Las MD son MR que sirven para expresar como se distribuyen las observaciones en una serie. Son el complemento necesario de las medidas de tendencia central para describir una distribucin de frecuencias. Las MTC indican en qu punto de la escala se ubica la distribucin y las MD como se dispersan sus observaciones. Se describirn, aqu, dos de las ms utilizadas: amplitud o rango y desvo estndar. La amplitud o rango es la diferencia entre el mayor valor (extremo superior) y el menor valor (extremo inferior) de una serie. (Tambin existe una amplitud de clase que es la diferencia entre el mayor valor, o lmite superior y el menor valor, o lmite inferior de una clase). La amplitud da una idea acerca de la dispersin de las observaciones; pero es la menos til para ese fin. El desvo estndar (s) es la medida de dispersin ms utilizada y se calcula en base a la media aritmtica. Se halla con la frmula que se muestra a continuacin; en donde puede advertirse que su valor depender del distanciamiento que tengan los valores de las observaciones individuales respecto a la media.

s=
Prof. Dr. Alberto C Palladino

( x - x)
i
i= 1

n
24

Donde:

x = media aritmtica n = nmero de observaciones

= valor de cada una de las observaciones

= sumatoria de los valores de las observaciones (i )

Como puede observarse, se trata de promediar los desvos de cada valor individual respecto de la media aritmtica. (El exponente tiene por finalidad anular la compensacin que resultara al sumar desvos de signos opuestos y la raz cuadrada es para invertir aquella operacin). En la curva normal (correspondiente a una distribucin de frecuencias simtrica) el valor del desvo estndar sumado y restado a la media abarca el 68,3% de las observaciones. Si se utilizan dos desvos estndar se abarca el 95,4 % y con tres el 99,7 % de las observaciones. (Porcentajes aproximados). Esta es la importancia de esta medida de resumen: poder expresar con un valor en cunto se apartan de la media aquellos porcentajes de observaciones; lo que indica su dispersin. Siguiendo el ejemplo trabajado hasta aqu, se tena la serie: 2, 2, 3, 4, 4, 5, 5, 5, 6 (edad en aos). Aplicando la frmula del desvo estndar se obtiene un valor de 1,33 aos de edad (redondeando en dos decimales). Ya se haba calculado la media (4 aos de edad). Por lo tanto puede afirmarse que el 68,3 % de las observaciones tiene edades que estn comprendidas en el intervalo de 4 1,33 aos de edad; es decir en el intervalo comprendido entre 2,67 y 5,33 aos de edad, que son los valores que resultan de sumar y restar a la media aritmtica una vez el valor del desvo estndar. Si se suma y resta el valor correspondiente a dos desvos estndar: 4 2,66 aos de edad se tendrn los lmites (1,34 y 6,66 aos de edad) del intervalo entre los que estarn comprendidos el 95,4 % de las observaciones. Por ltimo sumando y restando el valor correspondiente a tres desvos estndar a la media se tendr comprendido el 99,7% de las observaciones. Por qu no se cumplen con exactitud las proporciones en esta distribucin?. Primero, porque el tipo y nmero de observaciones no permite el clculo de los porcentajes dados. Pero, por otra parte y ms importante que lo anterior, porque estas proporciones se darn si la distribucin es del tipo normal (ver curva normal). Sin embargo, an en los casos en que el fenmeno se presenta con una distribucin aproximada a la normal (como son muchos de los fenmenos que se observan en la realidad estudiada por la medicina y por la salud pblica) es aplicable el clculo del desvo estndar; el que brindar intervalos en los que el nmero de observaciones tendrn porcentajes aproximados a los dados. En la figura N 3 (tomada de Introduccin a la Bioestadstica de H. Bancroft) puede observarse como se distribuyen las observaciones en la curva normal segn el desvo estndar.

Prof. Dr. Alberto C Palladino

25

Una idea de la dispersin de una distribucin, tambin, se obtiene a partir del coeficiente de variacin (CV). El CV es el cociente entre la distribucin estndar y la media aritmtica, expresado en porcentaje. P. ej., si se tiene una media de estaturas de 170 cm y un desvo estndar de 17 cm, el cv ser del 10 %. Cuanto menor sea este porcentaje habr una mayor concentrain de las observaciones alrededor de la media respecto a sus valores. Dos medidas mas, que describen la distribucin de frecuencia, completan el conjunto de estadsticas utilizadas para la descripcin de un conjunto de observaciones. Son la curtosis y la simetra. Sobre esta ltima ya se mostraron diferentes distribuciones. El valor que refiere esta caracterstica oscila entre 1 y +1. Siendo 0 el valor correspondiente a una distribucin simtrica, un valor negativo indicar asimetra negativa (o sesgo negativo: la cola ms larga hacia los valores inferiores de la escala) y un valor positivo asimetra positivo (o sesgo positivo: la cola ms larga hacia los valores superiores de la escala}. La curtosis, en tanto, seala el grado de dispersin de los datos en torno a la mediana. O sea, cun picuda o aplanada es la curva. Tambin, aqu los valores oscilan entre 1 y + 1. Las curvas se denominan leptocrticas cuando son apuntadas (picudas), platicrticas cuando son aplanadas y mesocrticas a las de situacin intermedia. A esta ltima le corresponde el valor 0 en esta medida; el que ser positivo cuando tienda a leptocrtica y negativo cuando tienda a platicrtica. La curva normal es la que representa a un tipo de distribucin de frecuencias simtrica a la que se adaptan (por aproximacin) muchos de los hechos y fenmenos biolgicos y sociales. En ella las tres MTC coinciden en un lugar de la escala que corresponde al acm (punto ms elevado) de la curva y dividen la distribucin en dos mitades iguales (imagen en espejo); comprendiendo, cada una, el cincuenta por ciento de las observaciones y la distribucin de esas observaciones se hace de acuerdo a los porcentajes vistos en desvo estndar. La asimetra y la curtosis tienen valor 0 en este tipo de distribucin. En realidad, prcticamente no hay fenmeno en medicina y en ciencias sociales cuya distribuye tenga estas caractersticas. Sin embargo, las estimaciones estadsticas que se basan en medidas como el desvo estndar se utilizan, an, en el caso que el fenmeno no tenga un comportamiento exactamente como el de la distribucin normal. Estos estadsticos, ofrecen un razonable grado de aproximacin para la valoracin de las distribucin de las observaciones; excepto que la serie sea marcadamente asimtrica.. Si la distribucin es muy asimtrica el error puede ser importante y conviene, en ese caso, utilizar otras medidas como la mediana y los cuantiles, segn lo desarrollado en el prrafo anterior La importancia en medicina de comprender estos aspectos bsicos de la curva normal radica en que lo definido como normal para los fenmenos que aqulla estudia hace referencia a la normalidad estadstica. Al aplicar una prueba diagnstica a sujetos normales
Prof. Dr. Alberto C Palladino

26

(definidos como tales por una prueba patrn: anatoma patolgica, por ejemplo) se obtiene una gama importante de resultados. Si con stos se construye una curva se observar que la mayor frecuencia se encuentra al centro; declinando las frecuencias hacia los extremos. Existen valores apartados en la curva correspondientes a observaciones que, siendo normales (segn criterios patrn), son poco frecuentes y, en realidad, estn en un sector de la escala en donde es ms comn observar sujetos anormales (siempre de acuerdo al criterio patrn). Se suele definir como normal a los resultados de una prueba que se encuentran en el intervalo comprendido por la media aritmtica 2 desvos estndar. Esto representa el 95,44 % de las observaciones; o sea, habr un 2,28 % de sujetos normales que presentarn valores por debajo y otro tanto por encima de aquel intervalo. Este casi 5 % de normales (segn el criterio patrn) sern catalogados como anormales por el resultado de la prueba. Ha modo de sntesis, he aqu un cuadro con las medidas de resumen ms comnmente utilizadas y posible de aplicar segn el tipo de escala usada en la medicin de las variables: Variables segn Escala de Medicin Escala Medida de Tendencia Central Moda Mediana Media Medida de Dispersin Rango Intercualtil Desvo Estndar

Nominal Ordinal Numrica

Debe entenderse que las escalas de mayor poder de discriminacin en la medicin suman a las medidas sealadas para ellas las que son posibles de aplicar en escalas de ms bajo poder de discriminacin.

INFERENCIA ESTADSTICA
El trmino inferencia, en sentido general, se refiere al conocimiento que se obtiene a partir de otros conocimientos disponibles. La expresin inferencia estadstica est vinculada a la aplicacin de tcnicas estadsticas dentro de ese significado. Inferencia estadstica es una de las funciones de la estadstica que permite hacer generalizaciones de resultados obtenido en muestras, seleccionadas de manera aleatoria, al universo del cual aqullas fueron extradas; estimando la probabilidad de error debido al azar. Por esta definicin, ya puede derivarse que este captulo de la estadstica viene a cumplir la segunda finalidad de esta disciplina (cuantificar la influencia del azar) sealadas al comienzo de este documento.
Prof. Dr. Alberto C Palladino

27

Los estudios sobre poblaciones humanas se realizan, generalmente, sobre una muestra del universo investigado. Esto es as por la amplitud que suelen tener dichos universos y por tratarse, muchas veces, de conjuntos permanente cambiantes. La tcnica del muestreo permite obtener resultados que, cuando aqulla se ha realizado con rigurosidad metodolgica, son generalizables a la poblacin de la que fue extrada la muestra y, an, a otras poblaciones que posean caractersticas similares. Sin embargo, estas generalizaciones tienen un margen de error derivado del hecho mismo de no trabajar con el total de las observaciones sino con una parte que (en algunos casos) puede no ser representativa del conjunto. Entindase por error, aqu, al obtener una muestra no representativa del universo a pesar de haberse seguido una tcnica de muestreo correcta. Si bien no es posible identificar a la muestra no representativa, puede estimarse la probabilidad de que los resultados obtenidos provengan de una de ellas. Se suele representar esa estimacin por la letra p seguida de una fraccin de la unidad que indica la probabilidad de error. Por ejemplo: p 0,01 significa que existe no ms del uno por ciento de probabilidad de que el valor de la muestra no se corresponda con el del universo. A este nivel de p se le llama nivel de significacin estadstica. Suele tomarse como aceptable un nivel de significacin estadstica no mayor al cinco por ciento ( p 0,05 ); aunque esto es una convencin que slo intenta marcar un margen de seguridad y suele ser exigido para la aceptacin de trabajos cientficos. Bsicamente, las inferencias que se realizan a partir de muestran tienen dos aplicaciones: 1) estimar un parmetro poblacional y 2) estimar diferencias entre grupos. ESTIMACIN DE PARMETROS: Se denomina estimador a un valor correspondiente a una medida estadstica obtenido en una muestra. Son estimadores las medidas de resumen:

x = media aritmtica, Ma = mediana, s = desvo estndar; y, tambin, medidas riesgo, de

correlacin y diferencias encontradas en muestras. En tanto, parmetro es el valor de una de esas medidas en el universo y que se desea estimar a partir de los valores muestrales. Los parmetros de las medidas de resumen se simbolizan con letras griegas: = media aritmtica; = desvo estndar. Esta inferencia suele hacerse expresando un tramo de la escala dentro del que se piensa est el parmetro. Este tramo, que se denomina intervalo de confianza se construye calculando, previamente, el error estndar de la muestra (EEM). Este proviene de una frmula en dnde entran en consideracin: la variabilidad del fenmeno (desvo estndar, p. ej.) y el tamao de la muestra. El valor del EEM sumado y restado al del estimador (valor de la muestra) definir el intervalo de confianza. Puede construirse un intervalo de confianza aplicando 1, 2, 3 ms EEM. La cantidad de EEM con la que se construya el intervalo definir el nivel de confianza con el que se realiza la estimacin. Ese nivel tiene valores similares al del desvo estndar: 68 %, 95 %, 99 %, segn se tomen 1, 2, 3 desvos estndar. Si se expresa, por ejemplo, que la media de la colesterolemia encontrada en un estudio fue de: 225 mg / 100 cc (I.C. 95 %: 200 mg, 250 mg / 100 cc) se est diciendo que, habindose obtenido un valor medio en la muestra de 225 mg/100 cc, la media poblacional se estima que est entre 200 y 250 mg/100 cc con un nivel de confianza del 95 %. Ahora bien, si ese es el nivel de confianza, lo que resta (un 5 %) ser la probabilidad de que el valor del universo NO est dentro de ese intervalo. Por ello, el resultado anterior, tambin, puede verse expresado de la siguiente manera:
Prof. Dr. Alberto C Palladino

28

225 mg / 100 cc 25 mg / 100 cc con una p 0,05 que significa que, habindose obtenido un valor medio en la muestra de 225 mg/100 cc, la media poblacional se estima que est entre 200 y 250 mg/100 cc, con una probabilidad de error no mayor al cinco por ciento. Los valores que marcan los extremos del rango de la estimacin se denominan lmite superior y lmite inferior del intervalo de confianza. Advirtase, entonces, que el error estndar es utilizado, en definitiva, para valorar la probabilidad de que la estimacin no sea la adecuada en virtud de que la muestra utilizada no sea representativa del universo, a pesar de habrsela obtenido por un procedimiento probabilstico. El error proveniente vicios o errores metodolgicos en la seleccin de la muestra no son mesurables estadsticamente. Por ltimo, se advierte que error estndar no es lo mismo que desvo estndar; aunque para sus respectivas finalidades utilicen porcentajes iguales segn el nmero de estadstico tomado. El desvo estndar se aplica para mesurar la dispersin de valores individuales en la muestra; mientras el error estndar se utiliza para valorar la probabilidad de que un parmetro se encuentre dentro de un determinado rango de valores (intervalo de confianza). ESTIMAR DIFERENCIAS ENTRE GRUPOS: Las diferencias encontradas entre dos grupos muestrales pueden corresponderse con diferencias reales (es decir que ambos grupos provengan de universos diferentes) o ser, simplemente, diferencias encontradas por haberse tomado una o ms muestras no representativas de un universo nico. Se denomina prueba de hiptesis al testeo de una hiptesis para aceptar a diferencias encontradas entre grupos muestrales como diferencias reales; es decir, correspondientes a diferencias entre universos distintos. ste es el caso de, cuando en un trabajo experimental, a un grupo se le suministra una droga nueva, por ejemplo, y al otro se le aplica el tratamiento habitual o un placebo. Tambin, cuando en un estudio observacional se desea evaluar la relacin entre un dao y un factor de riesgo determinado (comparando las diferencias cuantitativas del dao entre el grupo de expuestos y el de no expuestos). En estos casos se utiliza la expresin las diferencias fueron (o no fueron) estadsticamente significativas para referir la mencionada probabilidad de error. Sern estadsticamente significas si el valor de p es igual o menor al 5 % (p 0,05); aunque ste es un valor tomado convencionalmente, como ha sido dicho ya. Pudiera ser que ese valor sea superior al 5 % (p. ej.: p 0,10); pero las diferencias sean importantes como para tenerlas en cuenta desde el punto de vista de la intervencin a realizar. Por eso cuando se expresa que la diferencia no fue estadsticamente significativa, conviene consignar tanto el valor de la diferencia como el de p para dejar que el lector pueda hacer su propio anlisis. Como se ve, significacin estadstica no implica importancia clnica. Las diferencias entre los grupos pueden ser importantes para la clnica; aunque estadsticamente no se haya obtenido significacin. Y lo contrario: diferencias significativas estadsticamente pueden ser de muy poca utilidad en la clnica. Obsrvese que la aplicacin del trmino significativo es utilizado con la finalidad estadstica de extrapolacin al universo y no de importancia por su magnitud. Para obtener el valor de p se utilizan pruebas de significacin estadstica; dentro de las cuales estn: el chi cuadrado ( x2 ) y la t de Student ( t ). Existe una Prof. Dr. Alberto C Palladino 29

importante variedad de stas y otras pruebas de significacin segn el diseo y tipo de estudio. Los clculos que permiten obtener los valores de estas pruebas exceden los propsitos de este documento y, actualmente, estn disponibles en los principales programas informticos de anlisis estadsticos. De todos modos, siempre la interpretacin es la misma: el valor de p hace referencia a la probabilidad de error en la generalizacin de los resultados. Tambin puede valorarse estadsticamente las diferencias aplicando el intervalo de confianza. La tcnica ser la misma: al valor de la diferencia se le suman y restan errores estndar de la diferencia para construir un intervalo que tendr el nivel de confianza correspondiente al nmero de errores tomados; y que se expresar de la misma manera que la que se hace al estimar un parmetro.. Como se ha visto, entonces, las tcnicas de significacin estadstica se la utiliza: 1) cuando se desea estimar un parmetro poblacional, mediante el uso de intervalos de confianza; y 2) cuando se desea valorar la probabilidad de que una diferencia hallada en muestras pueda generalizarse a la poblacin, mediante el uso de pruebas de significacin estadstica o del intervalo de confianza.

BIBLIOGRAFA
1. Bancroft H. Introduccin a la Bioestadstica. Buenos Aires: EUDEBA; 1965. 2. Camel F F. Estadstica Mdica y de Salud Pblica. Venezuela: Unde los Andes; 1970. 3. Milton JS. Estadstica para Biologa y Ciencias de la Salud. 2 ed. Espaa: McGrawHill Interamericana; 1994. 4. Norman G, Streiner D. Bioestadstica. 2 ed. Madrid: Mosby/Doyma Libros; 2001. 5. Pineda EB, de Alvarado EL, de Canales FH. Metodologa de la investigacin. Manual para el desarrollo de personal de salud. Serie PALTEX para ejecutores de programas de salud N 35. 2a. ed. Washington: OPS; 1994. 6. Riegelman R K, Hirsch R P. Cmo estudiar un estudio y probar una prueba lectura crtica de la literatura mdica. OPS/OMS, Publ Cient 531; 1992. 7. Weintrub J, Douglas C, Gillings D. Bioestadstica en Salud Bucodental. Washington: OPS; 1989.

Prof. Dr. Alberto C Palladino

30