Вы находитесь на странице: 1из 133

ISBN:978-987-604-135-5

Palabras de las autoras


El libro que se presenta se elaboró con el objetivo de brindar a
quien lo requiera una introducción a los métodos y procedimientos básicos
de la Estadística. Si bien ésta tiene un fuerte sustento teórico, puede sim-
plificarse su presentación y desarrollar sólo aquellos métodos simples y de
aplicación inmediata a resultados experimentales.
El nivel y profundidad con que son abordados los temas están defi-
nidos según el resultado de nuestra experiencia como docentes dictando
cátedra en las carreras de Ciencias Sociales durante muchos años.
Los métodos y la teoría de la Estadística comprenden desde proce-
dimientos descriptivos elementales, que de la mano del permanente desa-
rrollo tecnológico, hoy tiene un lugar destacado en el primer escalón de la
investigación aplicad, generando nuevos y propios conocimientos así como
provocando la necesidad de definir y delimitar los aspectos
La actividad técnica científica conlleva en la gran mayoría de los
casos una actividad interdisciplinaria, la Estadística suele jugar un rol vin-
culante entre el método científico y las ciencias en general, de allí la im-
portancia que quienes apliquen las técnicas estadísticas lo hagan con co-
nocimientos sólidos, respetando los supuestos que el método exija, única
manera de arribar a resultados convalidados científicamente, y en los ca-
sos que corresponda garantizar la toma de decisiones acordes con el pen-
samiento estocástico.

i
INTRODUCCIÓN 1
1. Conceptos Generales 1
2. Introducción al Muestreo 7
2.1. Métodos de Muestreo Probabilísticos 11
2.2. Métodos de Muestreo No Probabilísticos 15
2.3. Métodos Particulares de Selección 17
3. Consideraciones Finales 18
ETAPAS OPERATIVAS DE LA INVESTIGACIÓN ESTADÍSTICA 20
1. Formulación del Problema 21
2. Diseño del Experimento- Encuestas por Muestreo 22
3. Recopilación de Datos estadísticos 30
4. Organización de la Información 32
5. Presentación de la Información 33
6. Análisis de la Información 46
7. Interpretación de Resultados 47
ORGANIZACIÓN DE LA INFORMACIÓN ESTADÍSTICA 48
1. Clasificación de Variables 48
2. Variables Unidimensionales 50
2.1. Variables Cuantitativas Unidimensionales 51
3. Variables Bidimensionales 66
3.1. Variables Cuantitativas Bidimensionales 67
3.2. Variables Cualitativas Bidimensionales 76
MEDIDAS DESCRIPTIVAS 79
1. Introducción 79
2. Medidas de Posición 79
2.1. Promedios 80
2.2. Mediana 89
2.3. Modo 95
2.4. Cuartiles 100
2.5. Deciles 103
3. Medidas de Dispersión 103
3.1. Rango 104
3.2. Rango Intercuartil 104
3.3. Desviación Cuartílica 104
3.4. Desvío Standard 108
3.5. Dispersión Relativa 112
TÉCNICAS BÁSICAS DE ANÁLISIS 113
1. Variable Bidimensional 113
2. Variables cuantitativas 113
2.1. Covariancia 113
2.2. Coeficiente de Correlación muestral 116
3. Variables cualitativas 118
3.1. Asociación – Tablas 2x2 118
3.2. Contingencia - Coeficientes 121
3.3. Asociación – Coeficiente de Kendall 124
4. Variables ordinales 127
4.1 Coeficiente de Spearman 127
5. Análisis multivariante 128

ii
I. Introducción

INTRODUCCIÓN

1. Conceptos Generales
La concepción profana de la Estadística suele incluir en su concepto
la recopilación de grandes masas de datos y su presentación en cuadros y
gráficos, como así también el cálculo de totales, promedios, porcentajes,
entre otros. Esta concepción resulta simplista, considerando que estas
operaciones más o menos rutinarias constituyen solamente parte inciden-
tal de la Estadística de hoy.
Los métodos y procedimientos de la Estadística como ciencia, se
utilizan en diversos campos técnicos y científicos. Muchos estudiosos o in-
vestigadores, sean personas de negocios, empresarios, profesionales, ad-
ministradores públicos o privados, trabajando en un entorno propio a su
actividad requieren información sobre características o comportamientos
de dicho entorno, tanto para progresar en el conocimiento del problema,
indagar sus causas, como para tomar decisiones.
Es función del estadístico recopilar y caracterizar información con
análisis sencillos o más profundos y complejos, dependiendo esto último
de la cuestión a estudiar y de los objetivos especificados para su análisis.
En algunos casos el avance en el uso de las herramientas informáticas fa-
cilita el almacenamiento masivo y la disponibilidad de información, en
otros, se deberá recurrir a operativos específicos para su obtención.
 La Estadística es la ciencia de la experimentación; el conoci-
miento de las Técnicas Estadísticas ayuda a tratar datos experimentales y
a programar experimentos de una forma más eficiente.
Utilizando el término experimentación en su acepción más amplia,
se debe entender que la Estadística proporciona no solo métodos de análi-
sis de datos disponibles, sino que también contribuye a la planificación y
organización de las tareas inherentes a la obtención de información. Al
aplicar sus procedimientos se alcanza en cada etapa: mayor eficacia, mí-
nimo error, aumento del rendimiento, economía en material, personal y
tiempo empleado, entre otras cuestiones.
 Se describe a la Estadística como la tecnología del método cien-
tífico que proporciona instrumentos válidos para la toma de decisiones,
cuando prevalecen condiciones de incertidumbre. Estos instrumentos pue-
den ser de aplicación completamente general y útiles en cualquier campo
de la ciencia: físico, biológico ó social.
Mediante el razonamiento y en algunas situaciones la intuición el
método científico busca llegar a la verdad, para ello a partir de la teoría
pertinente, aplica un razonamiento deductivo o simplemente la inducción.
En muchos planteos no determinísticos, la experimentación es el punto de
partida para el avance en el conocimiento científico; para estas situacio-
nes el principio básico que se sustenta es: la evaluación debe ser objetiva
y controlada. Para ello se plantean hipótesis y se diseñan experimentos

1
I. Introducción

adecuados, contrastando de manera objetiva dichas hipótesis. Los resul-


tados proporcionados por el experimento se analizan estadísticamente y
así se desecha o no la hipótesis planteada.
Sucintamente se puede decir que a los efectos de estudiar la Esta-
dística como disciplina aplicada a desarrollos experimentales y como ins-
trumento de apoyo en la generación de nuevos conocimientos, se señalan
tres aspectos característicos del método científico: 1) Ejecución de expe-
rimentos, 2) Obtención de conclusiones objetivas a partir de los experi-
mentos, 3) Construcción de leyes que simplifiquen la descripción de con-
clusiones fundadas en amplias clases de experimentos.
En este esquema, la Estadística participa robustamente en los dos
primeros de estos aspectos, a través del Diseño Experimental, la Esta-
dística Metodológica y la Estadística Inferencial.

Sin hacer uso de conocimientos matemáticos avanzados, en el tex-


to se presentan los principios básicos de la Estadística Aplicada. Siendo el
objetivo brindar las herramientas necesarias para la comprensión y aplica-
ción, adecuada y precisa, de los métodos estadísticos desde el momento
que se diseña una experiencia, se ejecuta, hasta la obtención de las con-
clusiones finales.
Conceptualmente, la Estadística es una manera de pensar y de tra-
tar cierta problemática real o simulada, abordando estas situaciones de
una forma elaborada, controlada y evaluada que el criterio común, fun-
damentalmente, cuando prevalecen condiciones de incertidumbre. Otra
característica importante de señalar es que la Estadística aplicada a cual-
quier campo que la demande, requiere disponer de observaciones repeti-
das, obtenidas a través de un proceso que deberá garantizar la calidad de
los resultados. Estos resultados presentarán individualmente variaciones
imprevisibles, sin embargo, como consecuencia de las replicaciones, mos-
trarán algún tipo de regularidad.
A través de la Estadística y sus métodos se podrá explicar tenden-
cias, identificar causas, clasificar efectos, enunciar comportamientos ocul-
tos, encontrar factores subyacentes, y otras muchas conductas de interés
en el ámbito técnico o científico.
Para el desarrollo de la Teoría Estadística se distinguen claramente
dos campos que se denominan y definen:

 Estadística Descriptiva es el conjunto de métodos y procedimien-


tos que permiten la recopilación, presentación y análisis de datos, referi-
dos a conjuntos de unidades de observación que interesa investigar; esto
se realiza con el objeto de describir en forma apropiada las diversas carac-
terísticas de las mismas.

2
I. Introducción

Cuando al recopilar información la finalidad deja de ser una activi-


dad meramente descriptiva del conjunto de datos disponibles y se desea
concluir respecto al conjunto mayor de unidades de referencia, esta acti-
vidad corresponde a la Estadística Inferencial. En esta situación la Estadís-
tica plantea y resuelve temas inherentes a estimar características o pa-
rámetros poblacionales (conjunto mayor) sobre la base de datos observa-
dos de una muestra (conjunto menor).También realiza predicciones eva-
luando tendencias para un futuro inmediato o mediato, analizando el
comportamiento pasado y presente.
En todas éstas y otras aplicaciones siempre se trabajará con cierto
grado de incertidumbre por tratarse de una estimación o pronóstico. Sin
embargo, queda claro que el principio básico que se sustenta es: las pre-
dicciones confiables son necesarias en la toma de decisiones.
Ante interrogantes que se plantea el investigador en el campo de la
experimentación, tales como ¿hasta qué punto es posible generalizar?,
¿con qué grado de incertidumbre se está trabajando?, los métodos esta-
dísticos aportan las herramientas para atender estas exigencias.
El aporte más importante que realiza la Estadística como ciencia es
que proporciona métodos de análisis que brindan una medida de precisión
en sus conclusiones. El lenguaje formal para expresar esta incertidumbre
será una medida de probabilidad, como se explicará en capítulos subsi-
guientes.
 Estadística Inferencial es el conjunto de métodos que posibilitan
la estimación o pruebas de hipótesis, referidas a características de la po-
blación, sobre la base de la información obtenida a partir de una muestra.
La comprensión acabada de esta definición se logrará al finalizar la lectura
del texto.
Las restricciones a las que están sometidas ciertas experiencias o
investigaciones, provocan que las observaciones sólo puedan realizarse a
un número reducido de individuos. En consecuencia los resultados obteni-
dos corresponderán a ese conjunto de observaciones realizadas. Dada es-
ta situación, es evidente que ninguna investigación tendría trascendencia
si sus conclusiones sólo fueran válidas para los elementos que han sido
seleccionados como grupo representativo y no pudieran generalizarse al
resto.
Realizada esta breve discusión, es posible enunciar la definición
conceptual de la ciencia que nos ocupa, en su acepción más amplia.

La Estadística como disciplina, permite aplicar y desarrollar méto-


dos lo más eficientes posibles para: Recopilar, Organizar, Presentar, Ana-
lizar e Interpretar la Información Estadística, datos u observaciones, de
tal forma que los errores que se puedan cometer al sacar conclusiones y
al hacer estimaciones sobre la base de esos datos observados, puedan ser
evaluados a partir de un razonamiento inductivo fundamentado en la Teo-
ría de Probabilidades.

3
I. Introducción

Para poder introducir los procedimientos básicos de la Estadística


como disciplina, es necesario acordar y acotar algunos conceptos, como
así también en algunos casos enunciar definiciones:
 Objetivo de la Estadística: Es el estudio del comportamiento de
conjuntos de datos correspondientes a grupos medianamente numerosos,
para poder así enunciar a partir de ellos leyes generales, obtener conclu-
siones y tomar decisiones.
Si bien en los problemas que generalmente afronta la Estadística,
el número de observaciones varía sensiblemente, según las distintas si-
tuaciones, su objeto de estudio es un conjunto, nunca individuos aislados.
 Métodos estadísticos: Como se trata de un gran volumen de in-
formación cuanti o cualitativa., se requiere disponer de métodos sistemá-
ticos que puedan ser utilizados para organizar, presentar, analizar e inter-
pretar la información en forma eficiente. Estos deben permitir extraer
conclusiones válidas y tomar decisiones con mínimo riesgo.
Los métodos estadísticos son objetivos y controlados, permiten en-
tre otras acciones ajustar funcionalmente tendencias, encontrar compor-
tamientos subyacentes del conjunto de individuos, modelizar estos com-
portamientos. Son esencialmente métodos para tratar datos obtenidos
mediante operaciones reiterativas o susceptibles de repetición. Para el
análisis e interpretación de resultados, los métodos se fundamentan en el
conocimiento de las leyes del azar y son aplicables a todas las investiga-
ciones en las que la complejidad y cantidad de los factores de variación
exigen un diseño experimental propio.
 Modelo: Es la representación teórica de la realidad. La experiencia
indica que muchas operaciones empíricas y reiterativas se comportan co-
mo si se produjeran en circunstancias esencialmente estables. En tales
condiciones es posible construir un modelo matemático adecuado al com-
portamiento observado. Estos modelos se puede entonces emplear para,
por ejemplo, estudiar sus propiedades y extraer conclusiones referentes al
mismo, hacer predicciones sobre la frecuencia esperada con que se pre-
sentan ciertos resultados, entre otras posibilidades.
En su desarrollo histórico, el estadístico empírico considera a la
probabilidad como una idealización de la proporción de veces que se pre-
senta un determinado resultado en las pruebas repetidas de un experi-
mento. En consecuencia un modelo de probabilidad es el tipo de modelo
matemático elegido por él.
Por tratarse del ajuste del comportamiento empírico a una expre-
sión analítica matemática no debe considerarse que el modelo se presente
exento de error al momento de usarlo como instrumento de predicción. No
es una fórmula mágica, es un instrumento. Las conclusiones que de él se
obtengan únicamente son “significativas” en la medida en que el modelo
elegido sea una aproximación suficientemente “buena” de la situación re-

4
I. Introducción

al. Citando a Benzecri (1988) “el modelo debe seguir a los datos y no los
datos ajustarse al modelo”.
Dada la naturaleza de los datos y el concepto de “modelo”, es lógi-
co que la Teoría de Probabilidades sea la herramienta fundamental en
la Teoría Estadística.
 Teoría Estadística: En general responde a las siguientes cuestio-
nes: fundamentar el uso de diversas técnicas y métodos que coadyuven a
encontrar soluciones a determinados problemas empíricos o teóricos; di-
señar experimentos, estudios o investigaciones, que estén condicionados
a los objetivos planteados, al análisis deseado, garantizando eficiencia y
por último evaluar la precisión midiendo los errores en las estimaciones y
predicciones.
 Universo (UN): Es el conjunto de todas las unidades elementales,
objeto de estudio, definido en el tiempo y en el espacio. Es fundamental
su especificación detallada, determinando las características que le defi-
nen una composición o estructura. Esto permite determinar, taxativamen-
te, si un elemento pertenece o no a la Población en estudio.
Frecuentemente los términos Universo y Población se utilizan in-
distintamente. Esto se debe a que el concepto de “población “ tiene amplio
alcance para la Estadística de modo que, según el campo de aplicación del
que se trate, se puede estar trabajando con poblaciones de personas,
plantas, días, frutos, tornillos, etc..Sin embargo en la teoría Estadística el
término población, se utiliza para referirse a las distribuciones teóricas de
las variables involucradas en el análisis, concepto que se desarrollará más
adelante.
Podría mencionarse como dos ejemplos de posibles universos a es-
tudiar: Alumnos que cursan carreras de Economía en las Universidades
Nacionales Argentinas en el año 2008; o Producción de tornillos fabricados
por la empresa TT en el último mes del corriente año.
Una población estadística puede ser finita o infinita, en el sentido
de que está constituida por un número limitado o ilimitado de elementos.
Solamente en el caso de población finita puede establecerse el
marco poblacional enumerando sus elementos o listándolos físicamente. El
número total de elementos que la componen, se simboliza con N.
A los efectos de un muestreo, de existir un marco poblacional este
será la base sobre el cual deben definirse los procesos de selección. Este
marco en general posee deficiencias que deben detectarse y remediarse
antes de ser utilizado.
Las unidades que componen el Universo deben ser susceptibles de
ser observadas y presentar una o varias características de interés a las
que se referirán los resultados del Análisis Estadístico.
 Censo: Es un operativo de recopilación de información que se rea-
liza considerando todos los elementos de la población. Ejemplos de ellos
son: Censo de Población, Hogares y Viviendas; Censo Económico, Censo

5
I. Introducción

Agropecuario, etc. En general son realizados por organismos oficiales mu-


nicipales, provinciales o nacionales habilitados a tal fin, tales como el
INDEC o las Direcciones de Estadística Provinciales.
 Muestra (Mn): Es un subconjunto de elementos seleccionados de
un Universo. Para que su estudio reemplace al de la población completa,
la selección de los elementos que la componen, deben ser representativos
de la población y haber sido seleccionados siguiendo un método funda-
mentado en leyes del azar. El número total de elementos que la compo-
nen, se simboliza con n. Ejemplo de estudio por muestreo son: las En-
cuestas a hogares, Sondeos de opinión, Controles de calidad. etc.
 Unidad Estadística (u.e): Es cada uno de los elementos a obser-
var, que en forma conjunta componen la población o muestra, objeto de
estudio. Estos elementos pueden ser: personas, animales o cosas, de exis-
tencia abstracta o tangible. Por ejemplo son unidades estadísticas: alum-
nos, turistas, cobayos, unidad productora (chacra), tornillos, expedientes,
viviendas, días, hogares; a ellos es a quienes se les registra una o más
características.
 Características (x, y, z,…): Así se designa a las variables que in-
teresan en el análisis estadístico. Como ejemplo, para algunas de las uni-
dades estadísticas mencionadas anteriormente, podrían enumerarse tres
características para cada una :
Alumnos (sexo, nacionalidad, edad)
Turistas (ingreso mensual, tiempo de estadía, gasto diario)
Tornillos (defectuoso, peso en g, long en mm)
Viviendas (número de habitantes, característica de los pisos, número de
cuartos)
Por extensión el término características también se aplica a aque-
llos cálculos realizados utilizando los valores observados de las variables,
por ejemplo: proporción de varones, promedio de ingreso mensual, longi-
tud máxima y mínima, índice de hacinamiento, etc.
 Datos Estadísticos: Es el conjunto de valores que asumen las va-
riables cuando éstas son observadas o medidas en las unidades estadísti-
cas. Estos datos deben ser tales que puedan ser comparados, analizados e
interpretados, y deben estar presentados en forma ordenada y sistemáti-
ca. Como ejemplo en el caso que el conjunto de datos recopilados corres-
pondiente para la variable sexo con modalidades varón - mujer, corres-
pondiente a cinco alumnos la información podría reflejar el siguiente re-
sultado: VVMVM. Para el caso de observar la variable número de errores
por expediente los datos estadísticos pueden ser: 0,4,3,2,2,3,0,…, etc.
 Parámetros ( µ, σ, p ): Son los valores que asumen en la población
determinadas características referidas a la variable estudiada. Ejemplos:
promedios, dispersiones, proporciones, totales, etc. Los parámetros en
general son desconocidos, excepto el caso en que se realice un operativo
censal.

6
I. Introducción

 Estadísticos ( x, Sx , h ): Son los valores descriptivos o característi-


cas que resultan de algún cálculo realizado con los datos observados de
una variable en la muestra. Ejemplos: edad promedio de los alumnos, va-
lor máximo de errores observados en un conjunto de expedientes, propor-
ción de tornillos defectuosos, dispersión en la distribución de los ingresos.
 Estimador: Se define como estimador de un parámetro a una
función de las observaciones muestrales. Es una expresión matemática
que puede ser lineal, cuadrática, etc.
 Estimación: Es el valor numérico del estimador que se obtiene re-
emplazando en la expresión matemática los resultados obtenidos a través
de una experiencia o experimento.

La Teoría del Muestreo estudia los métodos para seleccionar y ob-


servar una parte (muestra) de la población, así como los procedimientos
para obtener estimadores de características poblacionales con el fin de
hacer inferencia. Trabajar con muestras presenta varias ventajas respecto
del censo o enumeración completa, tales como economía, rapidez, calidad
y precisión del operativo.
Por otra parte, los Censos completos poseen ventajas especiales en
algunas situaciones los guarismos obtenidos son más creíbles para la opi-
nión pública y la colaboración y la respuesta del público se pueden obte-
ner con facilidad. Resulta imprescindible realizar estos operativos cuando
se desea disponer de información sobre aquellas características de la po-
blación que se consideran de coyuntura o de sostén principal para las ac-
tividades fundamentales de la sociedad: educación, economía, desarrollo
social, etc.
En general, la elaboración y ejecución de un Censo completo re-
quiere de un gran esfuerzo material y humano; y no está exento de error.
Las principales causas de error son la cobertura incompleta o subcobertura
y la no respuesta o respuesta incompleta. Se debe tener en cuenta que al
realizar un censo el número de ítems a recabar debe ser reducido.
Por último salvo en las situaciones antes mencionadas, en genera-
lidad se está interesado en estudiar estadísticamente cuestiones más es-
pecíficas y puntuales, en estos casos es mejor y posible obtener una
muestra de buena calidad, así como asignar y seleccionar mejor los recur-
sos, poder hacer un buen seguimiento y supervisión del operativo y por
supuesto ampliar notablemente el espectro de temas a incluir.

2. Introducción al Muestreo
Los conceptos anteriormente expuestos, permiten realizar una pre-
sentación general sobre qué implica el Muestreo Estadístico.
Es evidente que el empleo de una muestra es el único medio que
permite estudiar una población infinita o finita pero muy extensa. Aún en
el caso de poblaciones finitas que podrían ser abarcadas en su totalidad,

7
I. Introducción

el uso de muestras suele tener ventajas pues no sólo economiza esfuerzos


al reducir costos y tiempos, sino que además permite obtener información
más detallada que la que se puede conseguir mediante un examen de to-
da la población.
Si las muestras responden a un diseño estadísticamente planifica-
do, es posible cuantificar el error de muestreo y el estudio proporciona in-
formación confiable.
En algunos casos, la obtención del dato es destructiva, haciéndose
imprescindible el uso de una muestra, ya que la observación de todas las
unidades que componen la población destruiría la misma. Por ejemplo: a
los efectos de calcular el voltaje necesario para que un componente eléc-
trico falle, se ponen a prueba los componentes eléctricos seleccionados
por muestreo hasta que fallen, por lo tanto la obtención del dato destruye
a la unidad estadística seleccionada.
Por supuesto que no siempre se va a recomendar el uso de mues-
tras. En ciertos casos, la muestra tiene que ser tan grande que habrá pe-
queñas diferencias entre emplear un censo completo o un muestreo. Al-
gunos de los factores que influyen en la decisión de usar o no muestreo,
es evaluar las condiciones para enfrentar las dificultades, el costo de su
ejecución y en algunos casos la complejidad del diseño experimental,
también depende del alcance y precisión que se pretende dar a las conclu-
siones obtenidas.
Cabe una aclaración complementaria: para recolectar información,
la cantidad de trabajo y el gasto requerido por unidad, es siempre mayor
mediante una muestra que mediante un censo completo, siendo que en
este último se buscan características generales y en algunos casos deter-
minar marcos de poblaciones específicos, como por ejemplo personas con
capacidades diferentes, indígenas; que luego serán utilizados en estudio
específicos más extensos a través de encuestas por muestreo. Esto condu-
ce a que el tiempo requerido para formalizar la recopilación es siempre
mayor en la encuesta por muestreo que en un operativo censal, la prepa-
ración que requiere el encuestador es más compleja que la del censista.
Por otra parte respecto a las características calculadas a través de
un censo estas también están sujetas a errores; debido al grado de co-
bertura, temporalidad, errores de captación, etc.
Finalmente se puede señalar como ventajas del muestreo sobre un
censo completo a las siguientes particularidades:
a) Economía.
b) Rapidez y oportunidad.
c) Único recurso si la observación es destructiva.
d) Calidad y precisión.
A su vez los censos poseen ventajas especiales en algunas situa-
ciones:

8
I. Introducción

a) Se pueden obtener datos de unidades atípicas con marcos poblacio-


nales desconocidos.
b) La aceptación pública es más fácil de alcanzar para relevamientos
completos en los cuales se involucran organismos oficiales.
c) La colaboración y la respuesta del público se pueden obtener con
mayor facilidad.
d) El sesgo de cobertura puede ser más factible de evaluar y de reducir.
e) No se requieren estadísticos expertos en muestreo.
El uso de muestras aleatorias permite en primera instancia obtener
información y realizar un estudio exploratorio descriptivo. Si el objeto de
estudio así lo requiere se podrá realizar complementariamente alguna in-
ferencia estadística.

Siempre que la Muestra sea representativa y aleatoria, su


estudio sustituye al estudio de todo el Universo.

El muestreo es un medio no un fin en sí mismo. Toda recopilación


de información por muestreo debe estar respaldada por métodos y proce-
dimientos estadísticos que garanticen obtener conclusiones precisas facti-
bles de ser evaluadas en términos de probabilidad. Para comprender el
sentido de los conceptos precisión, confianza y su evaluación, resulta ne-
cesario comenzar explicando el concepto de error en Estadística.
Los errores se presentan y afectan a los resultados obtenidos en
una investigación por muestreo, son esencialmente de dos tipos:
 Errores de muestreo: Son errores de representatividad, es decir,
los que resultan de tomar una muestra en lugar de toda la población.
Cualquiera sea el método aplicado para seleccionar una muestra, una es-
timación por muestreo de una determinada característica de la población,
diferirá inevitablemente del verdadero valor poblacional. Esta diferencia
entre la estimación o estadístico, obtenida de la muestra y el verdadero
valor poblacional o parámetro (desconocido), se llama error de muestreo.
Por ejemplo para una Población constituida por todos los alumnos
que concurren a una Universidad, se obtiene una Muestra representativa
de éstos. Utilizando los datos recopilados se calcula la proporción con que
se presenta la modalidad “el alumno es de sexo varón”, esta proporción
obtenida con la información muestral, simbólicamente h, no necesaria-
mente coincide con el verdadero valor de dicha proporción en la población
total, simbólicamente p, la diferencia entre ambas proporciones constitu-
ye el Error de Muestreo: h−p
Considerando el mismo conjunto de alumnos se registra el ingreso
familiar para cada uno de ellos y luego se calcula el ingreso familiar pro-
medio, simbólicamente x ; esta característica muestral diferirá del prome-

9
I. Introducción

dio poblacional µ , esta diferencia o Error de Muestreo se expresa en valor


absoluto: x − µ
 Errores tendenciales: Llamados también inclinaciones, vicios o
sesgos. Se presentan con persistencia, en un determinado sentido y en
magnitud aproximadamente constante de observación en observación. Es-
to ocurre cuando las observaciones se hallan sujetas a las mismas condi-
ciones experimentales, por ejemplo: entrevistador mal entrenado o mal
seleccionado; cuestionario con alguna pregunta incorrectamente formula-
da; instrumento de medición mal calibrado; etc.
 Errores accidentales: Son introducidos por una infinidad de cir-
cunstancias fortuitas, como pueden ser: entrevista de duración excesiva;
pertinencia del horario en que se realiza la entrevista; algún suceso per-
sonal que repercute en el ánimo del entrevistado; etc.
Para resolver las cuestiones expuestas anteriormente la Teoría de
Muestreo desarrolla fundamentalmente Métodos de Selección de Mues-
tras y Métodos de Estimación, vinculados estrechamente al tamaño de la
muestra (n) de manera tal que proporcionen con mínimo error y al menor
costo posible las características de la población objeto de estudio con la
confianza deseada.
Teniendo en cuenta estos conceptos introductorios a la teoría del
muestreo se puede señalar los aspectos vinculados a la precisión de los
resultados obtenidos en las estimaciones o predicciones realizadas. Estos
son:
 Tamaño de la Muestra: Es el número de unidades elementales
que la componen, que se simboliza con n. Su cálculo, requiere conoci-
mientos teóricos específicos en la materia, sin embargo se puede decir
que varía según el tipo de muestreo, dependiendo del error que se admite
en las estimaciones, de la probabilidad de dicho error o confianza deseada
de él o de los parámetros a estimar, de la variancia del estimador y en al-
gunos casos del costo del muestreo. En general, a mayor tamaño de
muestra implica mayor confianza y precisión en las estimaciones y predic-
ciones.
 Diseño de la muestra: en algunas circunstancias esta etapa re-
quiere de un análisis bastante complejo que obliga a una planificación con
procedimientos propios, que no es posible desarrollar en esta introduc-
ción, sin embargo se hace a continuación referencia a dos aspectos consi-
derados relevantes:
a) Métodos de estimación: Sólo un amplio conocimiento de la Teoría de
Probabilidades y Teoría del Muestreo permite profundizar en qué consis-
ten, sin embargo se puede decir que son los métodos que proporcionan
los mejores estimadores de los parámetros poblacionales. Una de las me-
didas que proporciona la magnitud del error del muestreo, es el error
estándar del estimador que a su vez permite dar una medida de la
confianza de las estimaciones.

10
I. Introducción

b) Métodos de selección: Se refiere al procedimiento que se utiliza para


la selección de aquel sub-conjunto de elementos obtenidos de una pobla-
ción. La selección de la muestra debe realizarse de manera tal que ésta
resulte representativa de toda la población. Previo a la elección del méto-
do de muestreo a utilizar, se debe tener una idea sobre el material del que
se dispone; es decir, debe conocerse la infraestructura del contexto temá-
tico a través de alguna característica asociada o segmentación conocida,
para poder así definir estadísticamente el tipo de población que se va a
estudiar, y hacer posible la identificación de cada una de las unidades de
muestreo.
Esta información puede ser obtenida de mapas, como también por
listas de industrias ó de comercios con sus respectivas direcciones. La dis-
ponibilidad, calidad y naturaleza de esta información determina el método
de selección de la muestra, como así también su costo y la fiabilidad de
las estimaciones obtenidas.
Un concepto que requiere comprensión precisa, es qué se entiende
por Unidad de Muestreo, ésta es la unidad o parte elemental en que se
divide el universo. El conjunto de todas las unidades de muestreo debe
constituye el total del universo.
La Unidad Estadística objeto de estudio no necesariamente coincide
con la Unidad de Muestreo, por lo tanto se presentan dos situaciones:
A veces las Unidades Estadísticas o de Muestreo son los ele-
mentos individuales que en forma conjunta constituyen la población sobre
la cual se requiere el relevamiento. En otros casos la Unidad de Mues-
treo es un conjunto de Unidades Estadísticas, agrupamiento que se
realiza con el objeto de facilitar la obtención del dato.
Por ejemplo, si se realiza un estudio en una determinada localidad
urbana sobre características laborales de hombres mayores de cuarenta
años, para poder seleccionar la unidad estadística (el hombre) previamen-
te se define y selecciona la vivienda, siendo ésta la unidad de muestreo.
Si en el mismo contexto anterior se estudian características referidas a la
vivienda, ésta es la unidad de muestreo y a su vez unidad estadística.
Respecto al método de selección de la muestra si se considera o no
las leyes del azar, los tipos de muestreo son dos, los métodos de selección
probabilística y no probabilística.

2.1. Métodos de Muestreo Probabilísticos


Son los que se caracterizan porque cada elemento de la población
tiene una probabilidad conocida y no nula de ser seleccionada. Estas
muestras son obtenidas mediante experimentos aleatorios respaldados en
la Teoría de Probabilidades, la selección se hace a través de un proceso de
aleatorización y el valor de la probabilidad se determina de acuerdo a la
naturaleza del diseño muestral. En consecuencia son las únicas que per-
miten obtener una medida de la precisión de la estimación.

11
I. Introducción

Se presentan algunos de los métodos de muestreo probabilistico


de uso más frecuente:
Muestreo Aleatorio Simple
El M.A.S consiste en extraer elementos de una población asignán-
dole a cada elemento que la compone la misma probabilidad de ser selec-
cionado. En el caso de poblaciones finitas, la probabilidad de selección de
cada elemento diferirá si la extracción es con o sin reposición.
Es el método más sencillo y con frecuencia es aplicado en forma
combinada con otros muestreos probabilísticos.
Su mayor inconveniente radica en la identificación y enumeración
de los elementos de la población. La selección aleatoria simple de una po-
blación se efectúa en forma tal que cada muestra posible de un tamaño
dado tiene la misma probabilidad de selección.
Muestreo Estratificado
Si al momento de confeccionar la lista de unidades que integrarán
la muestra se cuenta con información adicional sobre alguna variable rela-
cionada con el objeto de estudio, se puede usar esta información para re-
ducir el error de muestreo.
Con esta información adicional es posible construir estratos que
consisten en la agrupación de elementos cuando se conocen variables que
los clasifican en conjuntos homogéneos. Este agrupamiento de elementos
homogéneos es importante, ya que de esta forma se reduce la variabili-
dad.
Los elementos que componen el estrato tienen características simi-
lares respecto a la variable clasificatoria y presentan comportamiento dife-
rente entre los estratos.
Una vez definidos los estratos el método de selección de las u.e
generalmente se realiza utilizando el M.A.S. y la cantidad de u.e seleccio-
nadas es proporcional al tamaño del estrato (afijación proporcional). En
otros casos la afijación puede ser uniforme cuando se seleccionan igual
cantidad de u.e por estrato, o afijación óptima en este caso interviene la
variabilidad, desviación típica de los individuos, dentro de cada estrato.
En el caso de trabajar con una afijación proporcional, simbolizando
con N el tamaño de la población, n el tamaño de la muestra, teniendo de-
terminados k estratos de tamaños: N1, N2, ..., Nk , para determinar el nú-
mero de elementos que componen la muestra representativa de cada es-
trato, simbólicamente: n1, n2, ..,nk, se procede al cálculo de las k propor-
N
ciones: i ∀i = 1...k , resultado que se aplicará al tamaño total de la
N
muestra.

Por ejemplo, si se está interesado en conocer el grado de acepta-


ción que la implantación de una reforma educativa en el Nivel Medio, ha

12
I. Introducción

tenido entre los alumnos de una determinada provincia. Una forma de lle-
var adelante el estudio es realizar una encuesta por muestreo, seleccio-
nando una muestra de 600 (n). Se conoce de información brindada por el
Ministerio de Educación que de la población de 10.000 (N) alumnos esco-
larizados en las edades que interesa; 6000 acuden a colegios públicos,
3000 a colegios privados laicos y 1000 a colegios privados no laicos.
Como se presupone la existencia de variabilidad en las opiniones
según provengan de distintos colegios es que se realiza un muestreo es-
tratificado empleando como variable de estratificación el tipo de colegio.
En este caso se identifican tres sub- poblaciones que constituyen los es-
tratos: N1 = 6.000 alumnos, N2 = 3.000 alumnos N3 = 1.000 alumnos.
Luego se calcula qué proporción representa el tamaño de cada uno
de los estratos respecto de la población total, con el objeto de replicarla
en la muestra, resultando:
Colegio públicos: 6000/10000=0.60
Colegios privados laicos: 3000/10000=0.30
Colegios privados no laicos: 1000/10000=0.10
Para conocer el tamaño de la muestra correspondiente a cada es-
trato se debe multiplicar esa proporción por el tamaño muestral, obte-
niendo en este caso:
Colegios públicos: 0.60x600=360 alumnos
Colegios privados laicos: 0.30x600=180 alumnos
Colegios privados no laicos: 0.10x600= 60 alumnos
Los resultados finales se presentan en la siguiente tabla:
Estrato Ni ni
1 6000 360
2 3000 180
3 1000 60
Total 10000 600
Muestreo Sistemático
El muestreo sistemático consiste en la selección ordenada y perió-
dica de individuos, se escoge el primer individuo al azar, denominado se-
milla, y éste determina taxativamente el conjunto de individuos que con-
forman la muestra. Este método es utilizado si la población de unidades
está presentada en una secuencia determinada.
El procedimiento a aplicar, en símbolos, se describe a continuación.
Fijado el tamaño de la muestra se calcula el período de selección K,
se realiza el cociente entre el tamaño de la población y el de la muestra:
K = N/n , luego se elige aleatoriamente un número entre 1 y K , el cual
indica el orden del primer elemento seleccionado, los restantes (n-1) ele-
mentos se seleccionan sistemáticamente a partir de éste utilizando el pe-
ríodo K, de la siguiente forma: simbolizando con r al orden del primer
elemento seleccionado, el orden del segundo será r+K , el del tercero será
r+2K y así sucesivamente.

13
I. Introducción

Por ejemplo, partiendo de u.e ordenadas consecutivamente si se


desea elegir 40 (n) elementos de un grupo de 600 (N), se comienza por
calcular el cociente 600/40; de tal forma que resultan 40 grupos de 15
elementos cada uno. Se elige un elemento de partida entre los 15 prime-
ros, y suponiendo que sea el sexto, las restantes u.e serán las que co-
rresponden al orden: 15+6, 2x15+6,......,39x15+6.
Otro campo importante de aplicación del muestreo sistemático, es
en el Control de Calidad, que trata del muestreo de aceptación mediante
inspección de lotes. Este consiste en tomar una muestra de cada lote para
juzgar si concuerda con la calidad deseada para todo el universo. Para
ello, se hace uso frecuente del muestreo secuencial, en donde el tamaño
de la muestra depende de los resultados de selecciones sucesivas.
En general este procedimiento sistemático simplifica enormemente
la elección de elementos, pero puede dar por tierra con la representativi-
dad de la muestra, esto ocurre cuando los elementos están ordenados con
algún criterio concreto y los k-ésimos de cada grupo tienen una determi-
nada característica que suele identificarse como "periodicidad oculta".En
consecuencia resulta una muestra no representativa.
Por ejemplo si se selecciona una muestra sobre una lista ordenada
en grupos consecutivos de cinco hombres y cinco mujeres si se emplea un
muestreo aleatorio sistemático con k=10 siempre se seleccionará sólo
hombres o sólo mujeres, no podría haber una representación de ambos
sexos.
Muestreo por Conglomerados
En el muestreo por conglomerados la unidad muestral es un grupo
de elementos de la población que forman una unidad, a la que llamamos
conglomerado. Este procedimiento consiste en seleccionar aleatoriamente
un cierto número de conglomerados (el necesario para alcanzar el tamaño
muestral establecido) y en investigar después todos los elementos perte-
necientes a los conglomerados elegidos.
Cuando la selección individual de unidades estadística es demasia-
do costosa, se facilitan las tareas de recopilación de datos, si se seleccio-
nan conglomerados, es decir, se escogen unidades que contienen varios
elementos. Por ejemplo: las unidades hospitalarias, los departamentos
universitarios, las cajas que contienen una determinada cantidad de pro-
ductos, etcétera. Cuando los conglomerados son áreas geográficas suele
hablarse de "muestreo por áreas".
El muestreo de conglomerados difiere del muestreo aleatorio sim-
ple fundamentalmente porque en éste la unidad de muestreo (cada con-
glomerado) es un agrupamiento de u.e.
El experto debe investigar el marco y, si es necesario, diseñar pro-
cedimientos para evitar la confusión en dicha identificación. Lo que consti-
tuye un conglomerado aceptable es asunto que depende de las condicio-
nes prácticas, que a su vez dependen de la situación de la encuesta y de

14
I. Introducción

los recursos disponibles. Los elementos individuales se determinan por los


objetivos de la encuesta, el experto en muestreo debe decidir si puede uti-
lizarlos como unidades únicas de muestreo, o si debe delimitar conglome-
rados de u.e, equiparándolos a unidades de muestreo.
En algunos estudios, se considera la vivienda como un conglome-
rado de personas; pero en otros estudios, pueden utilizarse como conglo-
merados a ciudades enteras.
El número de elementos de un conglomerado se llama tamaño del
conglomerado. Los conglomerados son, en la mayoría de las poblaciones
de tamaño desigual; por ejemplo, las viviendas por manzanas, pasajeros
en un vuelo, los empleados en secciones, etc. Los conglomerados de igual
tamaño se presentan raras veces en diseño de muestreo.
En el muestreo por conglomerados se trabaja con grupos de ele-
mentos (unidades de muestreo) que son heterogéneos respecto de una
variable específica definida en el estudio, pero entre los conglomerados la
variable se comporta en forma homogénea. Característica que lo diferen-
cia del muestreo estratificado.
Para su aplicación se requiere que exista heterogeneidad dentro de
los conglomerados y homogeneidad entre ellos. Es un método que se usa
frecuentemente para reducir los costos del muestreo, y conviene utilizarlo
cuando la cantidad de conglomerados es numerosa y el tamaño de cada
conglomerado es pequeño, aunque no necesariamente el mismo. Su ven-
taja frente al muestreo aleatorio simple es que no necesita de un listado
de todos los individuos, es suficiente con disponer de un listado de los
conglomerados. Así se puede mencionar como ejemplos los siguientes ca-
sos:
Avión, tren (o vagón), ómnibus, son conglomerados de pasajeros.
Escuela (o curso), es un conglomerado de alumnos.
Clínica, Hospital, son conglomerados de enfermos.
Empresa (o sus secciones), son conglomerados de empleados.

2.2. Métodos de Muestreo No Probabilísticos


Si la forma de selección de las u.e que componen la muestra se
realiza de forma dirigida, este tipo de muestreo se denomina muestreo no
probabilístico. En este tipo de muestreo la probabilidad de que un elemen-
to determinado de la población sea escogido, es desconocida, indepen-
dientemente de que existan o no otras especificaciones. El uso de mues-
tras no probabilísticas no es recomendable cuando se requiera contar con
una medida del error de muestreo ya que no puede evaluarse a través de
la Teoría de Probabilidad. Los errores podrían fijarse por propio discerni-
miento, pero es imposible aplicar métodos de Estadística Inferencial.
Entre los métodos de muestreo no probabilístico más utilizados, se
pueden mencionar:

15
I. Introducción

Muestras Casuales o Fortuitas


Los elementos de estas muestras son elegidos simplemente porque
son accesibles, pueden ser sujetos voluntarios o personas que saben ex-
presarse sobre la temática.
Se trata de un proceso en el que el investigador selecciona directa
e intencionalmente los individuos de la población. El caso más frecuente
de este procedimiento es el utilizar como muestra al conjunto de indivi-
duos de fácil acceso.
Por ejemplo: la “entrevista al hombre de la calle” y los elementos
que les llega a la mano para sacar conclusiones en medicina, arqueología
e historia son ejemplos ilustrativos de este tipo de selección. En general la
astronomía, la física experimental y la química, ciencias que trabajan con
datos difíciles de obtener, disponen como única herramienta para la selec-
ción de las unidades estadísticas las que provienen de este tipo de mues-
treo.
Selección Experta o Muestreo a Juicio
La selección experta es una forma de muestreo no aleatorio o
muestreo a juicio utilizada por los expertos para seleccionar especimenes,
unidades, o proporciones representativas o típicas. Este tipo de muestreo
se caracteriza por un esfuerzo deliberado de obtener muestras "represen-
tativas" mediante la inclusión en la muestra de grupos supuestamente tí-
picos y representativos de por sí.
Muestreo por Cuotas
El muestreo por cuotas es una forma de muestreo no aleatorio am-
pliamente utilizado en encuestas de opinión, de mercado y otras semejan-
tes. Su aplicación se basa en un buen conocimiento de los estratos de la
población o de los individuos. Los encuestadores reciben la instrucción de
obtener cuotas específicas a partir de las cuales se construye una muestra
relativamente proporcional a la población, con respecto a variables demo-
gráficas, por ejemplo, obteniendo así una muestra representativa. La na-
turaleza de los controles y de las instrucciones depende del juicio experto
de la persona que practica este tipo de muestreo.
Mantiene semejanzas con el muestreo aleatorio estratificado, pero
no tiene el carácter de aleatoriedad de aquél.
En este tipo de muestreo se fijan "cuotas" que consisten en un nú-
mero de individuos que reúnen determinadas condiciones, de tal forma
que la suma de las cuotas totalice el tamaño de muestra deseado. Por
ejemplo: para un estudio socio-económico se requiere una muestra de 30
u.e (n). Para ello se seleccionan 20 individuos de 25 a 40 años, de sexo
femenino y residentes en Neuquén, 10 individuos de 40 a 50 años de sexo
femenino y residentes en Neuquén. Una vez determinada la cuota, en el
proceso de selección se eligen los que cumplan estas características hasta
completar la cuota establecida.

16
I. Introducción

Muestreo de Poblaciones Móviles:


El muestreo de poblaciones móviles suele depender de métodos de
captura-marca-recaptura. La población total se estima de la proporción de
los individuos en la recaptura (insectos, peces, venados), que han sido
capturados previamente y marcados. Hay modelos teóricos ingeniosos que
se utilizan para expresar en forma explícita las suposiciones del método.

2.3. Métodos Particulares de Selección


Muestreo Bietápico
El muestreo en dos etapas o submuestreo consiste en dividir a la
población que se quiere estudiar en un cierto número de estratos, con-
glomerados o simplemente grupos, llamados en este caso unidades prima-
rias, las cuales contienen a su vez, un determinado número de elementos
llamados unidades secundarias.
En un primer momento se elige un conjunto de unidades denomi-
nadas unidades primarias, luego de cada una de ellas se selecciona una
muestra de unidades secundarias. De esta manera, la selección de la
muestra final comprende dos operaciones:
a) Selección de unidades primarias.
b) Selección de unidades secundarias en cada una de las anterio-
res.
Estos planes de muestreo en dos etapas es un procedimiento que
reduce costos y aumenta precisión.
El muestreo bietápico permite trabajar en forma combinada con
muestreos aleatorios o no.
Los planes de muestreo en dos etapas se usan generalmente para
reducir los costos y conviene utilizarlo cuando los conglomerados son nu-
merosos.
Por ejemplo si la unidad primaria es el tren, cada vagón es la uni-
dad secundaria y esta contiene a las unidades estadísticas que son los pa-
sajeros. De la misma forma se presenta a la escuela como unidad prima-
ria, los cursos como unidades secundarias y los alumnos como unidades
estadísticas objeto de estudio.
Muestreo Polietápico
El muestreo polietápico consiste en la selección de las unidades es-
tadísticas, a través de un procedimiento que se realiza en más de dos eta-
pas.
El método de selección de la muestra final, comienza con la selec-
ción de una muestra de “grupos de individuos” llamados “unidades prima-
rias” y de cada uno de éstos se selecciona una muestra de subgrupos más
pequeños de individuos llamados “unidades secundarias”, de las cuales se
selecciona una muestra aleatoria de individuos que son las “unidades es-
tadísticas” este procedimiento consiste en una selección en tres etapas.

17
I. Introducción

Así, en un caso particular si se desea conocer las preferencias en


las distintas familias de una determinada localidad en el uso del sistema
de cable, el procedimiento para llegar al entrevistado es en varias etapas
según se detalla: la unidad de muestreo primaria es el barrio, la secunda-
ria es la manzana, la terciaria es la vivienda en la cual se entrevista al
adulto en condiciones de contestar.
Muestreo de Áreas
El muestreo por áreas es un procedimiento práctico de listado que
proporciona buenos marcos para seleccionar viviendas. Las viviendas sir-
ven de unidades muestrales de personas, familias o de otras poblaciones
que también se asocien con las viviendas, como son los perros, las hela-
deras o jardines. El muestreo por áreas también se emplea para seleccio-
nar muchas clases de muestras además de las de viviendas: tiendas,
granjas, cosechas, flora y también la fauna, aunque por su movilidad
agrega nuevas complicaciones. Este muestreo constituye un marco conve-
niente y efectivo para las viviendas y las personas, esto se debe a varias
razones:
a) El empleo de cartografía permite identificar claramente a toda la
población de viviendas (elementos) con una lista definida de manzanas y
segmentos (conglomerados).
b) Esta identificación posee permanencia, durante el periodo de en-
cuesta a partir del momento del listado.
c) El trabajador de campo puede identificar con rapidez y precisión las
fronteras de manzanas y segmentos, y a las viviendas dentro de ellos.
d) La vivienda sirve de medio conveniente para el muestreo de perso-
nas, puesto que se identifica con facilidad, es relativamente estable, suele
contener pocas personas, y se puede identificar de manera única a toda
persona con una sola vivienda.
En consecuencia, la vivienda sirve de unidad de muestreo unívo-
camente identificada para un conglomerado pequeño de personas, y de
otras poblaciones que puedan asociarse fácilmente con las viviendas.
Las características deseables del modelo están sometidas a imper-
fecciones que pueden conducir a sesgos de selección. Hace falta tener co-
nocimiento, experiencia y habilidad para reducir las imperfecciones y lle-
varlas a proporciones manipulables.

3. Consideraciones Finales
Las propiedades deseadas e idealizadas de las muestras probabilís-
ticas solamente pueden realizarse en forma aproximada, puesto que se in-
troducen muchas imperfecciones en la ejecución de muestras en la practi-
ca. En el momento de realizar inferencias de valores de la muestra a valo-
res de la población intervienen suposiciones acerca de los posibles efectos
de estas imperfecciones; pero a menudo podemos investigar, reducir con
éxito y poner algunos límites a los efectos posibles o probables de las im-

18
I. Introducción

perfecciones. Por tanto, es útil y se justifica utilizar los muestreos probabi-


lísticos ya que poseen ventajas con respecto a los no probabilísticos.
Sin embargo, si bien la mayor limitante de los muestreos no pro-
babilísticos es no permitir realizar inferencias, es adecuada su implemen-
tación en casos como por ejemplo: sondeos de opinión, estudios explora-
torios, etc., resultando eficientes a los fines descriptivos propuestos. Para
determinar el uso de alguno de los procedimientos anteriormente expues-
tos el investigador debe buscar las mejores soluciones prácticas dentro de
los recursos que estén a su alcance buscando siempre aquel que minimice
el error y maximice la precisión de los resultados.
Un buen Diseño de Muestra, permite que ésta cumpla su objetivo:
seleccionar determinada unidades estadística, efectuar mediciones u ob-
servaciones a los elementos que la componen, obteniendo así datos es-
tadísticos, para luego analizar, describiendo ciertas características de es-
tos elementos particulares, etapa ésta que corresponde a la Estadística
Descriptiva o Metodológica. Complementariamente es deseable, que la
Muestra sea obtenida de forma tal que los resultados conseguidos puedan
ser generalizados al Universo que le dio origen, esto se realiza mediante
un proceso lógico de inducción que corresponde a los Métodos de Infe-
rencia Estadística. Para ello, los elementos de la Muestra deben gozar
de las mismas propiedades que los elementos de la población, presentar
la misma composición o estructura de la población que le dio origen y la
selección deberá ser aleatoria.

19
II. Etapas Operativas

ETAPAS OPERATIVAS DE LA INVESTIGACIÓN


ESTADÍSTICA

La Estadística se encuentra íntimamente relacionada al Método


Científico, son muchos los procesos de Investigación en ciencias naturales
o sociales que generan o requieren datos de diversa índole y necesitan
utilizar los métodos y procedimientos que proporciona la Teoría Estadística
para garantizar que el proceso resulte tan eficiente como sea posible.
En este orden de ideas se plantean algunas consideraciones acerca
del Método Científico, para luego poder hacer explícitas las etapas opera-
tivas consideradas más relevantes en el proceso de investigación que utili-
zan metodología estadística.
Es importante delimitar los alcances del tema a los fines de esta-
blecer los conceptos estadísticos que interesa desarrollar en este capítulo.
Para ello se reconoce que no existe un único método científico, en el pa-
sado se planteaban problemas cuyas características lógicas eran menos
complejas que las actuales. En particular éste es el caso de las investiga-
ciones sociales, tanto para estudios que proponen explicar modificaciones
cualitativas como aquellos que analizan cambios cuantitativos. Además el
tipo de método no sólo depende de las cuestiones que se planteen, sino
también del perfil del investigador. Vale decir, que un mismo problema
puede ser abordado de diferentes modos por dos o más investigadores o
por un mismo investigador.
Aún pensando en la existencia de distintas metodologías según las
diversas situaciones, se indica que a nivel operativo, existen aspectos ge-
nerales que son comunes a todas las Ciencias:
I. Revisión de hechos, teorías y proposiciones.
II. Formulación de hipótesis.
III. Puesta a prueba de tales hipótesis, generalmente sobre la base de
resultados experimentales.
Es en esta última etapa donde interviene la Estadística como
herramienta fundamental, sustentando metodológicamente las siguientes
acciones
a) Programación de experimentos o investigaciones.
b) Obtención de conclusiones objetivas o generalizaciones a partir
de estos experimentos o investigaciones, cuantificando o controlando la
incertidumbre.
Resulta de interés para detallar los procedimientos y métodos
propios de la Estadística enunciar un conjunto de Etapas que se deben
cumplir en forma ordenada y precisa. Sin pretensiones de exhaustividad
se enumeran esas etapas, exponiendo algunas cuestiones que se deberán
tener en cuenta en su desarrollo.

20
II. Etapas Operativas

1. Formulación del Problema


Para poder llevar adelante una Investigación Estadística, inicial-
mente, se requiere disponer de un conocimiento acabado del problema-
objeto de la investigación o de los objetivos propuestos. Una vez que se
conoce el objetivo de la investigación, se debe formular el problema en la
forma más precisa y completa posible, para poder determinar cuáles serán
los datos más relevantes y necesarios para la puesta en marcha de la in-
vestigación. En algunos casos se deberá operacionalizar conceptos del
marco teórico correspondiente, o recurrir a una exhaustiva búsqueda de
antecedentes evaluando el estado del arte. Si es posible se debe identifi-
car los factores que influyen o confluyen en el problema, cuáles de ellos
son causas y cuáles son consecuencia, si varían o permanecen constantes
y fundamentalmente descartar los que son casuales o espurios.
Aunque el objetivo esté enunciado puede ser útil hacerse preguntas
sencillas como: ¿qué quiero saber?, ¿porqué quiero saberlo?, ¿si se avan-
za en el conocimiento sobre el problema se notará alguna diferencia en
cuánto a la teoría o la practica dentro del área de Investigación?, ¿existe
la posibilidad de encontrar nuevo conocimiento que permita avanzar en la
solución del problema?,¿es posible recoger datos y tratarlos de modo que
aporten al conocimiento esperado?. Es de relevancia en el proceso de in-
vestigación definir y delimitar el problema en forma precisa ya que si el
problema se enuncia con esas características este orientará en forma clara
la investigación
En la búsqueda de estas repuestas el investigador se puede encon-
trar con la situación que el problema planteado ya ha sido estudiado y re-
suelto, en estas situaciones la investigación puede ser replanteada con el
objeto de corregir, aclarar o extender conclusiones.
Otra cuestión de interés a tener en cuenta en los inicios de una in-
vestigación Estadística es evaluar la capacidad del investigador preguntar
si el investigador está preparado para enfrentar el problema con recursos
teóricos, técnicos y financieros o requiere de la consulta a asesores de
otras disciplinas.
Todos estos planteos se deben hacer a priori, no atender este aná-
lisis previo podría conducir a realizar acciones totalmente innecesarias que
no hacen a la investigación o se omitan o dejen de lado otras relevantes,
de importancia básica.
Concretamente, como en cualquier proceso, además de evaluar y
controlar el aspecto operativo, es necesario saber con qué materia pri-
ma se trabajará ya sea para la consecución del objetivo establecido como
así también para realizar un diagnóstico o una generalización entre otras
tareas. Esto equivale, en el tema que nos ocupa, a definir qué informa-
ción se debe obtener, cómo se especifican y eventualmente se elaboran
los conceptos, sin olvidar que la calidad de los análisis y conclusiones es-
tadísticas dependerán básicamente de esta información que a su vez,

21
II. Etapas Operativas

quedará vinculada a la precisión empleada al momento de la formulación


del objetivo en la investigación científica, o a la clara concepción del pro-
blema a estudiar y sus factores subyacentes.

2. Diseño del Experimento- Encuestas por Muestreo


Propuesto el problema con precisión, corresponde desarrollar esta
segunda etapa que hace a la decisión sobre los aspectos de la investiga-
ción que se refieren a la ejecución del experimento, que da origen a la
producción de datos y conlleva un diseño de campo o, en su defecto la
ubicación de la fuente de información.
Sin un plan coherente y racional de trabajo, sin una estrategia ge-
neral orientada a la correcta selección de las técnicas de recolección y
análisis de datos, es difícil pensar que se está trabajando científicamente.
Al cumplimentar la primera etapa se definió “el qué”, y ahora se
debe definir “el cómo”.
En primer lugar, se tendrá que tomar la decisión si se va a estu-
diar toda la población, en cuyo caso se deberá hacer una enumeración
completa, o bien, si se va a estudiar una parte representativa de la mis-
ma, para lo cual se usará una muestra.
Cuando se realiza recopilación de información sobre todos los ele-
mentos de la población este operativo se denomina Censo. Ejemplos pa-
ra nuestro país son: Censo de Población, Hogares y Viviendas, Censo Eco-
nómico, Censo Agropecuario, Censo Escolar Provincial o Nacional, etc., es-
tos operativos ,por lo general, son llevados a cabo por Organismos Públi-
cos habilitados a tal fin, tales como el INDEC o Direcciones de Estadística
Provinciales.
En el caso de un Censo, al ser un operativo de relevamiento para
toda la población, se puede sucintamente decir que éste proporciona una
información completa y confiable para un momento determinado del tiem-
po, en el que se tiene como objetivo recabar información macro sobre te-
mas diversos que brindan un marco de referencia completo y general. Los
datos censales suelen ser el marco de referencia para la planificación de
otros estudios referidos a cuestiones específicas. Algunos censos se reali-
zan en intervalos de tiempo específicos, incluso se ejecutan simultánea-
mente a nivel mundial, con contenidos conceptuales acordados en reunio-
nes internacionales.
No se puede dejar de mencionar que un censo resulta oneroso,
pues se necesita de gran cantidad de recursos humanos y materiales. En
su organización y ejecución intervienen etapas similares y rutinarias, ope-
rativamente más complejas que las involucradas en los estudios por
muestreo.
Los estudios e investigaciones utilizando Muestras son los de ma-
yor uso en la práctica. Este procedimiento conduce a resultados que pre-
sentan cierto grado de incertidumbre, pero se recuerda que el uso de mé-

22
II. Etapas Operativas

todos estadísticos permite evaluar el grado de error y confiabilidad de los


resultados obtenidos. El uso de muestras es a veces una opción para lle-
var adelante el diseño de la investigación, sin embargo en otras oportuni-
dades resulta imperativo su aplicación.
En el caso de tener que decidir por uno u otro se debe considerar
que el procedimiento muestral es menos costoso que el censal y se puede
incluir mayor cantidad de factores considerados importantes en el tema
objeto de estudio. Esto permite responder ampliamente a los objetivos
específicos establecidos por quien requiere de métodos estadísticos en su
análisis de información. Sin embargo se debe tener en claro que la mues-
tra proporciona información que permite sólo estimar a las características
poblacionales cuyo valor exacto lo proporciona un Censo, siempre que se
logre un 100% de cobertura y una optima ejecución.
En general se puede decir que en el diseño de investigaciones, uti-
lizando muestras, el problema suele consistir en equilibrar los factores
ajenos a las características en estudio y así obtener muestras representa-
tivas de toda la población.
Pocas veces el interés se limita a sacar conclusiones sólo para el
conjunto de observaciones correspondientes a la muestra obtenida, reali-
zando en ese caso un estudio exploratorio o descriptivo, sino lo que se
busca, en la mayoría de las investigaciones, es hacer inferencia a la po-
blación de origen. Para ello es fundamental que se trabaje con una
muestra representativa y aleatoria.
Además de las características anteriormente mencionadas la mues-
tra debe cumplir con los principios de la Teoría Estadística. En este sentido
se deberá responder a las siguientes preguntas:
o ¿Qué tipo de datos se van a recopilar?
o ¿Cuáles son las características de interés para la investigación?
o ¿Cómo se obtendrá la información?
o ¿Qué error se admite en las estimaciones?
o ¿Con qué grado de confianza?
o ¿De qué tamaño debe ser la muestra?
o ¿Qué método de selección de muestra se va a aplicar?
Estas son algunas de las cuestiones que se resuelven con un buen
Diseño de Muestras o Diseño de Experimentos. El riesgo que se corre
de no cumplimentar correctamente esta etapa, es que se llegue a conclu-
siones espurias que no brinden avances en la investigación encarada.
Un buen Diseño de Experimento equilibra cuatro propósitos en re-
lación a la investigación:
- Mantener los objetivos establecidos en el estudio o investigación en
cuestión.
- Buscar la escala de medición u operacionalización de los conceptos
requeridos.
- Lograr practicidad en el operativo.

23
II. Etapas Operativas

- Garantizar la eficiencia del procedimiento aplicado.


En particular para el Diseño de Muestras, no se pueden obviar
tres actividades:
 Proceso de Selección: Consistente en utilizar los métodos ade-
cuados y procedimientos correspondientes para decidir cuales son los
elementos de la población que constituirá la muestra. La elección del mé-
todo de muestreo se decide en función del conocimiento que se tenga de
las variables endógenas y exógenas relacionadas con el objeto de investi-
gación.
 Proceso de Estimación: Consistente en la búsqueda de los esti-
madores, cálculo de los estadísticos de las muestras que son las estima-
ciones muestrales de las características poblacionales.
 Especificación de la precisión y confianza deseada: Consiste
en fijar la magnitud el error admitido y grado de confianza exigido según
el problema en cuestión, esto permite realizar las predicciones e inferen-
cias de la muestra a la población ajustados a los principios del método es-
tadístico.
La Teoría del Muestreo permite diseñar y obtener muestras váli-
das, óptimas, evitando sesgos de selección para lograr una eficiencia ra-
zonable. Proporciona los fundamentos teóricos, los procedimientos, los
métodos para la inferencia, así como las fórmulas de trabajo necesarias,
según sea el método de selección aplicado. Permite también evaluar los
resultados de los muestreos realizados, juzgar su validez, su uso para las
inferencias, medir su precisión, entre otras cuestiones.
Los conceptos y el manejo de los procedimientos de muestreo de
poblaciones estadísticas son aplicables tanto para realizar encuestas como
para la selección, en general, de elementos representativos para el avance
en el conocimiento científico.
En las ciencias físicas y biológicas se realizan estudios o investiga-
ciones que se basan en elementos seleccionados de una manera casual,
en las ciencias sociales se verifican o elaboran hipótesis seleccionando in-
dividuos representativos de su género. Los investigadores suponen que se
han seleccionado elementos típicos, representativos del conjunto. Esperan
que las características importantes se distribuyan uniforme o aleatoria-
mente en la población. Estos son ejemplos simples de muestreo, que se
basan en suposiciones muy amplias acerca de la distribución de las varia-
bles de interés. Cada situación requiere de una evaluación particular des-
de la Teoría del Muestreo.
Si el objeto que se estudia corresponde a un campo desconocido o
poco analizado, para diseñar eficientemente una Muestra, es conveniente
realizar previamente un estudio piloto, con el cual obtener información
útil al diseño definitivo.
El tamaño de la muestra juega un rol determinante en el proceso
de muestreo e inferencias. Es así como una muestra será considerada de-

24
II. Etapas Operativas

masiado pequeña si sus resultados carecen de la precisión suficiente para


contribuir de manera apreciable a las decisiones.
El Marco como concepto general, hace referencia a listas físicas,
como también a aquellos procedimientos que pueden tener en cuenta a
todas las unidades de muestreo sin el esfuerzo físico de listarlas efectiva-
mente. Por ejemplo: en muestreo por áreas el marco consiste en planos
que proporcionan los límites dentro de los cuales se deberá seleccionar vi-
viendas o comercios. Los mapas son utilizados como marcos cuando se
desea seleccionar flora o fauna.
El Marco de muestreo, que consiste en la lista de unidades esta-
dísticas ya seleccionadas, es la base sobre la cual debe diseñarse el proce-
so de selección. La evaluación de los marcos disponibles u obtenibles debe
dominar la búsqueda de buenos procedimientos de selección y decisión
entre distintas alternativas. No se debe olvidar que marcos incompletos
conllevan una mala cobertura.
El Muestreo desempeña un papel importante en el Diseño de Inves-
tigaciones enfocadas a poblaciones humanas, para campos como la eco-
nomía, la sociología, la educación, la administración pública o privada, la
investigación de mercados, etc., siendo el procedimiento más utilizado en
estos casos la entrevista personal o Encuesta.
La investigación empírica puede hacerse según diferentes caminos:
por medio de observaciones casuales, de observaciones controladas, de
experimentos o de encuestas.
A continuación se presentan algunos de los aspectos a considerar
al momento de trabajar con las Encuestas por Muestreo, que tienen por
objetivo estimar características específicas de alguna población de interés.
En estos casos, los elementos de la población sobre los que se busca in-
formación son los individuos; éstos constituyen las unidades elementales
de análisis que se determinan atendiendo los objetivos de la investigación
y es la población acerca de la cual se realizarán las inferencias. Los ele-
mentos o unidades estadísticas que conforman y especifican a la población
se deben definir en términos de: a) el alcance, b) las unidades, c) la ex-
tensión y c) el momento. Por ejemplo, en el diseño de una encuesta sobre
las expectativas de consumidores se podría especificar: a) todas las per-
sonas; b) en unidades familiares; c) para todo un país, y d) para octubre
del 2005. A menudo debe redefinirse la población deseada para obtener
una población que sea factible de ser encuestada. Por ejemplo, lo anterior
podría redefinirse como: a) todas las personas mayores de 18 años de
edad que vivan en viviendas particulares, b) en unidades de gasto, c) para
determinada región de un país, d) al 3 de octubre del 2005.
Una encuesta puede dar información acerca de varias y diversas
poblaciones. La misma encuesta puede abarcar contenidos diferentes refe-
ridos a distintas unidades de muestreo. Por ejemplo, una encuesta de ac-
cidentes en el hogar puede proporcionar información acerca de accidentes

25
II. Etapas Operativas

aislados, personas lesionadas en accidentes, familias que han sufrido ac-


cidentes, y hogares con accidentes. Se pueden formar unidades de obser-
vación diferentes con los mismos datos. Una encuesta a hogares puede
describir a los individuos que lo componen, como así también a la vivienda
que ocupan. Los datos acerca de consumidores pueden presentarse en
términos de personas, unidades de gasto, familias o viviendas.
En el caso de realizar un muestreo polietápico se usa una jerarquía
de unidades de muestreo o conglomerados, de manera que el elemento
pertenezca únicamente a una unidad de muestreo en cada etapa. Por
ejemplo, una muestra de los habitantes de una Provincia puede confor-
marse seleccionando, en primer lugar, los municipios, luego las localida-
des, los segmentos, las viviendas y, finalmente, las personas. La pobla-
ción es también un agregado de las unidades de muestreo especificadas
para cada etapa. Las unidades de listado o listados se usan para identifi-
car y seleccionar unidades de muestreo a partir de listas. Los problemas
pueden ser serios si los elementos no se identifican unívocamente con los
listados. Por ejemplo, una muestra de familias tomada de listados de telé-
fonos puede involucrar serias dificultades.
Las extensiones o espacios diferentes aparecen generalmente en
forma de subclases para las que se preparan a menudo los resultados de
la encuesta. Las divisiones pueden ser geográficas, por ejemplo, datos re-
gionales, o pueden no serlo, como sucede en las subclases de edades u
ocupaciones
Al realizar las operaciones de medición u observación a través de
una Encuesta, las características de las unidades elementales se transfor-
man en variables de diversa naturaleza, teniendo en cuenta que asumen
distintos valores de acuerdo al individuo entrevistado. Esto permite aseve-
rar que al realizar Encuestas se está trabajando con una gran cantidad de
variables referidas a una misma unidad de observación. Se puede consi-
derar también las relaciones entre las variables, los cambios de modalida-
des que asumen las variables y la exactitud de sus mediciones.
En función de la robustez de los estadísticos que se calculen a tra-
vés de una encuesta, se debe señalar que todo cálculo que se realice
haciendo uso de resultados obtenidos a través de una encuesta por Mues-
treo es un dato o una información no ajena a cierto grado de incertidum-
bre, completando este concepto se debe recordar que todo resultado pro-
veniente de una Encuesta por muestreo, es una estimación de los verda-
deros valores poblacionales. En este sentido se puede citar el cálculo de
una tasa de desempleo, la que generalmente se realiza con los datos re-
copilados por medio de una Encuesta por muestreo de Hogares. Eviden-
temente la calidad de la información queda totalmente condicionada a la
calidad del diseño de la muestra y de la combinación particular de los ele-
mentos que resultaron seleccionados. Por tanto, la estimación que se hace
es solamente uno de los valores que pudo haberse obtenido con el mismo

26
II. Etapas Operativas

diseño de muestra, o sea que depende de las fluctuaciones de la selección


de los elementos que componen la muestra.
Las encuestas mal realizadas provocan escepticismo sobre sus re-
sultados, por eso se debe tomar conciencia de la importancia que éstas,
sean diseñadas de acuerdo a los procedimientos que proporciona la Esta-
dística. Sólo así se garantiza disponer del margen de error que es inheren-
te al uso de una muestra y evitar los errores ajenos al muestreo.
Frecuentemente se hacen inferencias acerca de características po-
blaciones utilizando muestras informales y arbitrarias que, estadística-
mente, resultan no válidas. Por ejemplo: un comprador juzga la calidad de
un producto seleccionando una unidad del conjunto disponible, cuando co-
rrespondería que acepte el envío después de inspeccionar varias unidades
seleccionadas aleatoriamente del total. Cuando se realizan encuestas de
opinión y se trabaja con encuestadores con insuficiente entrenamiento o
utilizando cuestionarios de confección deficiente los datos recopilados ca-
recerán de validez para la investigación.
En la etapa de Diseño del Experimento, haciendo referencia exclu-
sivamente a Encuestas por Muestreo, se recomienda tener en cuenta
algunos aspectos específicos, según se detallan a continuación:
Elaboración de un plan general: Se trata de detallar todas las
tareas necesarias para llevar a cabo la experiencia de recopilar los datos
estadísticos requeridos. Todas estas tareas deben ser planificadas y aco-
tadas en el tiempo, mediante la elaboración del cronograma correspon-
diente. En esta fase se debe reflexionar sobre aspectos generales, sobre
qué se desea saber, releer el objetivo perseguido, determinar el marco de
la población, determinar el lugar donde se realizará la entrevista y la for-
ma de llevarla a cabo, realizar la evaluación de costos, de recursos huma-
nos, logrando así especificar adecuadamente los requerimiento de bienes
y servicios necesarios para alcanzar con éxito los objetivos generales o
particulares.
Entre otras cuestiones, en esta instancia se deberá definir de que
forma se llevará adelante la encuesta; si se realizarán entrevistas perso-
nales, si se realizarán en forma telefónica o a través del correo electróni-
co, etc. En este punto de la elaboración del plan general se debe conside-
rar si corresponde, el aspecto legal.
Variables a considerar: Se debe definir, establecer las categorías
de clasificación, especificar unidades de medida, etc. de las variables invo-
lucradas en el estudio. Tomando los objetivos originales se deben opera-
cionalizar los conceptos, dando así la naturaleza de las características a
observar, sin dejar de considerar qué indicadores se desean construir,
cuáles son los modelos que se adecuan al problema en estudio y que vin-
culan matemáticamente a las variables. Es el momento de considerar sus-
tantivamente el marco teórico que presenta la tarea encarada.

27
II. Etapas Operativas

Formulación de preguntas y redacción del cuestionario: Ge-


neralmente la encuesta se realiza utilizando un formulario, llamado cues-
tionario, que sistematiza las preguntas y que permite registrar los datos
deseados. En primer lugar hay que considerar que no pueden incluirse to-
das las preguntas sobre las que se quisiera obtener respuestas corriendo
el riesgo de elaborar un instrumento ineficiente por su extensión. Una vez
seleccionados los ítems a incluir, estos se organizarán de manera acorde a
una secuencia lógica para la entrevista, lo cual puede llevar a reagrupar
los ítems por temas, dimensiones o factores que subyacen en el problema
planteado. Cumplimentado lo anterior, se formulan las preguntas de tal
forma que su redacción sea clara para que puedan ser contestadas con
rapidez y exactitud.
Luego en este tipo de experiencias, una tarea que adquiere espe-
cial relevancia es la del diseño del cuestionario. El cuestionario es el ins-
trumento de medición utilizado para la recopilación de datos empíricos,
referido las personas, indagando sobre actitudes, opiniones, capacidades,
preferencias entre otras características, así como lo será una balanza o un
instrumento de laboratorio cuando se realizan experimentos biológicos o
industriales.
No hay duda de que, en gran parte, el éxito de una investigación
de este tipo depende de la precisión del instrumento de medición utiliza-
do; luego, la elaboración del cuestionario debe hacerse con la máxima efi-
ciencia posible.
El cuestionario deberá ser diseñado y verificado, antes de ser
aplicado en campo. En el diseño, fundamentalmente se trata de llevar
los conceptos involucrados en los objetivos generales o particulares de la
encuesta a preguntas específicas vinculadas a éstos. Esta tarea que pare-
ce obvia, en muchas ocasiones requiere múltiples revisiones y tiempo de
trabajo para alcanzar la rigurosidad como instrumento de recopilación. A
veces es conveniente en algún tema recurrir a preguntas estándar, ya
elaboradas y probadas por otros, porque esto permite hacer que distintos
estudios sean comparables. En cuanto a la verificación, una vez elabora-
das todas las preguntas del cuestionario, es importante realizar una prue-
ba piloto, consistente en aplicar el cuestionario previamente a un grupo
reducido de miembros de la población objetivo.
Los factores a tener en cuenta en la preparación de un cuestionario
son numerosos, entre los cuales cabe mencionar:
- Las preguntas deben ser sencillas, claras, precisas, específicas y di-
rectas.
- No hacer preguntas que impliquen la respuesta. Estas preguntas
denominadas “preguntas intencionadas”, inducen o motivan al entrevista-
do a emitir una respuesta que no necesariamente es su verdadera opi-
nión.
- No fiarse de la memoria del entrevistado: las preguntas deben limi-

28
II. Etapas Operativas

tarse al pasado inmediato, ayudando al entrevistado a retroceder paso a


paso en el tiempo, para que recuerde con la mayor fidelidad posible la in-
formación que interesa.
- No hacer preguntas que obliguen al entrevistado a realizar cálcu-
los. Es necesario elaborar la pregunta para obtener respuestas más exac-
tas y con mayor facilidad.
- Evitar preguntas embarazosas, preguntas que impliquen juicio de
valor o elementos de emotividad.
- Evitar preguntas abiertas, en las que el entrevistado no se enfrenta
a categorías establecidas para su respuesta, porque da lugar a una diver-
sidad de respuestas difíciles en general de clasificar a posteriori. Sin em-
bargo en caso de estudios exploratorios y de diagnóstico estas pueden
ser la mejor opción.
- Usar preferentemente preguntas cerradas, dando opciones múlti-
ples. Habrá que elaborar un conjunto de posibles respuestas o categorías,
entre las que pueda elegir el entrevistado la que más concuerde con su
opinión. También puede ser que en primera instancia no se muestre o su-
gieran las opciones, sino que esto se haga ante la duda o poca precisión
del encuestado al responder. En la elaboración del cuestionario se debe
recordar el principio que es preferible una pregunta específica a una gene-
ral. Esta recomendación es especialmente útil cuando se trata de respues-
tas que no pueden expresarse con exactitud o presentan una gama dema-
siado amplia de posibilidades, en estos casos, las categorías que se pre-
senten serán exhaustivas y excluyentes, y se podrá utilizar como cierre la
categoría: “otros”. Otra ventaja importante frente a la pregunta abierta,
es que la cerrada puede ayudar a que el entrevistado recuerde respuestas
que podría olvidar en caso contrario. Como recomendación no se debe de-
jar de considerar que al brindar las alternativas de respuesta, ésta no sea
inducida.
- Incluir preguntas que puedan complementarse, de forma tal que el
“si” o el “no” de la primera pregunta excluya o requiera las siguientes. Es-
to proporciona agilidad a la entrevista y evita errores en la captación de
datos.
- Incluir preguntas control, para realizar luego un análisis de consis-
tencia a los cuestionarios cumplimentados.
- Ordenar las preguntas del cuestionario siguiendo la secuencia lógi-
ca del pensamiento. Si es necesario, por la variedad de temas incluidos,
puede resultar conveniente dividir el cuestionario, agrupando las pregun-
tas relacionadas con un mismo ítem. Es recomendable comenzar con
aquellas preguntas descriptivas que correspondan a un marco general y
continuar luego con las más específicas, cuidando en especial la ubicación
de aquéllas que podrían ser motivo de rechazo a la entrevista. De algún
modo la secuencia debe ser tal que se logre comprometer e interesar al
entrevistado por la problemática en cuestión.

29
II. Etapas Operativas

- No confeccionar cuestionarios extensos: es preferible tener poca in-


formación de buena calidad y no mucha de calidad poco satisfactoria.
- Tener cuidado con la mala redacción y ortografía. Las preguntas
adecuadas están asociadas a una buena redacción.
- Si resulta de utilidad en el cuestionario se pueden presentar tabu-
laciones o cuadros preelaborados para consignar datos múltiples.
Finalmente, corresponde a esta fase la elaboración del Plan Tabu-
latorio. Se puede decir que en su preparación se parte de las hipótesis
establecidas en la etapa de definición del problema a investigar. Se reali-
za un primer diseño de posibles tablas y cuadros de cruces múltiples. Uti-
lizando la información recogida en la prueba piloto del cuestionario, se
puede probar el cálculo de los indicadores propuestos.
En pocas palabras, la importancia fundamental del Diseño Ex-
perimental radica en que provee las pautas generales que dirigirán la
realización del experimento, que permiten eliminar y disminuir al menor
grado posible los errores tendenciales o accidentales. También posibilita la
utilización de diseños apropiados para analizar los resultados de modo tal
que no se vean mezclados los efectos de los factores en estudio con los de
aquellos factores que no interesan a la investigación.
Además, esta es una etapa decisiva porque es la que asegura que
la experiencia cumpla con la condición de aleatoriedad, que constituye la
clase de experimentos propios de la Estadística Inferencial.

3. Recopilación de Datos estadísticos


Consiste en recopilar o recoger aquellos datos, cuantitativos o cua-
litativos, que responden al problema de interés.
Como etapa del proceso Estadístico se pueden dar recomendacio-
nes y pautas a tener en cuenta, sin embargo, es muy importante lo que se
aprende por propia experiencia, por la adquisición del conocimiento prác-
tico y objetivo del procedimiento, que desarrolla la habilidad para recono-
cer el grado de confianza que merecen los datos a utilizar.
Existe una propensión a aceptar datos estadísticos sin dudar de su
exactitud, por ello la ejecución de esta etapa se debe asumir con la res-
ponsabilidad que merece. Algunas veces, el estudioso se servirá de datos
disponibles en el medio en que estudia o actúa. En otras ocasiones, la re-
copilación la efectuará de materiales publicados, ya sean periódicos, se-
manarios económicos, revistas especializadas, publicaciones de estadísti-
cas oficiales o privadas, etc. En estos casos, la recopilación no involucra
grandes costos ni insume gran cantidad de tiempo, pero por lo general se
encuentra que el problema no es tan simple y que se necesita una infor-
mación que no es fácil encontrar, que no está disponible, o peor aún, que
no existe.
De este modo se puede clasificar la forma de obtención de datos
según su origen:

30
II. Etapas Operativas

Fuente Directa: cuando los datos son recabados directamente por


el investigador que realiza el relevamiento estadístico. Obtener informa-
ción de primera mano es una de las tareas importantes con que tiene que
enfrentarse el Estadístico. Comúnmente, el investigador obtiene datos
empíricos a través de sus propios experimentos o experiencias. Los expe-
rimentos, en general, se refieren a tareas realizadas, por ejemplo, en un
laboratorio, mientras que las experiencias corresponden a la recopilación
empírica a través de encuestas por muestreo. El conocimiento del proce-
dimiento a seguir en estos casos, será útil para hacer un uso inteligente
de la información estadística disponible.
Fuente Indirecta: cuando los datos son obtenidos de trabajos
realizados por otros, ya sean estudios particulares o de organismos oficia-
les, estén publicados o no. Esta fuente podrá ser a su vez:
Fuente Primaria: cuando existe una sola fuente, vale decir, que los
datos provienen de un sólo recopilador o estudio anterior, que fue
el que originalmente los recogió.
Fuente Secundaria: cuando los datos han sufrido una reimpresión
realizada por un organismo ajeno al recopilador primigenio.
Las fuentes indirectas deben proporcionar dos elementos de gran
importancia:
-seguridad del dato: éste debe ser preciso y confiable, por ello
hay que conocer y asegurar que su obtención se hizo con una metodología
apropiada, usando los procedimientos correctos, que las definiciones de
conceptos y las tabulaciones son las adecuadas, entre otras cuestiones etc
-ser susceptibles de comparación: en el caso en que se utilice
más de una fuente, estas deberán usar las mismas definiciones, utilizar
igual métodos de cálculo, etc.
En este punto, es necesario aclarar que la fuente primaria es más
confiable que la secundaria; generalmente está exenta de errores propios
de la trascripción. Las fuentes primarias no omiten información explicitada
referente a términos, unidades, métodos utilizados, etc. Al ofrecer más
detalle, no omite categorías.

En cuanto a la recopilación, vista como proceso en el tiempo, esta


puede realizarse utilizando uno de los siguientes métodos de Releva-
miento Estadístico:
Relevamiento dinámico: Se refiere a los datos obtenidos en ope-
raciones que se realizan en forma continuada, ininterrumpidamente a tra-
vés del tiempo y de modo sistemático. Podrían ser registros permanentes
como el del Registro Civil, en el cual la información se proporciona a la
autoridad competente cuando ocurre el hecho, por ejemplo nacimientos,
defunciones, cambio de domicilio, etc.. Se trata también de relevamiento
dinámico, cuando se realiza el registro secuencial de un hecho, por mues-

31
II. Etapas Operativas

treo, en una línea de producción. La información también puede ser inter-


na, o sea, registros llevados por el mismo organismo que hace el estudio.
Relevamiento estático: Es el que se realiza en un momento de-
terminado, como es el caso de los Censos de Población, Hogares y Vivien-
das o las Encuestas por Muestreo, en las que el trabajo de campo se reali-
za con un equipo de encuestadores o censistas que trabajan en forma si-
multánea.
La etapa de recopilación de los datos, en la mayoría de los casos,
es costosa y rutinaria; generalmente demanda mucho tiempo, personal y
gastos importantes en bienes e insumos.
Retomando el caso de Encuestas por Muestreo; en la etapa de
recopilación para que la salida a campo sea ejecutada con eficiencia y pre-
cisión, hay que planificar las tareas pertinentes, las que a su vez, deberán
estar ajustadas a un cronograma. En esta planificación se llevarán adelan-
te tareas como: cartografía, croquis de recorridos, prueba piloto del cues-
tionario, preparación de encuestadores, supervisores, organización gene-
ral del operativo, entre otras cuestiones.
Respecto a la Prueba Piloto del cuestionario, este se aplica sobre un
número limitado de personas de diferente condición para la interpretación
de las preguntas. Esta prueba permite descubrir los defectos, eliminar los
equívocos y ambigüedades, escoger la oportuna formulación de las pre-
guntas según los objetivos de la entrevista.
Se hará uso del cuestionario mediante la entrevista personal en la
que intervienen: los entrevistadores o encuestadores, de quienes depende
en gran parte el éxito del operativo. Para llegar a ser un buen entrevista-
dor se requieren largos períodos de práctica, cursos especiales de adies-
tramiento e instrucciones precisas, además de comprensión y compromiso
con el estudio encarado. Se podrán elaborar manuales para los entrevis-
tadores e instrucciones para cumplimentar el cuestionario. Para la elección
de los entrevistadores, se exigen requisitos como: preparación, personali-
dad, facultad de adaptación, honestidad, memoria, precisión, mentalidad
investigadora, cordialidad, discreción en el manejo de la información ob-
tenida, etc. Un encuestador puede afectar la precisión de la respuesta al
leer mal las preguntas, al registrar las respuestas de manera equivocada o
al polemizar con el entrevistado. También pueden integrar el equipo de
trabajo los supervisores, quienes controlan el trabajo de los entrevistado-
res y el método de selección de las unidades de observación si correspon-
diere. Completando el cuadro de actores partícipes del operativo se tiene
el cuestionario en sí y al entrevistado, que constituye la Unidad Estadísti-
ca y es quien responde al mismo en forma individual.

4. Organización de la Información
Cuando se obtienen los datos a través de una encuesta, es decir de
fuente directa éstos se deberán organizar y ordenar en forma sistemática

32
II. Etapas Operativas

y adecuada en función de los fines planteados en la primera etapa. Pre-


viamente, serán consistidos para asegurar su pertinencia y, en caso de
tener alguna unidad de observación con información de calidad no satis-
factoria, ésta podrá ser reemplazada con una segunda recopilación llama-
da “de recuperación”.
En algunas ocasiones los datos son utilizados en bruto y, en otros,
necesitan de cálculos o reducciones posteriores de acuerdo a las necesi-
dades de la investigación.
Cuando los datos son extraídos de publicaciones internas o exter-
nas, es decir fuente indirecta, y en estos casos, la corrección de los mis-
mos no demandará gran cantidad de tiempo, ni dará lugar a grandes in-
comodidades; pero, cuando hayan provenido de una encuesta, pueden
surgir diversas situaciones provenientes del modo en que se originaron.
Según Stephen P.Shao, el recopilador tendrá que realizar algunas
de estas tareas:
 Solucionar el problema de la inconsistencia de los datos.
 Tratar de solucionar aquellos problemas surgidos como consecuencia
de una escritura pobre.
 Tratar de que todas las preguntas sean contestadas o, de lo contra-
rio, consignarlas como sin información respecto del sujeto a quien fueron
dirigidas.
 Establecer cálculos precisos de las cifras proporcionadas por el in-
formante.
Efectuada la depuración, se inicia el trabajo de procesamiento, con
el objeto de realizar la elaboración final.
Según los recursos informáticos disponibles, y la dimensión de los
datos recopilados, se procede a la generación de una Base de Datos que
luego se completará con la información recabada en el campo. En algunos
casos y para algunos ítems se hace uso de una Codificación previa, que
consiste en la asignación de un número a cada posible respuesta, número
que corresponde a una clave cuidadosamente preparada. En otros casos,
los ítems, por su naturaleza, no necesitan de un código. Una u otra situa-
ción están íntimamente relacionada con el tratamiento informático utiliza-
do.
Haciendo uso del Plan Tabulatorio, ya elaborado, se procesan los
datos de la Base obteniendo las salidas correspondientes.

5. Presentación de la Información
Una vez que se ha recopilado y organizado el conjunto de datos es-
tadísticos, es muy probable, mas allá del análisis que se realice luego, que
sea necesario presentarlos como el resultado obtenido de nuestra tarea. Si
esta es la situación, existen pautas a tener en cuenta para lograr un in-
forme claro y preciso.

33
II. Etapas Operativas

Muchos lectores tienen tendencia a no leer en un informe escrito


las cifras estadísticas que se señalan; una forma de evitar esto, es presen-
tarlas en cuadros estadísticos sencillos y claros, o en gráficos simples y
atractivos, o sea, recurriendo a alguna forma de presentación que cumpla
con el objetivo de ofrecer una descripción de un fenómeno.
Las formas en que se pueden presentar los datos estadísticos son:
- Párrafos de textos
- Cuadros estadísticos
- Gráficos estadísticos.
Estos métodos de presentación tienen particularidades propias, que
se detallan a continuación.
Párrafos de Textos
Si el resultado del trabajo de investigación es la obtención de valo-
res que por su importancia merecen un tratamiento especial, estos resul-
tados se deben presentar en un parágrafo. Esta presentación sólo es re-
comendable cuando se trabaja con pocas cifras o pocos conceptos. En
cambio, cuando se trabaja con un conjunto numeroso de datos, ésta for-
ma de presentación es poco clara e ineficiente, por lo que se debe recurrir
a otros métodos. Tiene ciertas ventajas, como la de poder expresar con
palabras la importancia de ciertas cantidades específicas, así como la de
efectuar y destacar comparaciones que se crean necesarias hacer. A con-
tinuación se presentan dos ejemplos:

“Analistas privados ubican a la inflación del mes de Julio entre el


1,2% y el 1,5%. Según la medición del organismo oficial alimentos y be-
bidas bajaron un 0,8% mientras que el rubro de mayor incremento fue el
de esparcimientos”
Fuente: Diario Río Negro- 11-08-08

“La proporción de la población por debajo del umbral de pobreza


alcanzó en el primer semestre del año 30,2 por ciento, según aseguró
ayer en un informe la consultora Ecolatina. El estudio señaló que tal mar-
ca supera la estimación”
Fuente: Diario Río Negro- 13-08-08

Cuadros Estadísticos
Esta forma de presentación de información suele usarse con mayor
frecuencia que el anterior. Consiste en el arreglo sistemático de las cifras
en una matriz, identificando filas y columnas, o sea utilizando una tabla
de doble entrada. Para su construcción existen ciertas normas básicas que
permiten que el cuadro cumpla con su objetivo que es presentar la infor-
mación ordenadamente, facilitando su interpretación y análisis.

34
II. Etapas Operativas

De acuerdo al propósito para el que se construyen los cuadros es-


tadísticos, pueden clasificarse en:
a) Cuadros generales o de referencia: son los usados como
fuente de información, no tienen un propósito determinado sino que sim-
plemente proporciona información detallada. Es el tipo de cuadro que pre-
sentan las publicaciones de organismos generalmente gubernamentales,
que recogen información primaria.
b) Cuadros de texto o de resumen: son aquellos que tienen un
propósito específico: generalmente son de menor tamaño que los anterio-
res; son breves y claros y van acompañados de algún texto correspon-
diente a una investigación particular; incluyen datos relacionados entre sí
y eventualmente algún tipo de elaboración propia del autor.
Recopilada y organizada la información que se desea presentar, se-
rá posible determinar el propósito de una tabla, estructurando la misma
teniendo en cuenta sus partes componentes.
Las partes principales de un cuadro son: Título, Encabezados,
Columna Matriz o Conceptos, Cuerpo, Fuente de Información y Notas de
Introducción y al Pie. Todas ellas son importantes y contribuyen conjun-
tamente a que el cuadro que se presente sea claro, preciso y de fácil in-
terpretación. Brevemente se expondrá qué significan y cómo se confeccio-
nan cada una de las partes mencionadas:
Título: debe ir en la parte superior del cuadro y expresar en forma
clara y precisa el contenido (datos) del cuadro, para lo cual resulta útil te-
ner en cuenta , al redactarlo, las siguientes cuestiones: ¿Qué?,¿Dónde?
¿Cómo? y ¿Cuándo? Es decir el título indica que datos se están presentan-
do, a qué área geográfica corresponden, la clasificación los datos y a qué
período (meses, años, etc.) corresponde la información.
Encabezados: son los títulos que corresponden a cada columna
componente del cuadro y se colocan en la parte superior de las mismas. El
primer encabezado corresponde a la columna matriz o concepto, los si-
guientes corresponden a las columnas de datos. En algunos casos se pre-
sentan encabezados y sub-encabezados.
Columna Matriz o Conceptos: es la primera columna que se pre-
senta en un cuadro, en la cual se colocan los conceptos que identifican
cada fila de un cuadro. Estos conceptos corresponden a una determinada
clasificación cuya naturaleza se señala en el encabezado correspondiente
a esta columna. Es posible, si se presenta la necesidad, dividir cada con-
cepto en sub-conceptos.
Cuerpo: es la parte del cuadro en la que se presenta el conjunto
de datos estadísticos, cuyo arreglo en filas y columnas se hará de acuerdo
a las clasificaciones que se presentan en la Columna Matriz y en los Enca-
bezados.
Fuente: es el origen de la información o el lugar de dónde se ob-
tuvo, y se indica al pie del cuadro. Si los datos fueron recopilados por el

35
II. Etapas Operativas

mismo investigador, se colocará “elaboración propia”, pero, en caso de


que los datos hayan sido proporcionados por otro organismo o equipos de
trabajo o se hayan obtenido de publicaciones, deberá colocarse el origen
de los mismos, indicando autor, nombre de la institución, título de la pu-
blicación, número de serie, volumen, página, edición, editorial, fecha de
publicación, etc., según corresponda. Puede ocurrir que sea necesario in-
dicar más de una fuente. Si se desconoce el origen de la información, se
colocará: “Fuente Desconocida”.
La indicación correcta de la fuente de información de un cuadro
permitirá al lector evaluar la confiabilidad de las cifras presentadas, y ob-
tener información adicional en la fuente original, si así lo deseara.
Notas de Introducción: son las que tienen por objeto aclarar
ciertos aspectos generales, relativos a todo el cuadro, que no han sido se-
ñalados en el título; por ejemplo: la unidad de medida correspondiente a
los datos presentados en el cuadro. Otro ejemplo ilustrativo es que en es-
ta nota se indique el total de casos que representa el 100% de la informa-
ción cuando el cuadro presenta únicamente cifras relativas Generalmente
se colocan entre paréntesis o con letras de menor tamaño que las utiliza-
das para el título.
Notas al pie: están ubicadas en la parte inferior, por fuera, del
cuerpo del cuadro y antes que la fuente; en ellas se consignan explicacio-
nes relativas a algún dato particular, o a alguna fila o columna en espe-
cial.
Ejemplo 2-1

Tasas de empleo y desempleos del total de aglomerados urba-


nos de la República Argentina, año 2008.
(total: 31 aglomerados)
Años 2008
Trimestre
1ero 2do 3ero 4to
Clasificación

Actividad 45.9 45.9 45.7 46.0


Empleo 42.0 42.2 42.1 42.6
Desocupación 8.4 8.0 7.8 7.3
Sub-Ocupación 8.2 8.6 9.2 9.1
Demandante 5.8 6.3 6.3 6.0
No Demandante 2.4 2.3 2.9 3.1
Fuente: INDEC, Encuesta Permanente de Hogares Continua

36
II. Etapas Operativas

En este cuadro resulta posible identificar que: la información esta-


dística presentada corresponde a resultados obtenidos a través de la En-
cuesta Permanente de Hogares Continua, operativo realizado por el Insti-
tuto Nacional de Estadística y Censos de nuestro país, según se consigna
en la fuente del cuadro. En la nota introductoria se hace referencia a qué
corresponden los datos, en este caso se trata de 31 aglomerados.
Respecto al cuerpo del cuadro este presenta información, resultan-
te de operativos que se realizan por muestreo en diferentes momentos en
el tiempo y en el mismo se presentan las tasas resultante del cálculo es-
pecífico. Por ello una primera columna matriz que presenta la clasificación
cualitativa, en este caso según condición de actividad. En las columnas
subsiguientes se hace uso de encabezados separando los valores de las
tasas según los trimestres correpondientes al año 2008.
Para lograr una correcta interpretación de los datos presentados en
un cuadro, resulta útil tener en cuenta ciertas normas básicas en su ela-
boración.
- Tener cifras ordenadas en columnas y filas facilita las comparaciones
entre sí. Sin embargo , debe tenerse en cuenta que es más fácil comparar
cifras ubicadas en columnas que en filas, y que las comparaciones entre
columnas adyacentes es más factible de hacer que entre columnas sepa-
radas, esto último se debe tener presente sobre todo cuando existen sub-
encabezados.
- Si hay cifras que por alguna razón se deben destacar del resto de
la información, deberán colocarse en aquéllas posiciones de la tabla ade-
cuadas para tal fin. Como nuestros hábitos hacen que se lea de izquierda
a derecha y de arriba hacia abajo, resulta que las posiciones de mayor én-
fasis serán para los encabezados de la izquierda (columna adyacente a la
columna matriz) y de la fila superior. Por lo tanto, los Totales irán en la
primera o última fila (o columna) según se quiera o no resaltar sus cifras.
- Tanto en la Columna Matriz como en los Encabezados, teniendo en
cuenta la naturaleza de los datos estadísticos que se presentan las clasifi-
caciones posibles son: cronológica, geográfica, cualitativa y cuantitativa, y
la elección de una u otra se hará de forma tal que facilite el análisis y las
comparaciones por parte del lector. Es posible ordenar estas clasificacio-
nes de acuerdo a dos arreglos: alfabético o por magnitud.
- Cuando es necesario presentar la información en valores relativos
utilizando porcentajes, debe indicarse respecto a qué es relativo el por-
centaje, si respecto al total, si es de aumento o de disminución, a un año
base, etc., o sea consignar cuál es la cifra a quien le corresponde el
100%.
- Si la precisión que presentan las cifras es innecesaria a los fines del
cuadro, deberán ser redondeadas siguiendo el método tradicional: si la
última cifra significativa es mayor que 5, se la elimina y se agrega una
unidad a la cifra anterior; en caso contrario, simplemente se la elimina.

37
II. Etapas Operativas

Incluso, si éstas cifras son números grandes, puede llevarse el dato a mi-
les o millones, en cuyo caso deberá indicarse la unidad utilizada (esto
puede ser en las notas de introducción).
- Si algún dato se desconoce, debe colocarse el símbolo: s/i (acla-
rando en una nota su significado). Y si algún dato es cero, debe colocarse
una rayita.
- Por último, se recomienda simplicidad en la presentación de los
cuadros, para lo cual se sugiere tratar el menor número posible de temas
por tabla, elegir tamaño y forma adecuadas al informe que se presenta,
no trazar más rayas de las necesarias para dividir columnas o filas, dejar
sólo las esenciales que separan encabezados, subencabezados, la columna
matriz y los totales. Todo el cuadro debe enmarcarse en un recuadro.
Ejemplo 2-2:

Estadía promedio de los turistas internacionales no residentes en


Argentina, por modalidad del viaje, según tipo de alojamiento
Año 2001
(la información corresponde a número de noches)

Modalidad del viaje


EER Por cuenta
Tipo de alojamiento Total
(1) Con paquete EER
Por cuen-
EER de terce- EER
turístico ta propia
ros
Total 13.1 2,0 8.4 4,4 14.8 2,2 11.2 3,7
Casa de familia o ami-
gos 20.9 2,2 26.5 14,5 20.6 2,4 21.8 5,2
Hotel 1 y 2 estrellas 16.5 4,7 11.3 9,4 17.5 5,2 11.7 11,4
Hotel 3 estrellas 8.5 3,6 6.7 5,9 9.1 3,9 8.6 9,0
Hotel 4 estrellas 6.2 2,2 6.0 4,0 6.6 3,2 6.0 3,3
Hotel 5 estrellas 5.1 2,3 5.7 5,4 5.2 3,7 4.9 3,3
Casa propia 19.5 8,0 23.8 24,6 20.0 8,4 15.1 19,5
Alquiler 58.0 7,7 23.0 23,9 54.2 7,8 77.5 16,7
Otro 30.1 7,6 21.8 18,5 28.3 9,8 36.4 11,0

Nota: (1) Error estándar relativo (EER): es un indicador de la precisión de los resultados obtenidos a par-
tir de la muestra seleccionada. Cuanto menor es el EER, mayor es el nivel de precisión de la estimación
correspondiente. En general se expresa en porcentaje y no tiene unidad de medida. Es habitual conside-
rar que errores estándar relativos menores o próximos al 10% señalan resultados muestrales confiables.
Fuente: INDEC, Encuesta de Turismo Internacional 2001.

En el cuadro, que se presenta además de las consideraciones


realizadas en el anterior, se puede señalar que, por tratarse de informa-
ción obtenida por muestreo, en el cuadro se presentan columnas que indi-
can el valor del EER, este corresponde al error estándar relativo, el cual es
un indicador de la precisión, cuyo conocimiento es necesario manejar en

38
II. Etapas Operativas

toda estimación obtenida utilizando datos recopilados en operativos por


muestreo estadísticamente diseñados y esta información está debidamen-
te aclarada y expresada en la nota al pie.
Gráficos Estadísticos
Tienen por objeto presentar los datos estadísticos por medio de fi-
guras: líneas, áreas, volúmenes, dibujos, etc.
Este forma de presentar información suele reemplazar o comple-
mentar a los cuadros estadísticos, que sólo presentan cifras y que resultan
inexpresivos; en cambio, un gráfico ayuda a visualizar rápidamente una
situación, mostrándola en forma grafica describiéndola haciendo posible
su descripción, debido a su claridad, a su facilidad de comprensión y la
explicitación de resultados. Un gráfico destaca ciertos hechos esenciales
de los fenómenos observados y sirve como medio de control, ya que hace
particularmente visible toda variación y toda discontinuidad crítica en la
marcha del fenómeno en observación. Es el indicador óptimo de máximos
y mínimos y de evoluciones de tendencia. Es el instrumento ideal para la
comparación de clasificaciones referidas a un mismo fenómeno y repre-
sentadas en la misma escala de magnitudes. Por último, diremos que un
gráfico resulta siempre más atractivo y comprensible para su análisis que
un cuadro, por lo cual, difícilmente se lo deje de lado en la lectura de un
texto, hecho que puede ocurrir con los cuadros.
Se debe señalar ciertas limitaciones del esta forma de presentación
de información:
- En un gráfico no se puede presentar una gran cantidad de informa-
ción como lo permite hacer un cuadro, ya que puede resultar confuso si en
un mismo gráfico se pretende comparar varias clasificaciones.
- Al trabajar con escalas, relega la precisión del dato por lo tanto no
presenta la misma precisión que los cuadros, que permiten la lectura
exacta de las cifras presentadas.
- En general, la selección y confección del grafico adecuado lleva
más tiempo que la elaboración de un cuadro.
Las partes componentes de un gráfico coinciden prácticamente con
las de un cuadro se puede indicar en el siguiente orden: título, diagrama,
escalas, referencias, notas y fuente. Las referencias y escalas, se inclui-
rán, según corresponda. Para el título, la fuente y las notas son válidas las
mismas indicaciones que las hechas para los cuadros, salvo respecto al tí-
tulo que puede ir colocado en la parte superior o inferior del diagrama.
El diagrama correspondería al cuerpo del cuadro, puede presentar
distintas formas y su objeto es mostrar la información a través de un grá-
fico; los más comunes son barras, líneas, áreas, volúmenes, mapas esta-
dísticos y símbolos, que darán lugar a una clasificación posterior de los
gráficos estadísticos. Según el tipo de diagrama utilizado será necesario
hacer referencias entre simbología utilizada y rangos, cantidades, porcen-
tajes, modalidades representadas, etc.

39
II. Etapas Operativas

La escala es una de las partes de un gráfico con la que hay que


tener especial cuidado. Cuando se construyen los diagramas en corres-
pondencia al sistema de ejes coordenados cartesianos ortogonales, en ge-
neral, se ubican, en el eje de las abscisas (X) las clasificaciones cuantitati-
vas o cronológicas, y en el de las ordenadas (Y) se representa las magni-
tudes que corresponden a la variable presentada. En estas situaciones se
necesita tomar una escala cuyo límite inferior esté por debajo del menor
valor observado y cuyo límite superior cubra al mayor valor observado. La
escala se marca a partir del origen del sistema (al cual le corresponde el
cero); si las magnitudes tienen un rango alejado del origen, será necesa-
rio cortar el eje. Si la clasificación es cualitativa o geográfica, ésta se ubi-
ca en el eje de las ordenadas (Y).
Los gráficos se clasifican según el tipo de diagrama utilizado, a
continuación se presentan algunos de ellos elaborados con datos hipotéti-
cos razón por la cual no se indica la fuente correspondiente.
Gráficos lineales: Se utilizan para presentar información cuando es de
interés mostrar evoluciones, tendencias, comportamientos, ciclos, etc., en
los que la variable tiempo se considera predeterminada. Son muy usados
para representar la evolución de series de datos correspondientes a ingre-
sos y egresos, llamados gráficos de Saldos Netos. Son los específicamente
utilizados para Series Cronológicas tanto económicas, climatológicas, co-
mo demográficas.
Como ejemplo, se presenta el siguiente gráfico, que permite eva-
luar la evolución de las ventas de combustible a través del tiempo. Como
lo indican las referencias, estas ventas están clasificadas según la zona
geográfica; el tiempo de observación corresponde a períodos trimestrales
y la magnitud de ventas está dada utilizando una escala en millones de
pesos.
En cuanto a la interpretación de la información presentada, se ob-
serva una suba importante en el tercer trimestre para el sector Este,
mientras que para los otros sectores presentan una leve tendencia a dis-
minuir.

Evolución de las ventas de combustible en Río Negro


según zona geográfica. Año 2000
(en millones)
80
70
60
50 Este
40 Oeste
30
20 Norte
10
0
1er trim. 2do trim. 3er trim. 4to trim.

40
II. Etapas Operativas

En general, en todos los gráficos, hay que tener cuidado en la elec-


ción de la escala. La elección de una escala inadecuada puede desvirtuar
la información que se quiere representar. Los siguientes gráficos lineales
muestran la misma información utilizando diferentes escalas lo que da lu-
gar a diferentes impactos visuales.

Evolución de la tasa de crecim iento


Evolución de la tasa de crecim iento
2
2
1.9
1.8 1.5
1.7
1
1.6
1.5 0.5
1.4
0
1999 2000 2001
1999 2000 2001

Otro aspecto a tener en cuenta es que, para hacer referencia a una


evolución o tendencia se debe tener como mínimo cinco observaciones en
el tiempo y que, al construir el grafico, las escalas de las ordenadas debe
tener una altura de aproximadamente la tercera parte de la escala de las
abscisas.
Gráficos de barras: Se utilizan cuando interesa presentar magnitudes
absolutas o relativas según la clasificación establecida. Se recomienda no
utilizar estos gráficos cuando las diversas modalidades clasificatorias sean
numerosas. Se construye utilizando barras cuya longitud representa, se-
gún escala, la magnitud del dato.
Son varios los tipos de gráficos que utilizan este diseño: barras
simples absolutas y porcentuales, barras subdivididas absolutas y porcen-
tuales, barras compuestas, barra única y del de barras direccionales.
En el gráfico de barras absolutas simples, las barras son absolu-
tas porque representan cantidades netas y no porcentajes, y son simples
porque cada barra indica una las modalidades correspondientes a la clasi-
ficación de interés.
En el siguiente gráfico se observa que las barras se trazan de for-
ma horizontal porque la variable clasificatoria “puerto de exportación” es
cualitativa y resulta recomendable que sea así, para una mejor lectura.
Constatando que el mayor volumen de exportación de trigo por vía marí-
tima se realiza por el puerto de Bahía Blanca, y que la diferencia con los
otros dos puertos es muy importante. Un gráfico de este tipo, pero que
utilice una escala de valores en porcentaje, es un gráfico de barras por-
centuales simples.

41
II. Etapas Operativas

Total de exportaciones por vía m arítim a - 1993

B. Blanca

B. Aires

Rosario

0 50 100 150 200

Los gráficos de barras subdivididas permiten presentar conjun-


tamente mayor cantidad de clasificaciones. En los ejemplos siguientes, se
presenta la clasificación de las exportaciones según puerto de exportador
y, a su vez, se las considera a éstas según clase de grano. Cada barra se
subdivide de acuerdo con la composición de la misma.
En las barras subdivididas absolutas el valor máximo de la ba-
rra indica el total. Este gráfico permite comparar tanto el total de expor-
taciones de cada lugar como la cantidad de exportaciones de cada moda-
lidad (trigo, girasol etc.).

Exportaciones de granos por vía m arítim a -


1993
B. Blanca
Trigo
B. Aires
Girasol
Soja
Rosario

0 50 100 150 200

En el gráfico de barras subdivididas porcentuales se compara la


proporción de exportación de cada tipo de grano, respecto al total, en los
diferentes lugares.

Exportaciones de granos por vía m arítima -


1993
B. Blanca
Trigo
B. Aires
Girasol
Soja
Rosario

0% 50% 100%

42
II. Etapas Operativas

Leyendo el gráfico se observa que hay un mayor volumen de ex-


portación desde el puerto de Bahía Blanca y que, en este puerto, la expor-
tación de trigo es la más significativa. En el gráfico porcentual podemos
observar que la proporción de soja exportada desde el puerto de Rosario
es mayor a la de los otros puertos.
De la misma manera, es posible confeccionar gráficos de barras
subdivididas verticales cuando la variable clasificatoria es cronológica o
cuantitativa.

Exp or tacio ne s de g r anos pr o ve nie nte s d e


Bue n os Air e s - Añ os 95-96-97
200
Soja
150 Girasol
Trigo
100

50

0
1995 1996 1997

El siguiente grafico corresponde a barras subdivididas porcen-


tuales, en éste se observa la composición de cada barra relativa a cada
total a quien corresponde el 100%. La lectura se realiza por ejemplo: la
proporción de soja en el año 1995 es mayor que en el 1996 y 1997, gráfi-
co de la derecha, aunque la exportación total de ese año sea mucho me-
nor que en los otros.

E x p o rta c io n e s d e g ra n o s
p ro v e n ie n te s d e B u e n s o A ire s - A ñ o s
9 5 -9 6 -9 7
100%
S o ja
80%
G ira s o l
60%
T rig o
40%
20%
0%
1995 1996 1997

Los gráficos de barras compuestas utilizan una barra para cada


una de las modalidades de la subclasificación “granos” correspondientes a
cada una de las categorías definidas en la primera clasificación “puerto de
exportación”. Estas barras permiten una mejor comparación entre las mo-
dalidades correspondiente a granos.

43
II. Etapas Operativas

Exportaciones de granos por vía m arítima


1993

B. Blanca

B. Aires Soja
Girasol
Rosario Trigo

0 20 40 60 80 100

Interpretando los datos presentados en el gráfico, puede observar-


se que la exportación de trigo varía considerablemente según el lugar, la
producción de soja es casi igual y se observa una pequeña diferencia en la
producción de girasol.
La cercanía de las barras en la subclasificación permite una mejor
comparación que entre la clasificación realizada inicialmente. Esto conlle-
va la posibilidad de intercambiar en el ejemplo, granos como clasificación
primaria, por puerto de exportación como subclasificación
En las barras direccionales, el sentido de las barras asume un
significado específico.
Las aplicaciones más frecuentes de estas barras es cuando se pre-
senta información de datos con saldos que pueden ser positivos o negati-
vos referidos a la Balanza Comercial. Otra aplicación es en Demografía al
presentar datos referidos a la edad y sexo de las poblaciones en estudio,
en este caso se presenta a la población según rango de edades, medido
sobre el eje de ordenadas y se utilizan barras en dos direcciones; las de la
izquierda representan el número de mujeres, y las otras el número de va-
rones.

Balanza comercial - Empresa XX - Año Pirámide poblacional de la provincia de


2000 Neuquén - 1980
(en miles de pesos) Ingresos 80 - 90
Varones
60 Egresos Mujeres 60 - 70
Saldo
40
40 - 50
20
20 -30
0
0 - 10
1er trim. 2do trim. 3er trim. 4to trim.
-20
-2000000 -1000000 0 1000000 2000000

44
II. Etapas Operativas

Gráficos de áreas: en este tipo de gráficos se representan las


magnitudes en relación al área, es decir mayor área corresponde a mayor
magnitud del dato.
Así se construyen por ejemplo los gráficos de sectores, comúnmen-
te llamados “gráficos de torta”, los gráficos de franjas o partes componen-
tes, entre otros.
El gráfico de sectores es siempre porcentual y es equivalente a rea-
lizar un gráfico con una barra porcentual única. En el ejemplo presentado
a la izquierda, el sector circular de mayor área corresponde a fútbol, de-
duciendo en consecuencia que es el deporte preferido. Por tratarse de un
gráfico que presenta in formación en cifras relativas, es conveniente
9indicar en el mismo cual es la cifra correspondiente al 100%, en este ca-
so se consigna en la nota al pie.
Preferencias deportivas. Alumnos CPEM 23. Evo lu ció n d e las ve n tas d e r o p a y
2001 calz ad o . Cad e n a d e tie nd as XX. Añ o 2001
100
Calz ado
básquet 80
Ropa
voley 60
fútbol 40

tenis 20
0
1er trim. 2do trim. 3er trim. 4to trim.

Nota: El 100% corresponde a 250 alumnos Fuente: Dirección de Industria y Comercio-


Fuente: Elaboración propia.

El gráfico de franjas muestra los valores totales de las ventas y su


composición según áreas resultantes de las franjas componentes para di-
ferentes rubros; además se puede observar como gráfico lineal la tenden-
cia o evolución, al considerar la información para los cuatro trimestres del
año.
Entre otros tipos de gráficos encontramos: Gráficos de volumen,
pictogramas, mapas estadísticos, etc..
En los pictogramas -se presenta un ejemplo a continuación- cada
dibujo indica una cierta cantidad de unidades. No se puede variar el ta-
maño del dibujo pero sí se puede cortar proporcionalmente.
Producción automotriz 2001

Ford

Fiat

=100.000 unidades

45
II. Etapas Operativas

Concluyendo, algunas reglas generales que son útiles al momen-


to de decidir que tipo de gráfico se utilizará, más algunas recomendacio-
nes para graficar la información son las siguientes:
- Los gráficos lineales son ideales para representar series de tiempo.
En caso de existir más de una clasificación, se usan distintos trazos, que
deben ser aclarados en las referencias.
- Los gráficos de barras verticales generalmente, se usan para las cla-
sificaciones cronológicas o cuantitativas.
- Los gráficos de barras horizontales se utilizan generalmente, para
clasificaciones cualitativas o geográficas, por una cuestión de claridad en
la lectura.
- Las barras son rectángulos horizontales o verticales, todos de igual
ancho y cuya longitud es proporcional al dato que representan.
- Las barras no deben ser excesivamente cortas y anchas, ni largas y
angostas.
- Entre barra y barra debe dejarse un espacio menor que el ancho de
la barra y mayor que la mitad de dicho ancho.
- No deben rayarse las barras con líneas horizontales ni verticales, ni
usar ningún tipo de sombreado que produzca efectos ópticos de dimensio-
nes espurias.
- No debe usarse un número excesivo de barras por gráfico, (no más
de 6).
- Las escalas pueden ser en valor absoluto o porcentual.
- Las barras subdivididas son ideales para reflejar las cifras corres-
pondientes al total general conjuntamente con las correspondientes a sub-
clasificaciones.
- La barra única generalmente es horizontal, la escala es en valores
porcentuales y su longitud total corresponde al 100%. En valores relativos
se representan las partes componentes del total.
- Las barras compuestas se utilizan para comparar dos series de da-
tos. Una considerada como clasificación y la otra como subclasificación.
- Si la serie cronológica corresponde a menos de cinco observaciones,
se recomienda utilizar gráfico de barras; si supera este número se utiliza-
rá un gráfico lineal.
- Las barras direccionales se utilizan para reflejar las variaciones en
uno y otro sentido: ingresos y egresos; importaciones y exportaciones;
migraciones y emigraciones; positivo y negativo; masculino y femenino.

6. Análisis de la Información
El investigador, frecuentemente, se encuentra en la situación de
requerir para su trabajo gran cantidad de datos, resultándole imposible
absorberlos en su totalidad. Del mismo modo, en caso de disponer de
ellos, tampoco puede comprender intuitivamente lo que los datos contie-
nen. En estos casos debe resumir la información recopilada, para lo cual
emplea métodos de cálculo de medidas, coeficientes, que le permiten sus-
tituir la masa total de información por algunas pocas cantidades. En esta

46
II. Etapas Operativas

etapa el investigador deberá explicar comportamientos de la variable que


se han estudiado, realizar pronósticos o estimaciones, buscando los mode-
los adecuados. En casos de datos multidimensionales, deberá trabajar con
técnicas que le permitan detectar factores subyacentes, definir grupos de
clase homogéneos, etc. En general, para fundamentar sus conclusiones,
recurre a alguno de los métodos que proporciona la Estadística.
En cualquiera de las situaciones mencionadas es importante indicar
claramente las limitaciones a las que queda sujeta la conclusión obtenida,
explicando los alcances de la información suministrada, así como las con-
diciones de los métodos aplicados.
Es claro que si la investigación demanda realizar una inferencia
acerca de los valores poblaciones el trabajo de recopilación de información
se realizó trabajando con diseño experimental que garantiza muestras re-
presentativas y aleatorias.

7. Interpretación de Resultados
En esta etapa, el investigador da una explicación comprensiva de la
investigación y de los resultados hallados, para así arribar a una conclu-
sión confiable.
En principio resulta recomendable responder a las siguientes pre-
guntas:
- ¿Cuáles son las conclusiones que se desprenden del análisis?
- ¿Qué nos dicen las cifras, que sea novedoso para el conocimiento ac-
tual del tema?
- ¿Este trabajo refuerza, modifica, hipótesis establecidas, o da lugar a
la formulación de nuevas hipótesis de trabajo?
- ¿Es el estudio lo suficientemente amplio que compruebe o refute
opiniones anteriores?
Los resultados deben interpretarse a la luz de las limitaciones del
material original. No deben deducirse conclusiones demasiado precisas de
datos que por si mismos no son más que aproximaciones. Sin embargo, es
de esencial importancia que el investigador descubra y aclare todo lo que
haya de útil o aplicable en sus datos.
Así como en el momento de recopilar la información existe una
propensión a aceptar cualquier dato estadístico sin dudar de su exactitud.
También suele ocurrir que se mal usen o se mal interpreten algunos resul-
tados provenientes de estudios fundamentados en métodos estadísticos,
tal como es el caso de tasas de desocupación obtenidas por lo general
como resultado de encuestas por muestreo, que se generalizan a toda la
población y no a las sub poblaciones de donde se extrae la muestra.
Para evitar esto, en esta etapa no se debe dejar de mencionar cual
fue el marco poblacional sobre el que se seleccionó la muestra y, si es po-
sible dar el grado de error o el intervalo de confianza con que se realiza la
predicción o estimación presentada.

47
III. Organización de la Información

ORGANIZACIÓN DE LA INFORMACIÓN ESTADÍSTICA

1. Clasificación de Variables
En este capítulo se presentan y desarrollan algunos de los proce-
dimientos que corresponden a la organización de datos estadísticos, etapa
posterior a la recopilación. Con el propósito de describir el comportamien-
to de la variable objeto de estudio se recurre a la organización de los da-
tos construyendo las llamadas Tablas de Frecuencias, éstas generalmente
se presentan acompañadas de sus respectivas representaciones gráficas.
Las personas que hacen uso de las estadísticas suelen enfrentar
dos situaciones, una es cuando recurren a fuente directa para obtener sus
datos, generalmente publicaciones especializadas, en este caso pueden
obtener distribuciones de frecuencias ya construidas; otra situación se
plantea si realizan recopilación directa, ya que una vez obtenidos los datos
necesitan para su organización, elaborar sus propias distribuciones de fre-
cuencias.
En el segundo caso mencionado se dispone de un conjunto de ob-
servaciones estadísticas que presentan un orden conveniente al método
de obtención, por ejemplo éste puede ser el orden alfabético de una lista
de personas a quienes se les registra su edad, o el orden numérico del
cuestionario utilizado en una encuesta, o un orden cronológico si se trata
de datos vinculados a una unidad temporal. En esta circunstancia si el
número de unidades estadísticas estudiadas es pequeño, el conjunto de
datos obtenidos se considera una serie simple y su descripción es sencilla
e inmediata, sin embargo si el número de datos es grande el análisis es-
tadístico descriptivo se facilita y profundiza cuando se organizan los datos
originales en tablas de frecuencias.
Antes de proceder a la presentación del tema se requiere precisar
conceptos estadísticos básicos, que serán utilizados en éste y capítulos
subsiguientes.
 Variable: es la característica que se estudia, mide u observa, a las
Unidades Estadísticas. Como ejemplos de variables a estudiar se puede
mencionar: el peso en kg., correspondientes a un grupo de atletas; el lu-
gar de nacimiento de los alumnos que cursan una carrera de postgrado; el
número de errores encontrados en cien artículos periodísticos; la cantidad
de cuartos correspondientes a las viviendas asentadas en determinado ba-
rrio de una ciudad; temperatura corporal promedio por día de los interna-
dos en un hospital; nº de integrantes por hogar obtenido de una Encues-
ta realizada a Hogares; producción de soja en miles de Tn. en los últimos
diez años referida a una región geográfica determinada.
Las variables se simbolizan utilizando las últimas letras del abece-
dario X, Y, Z. Estas pueden tomar cualquier valor (número o cualidad) de-
ntro de un conjunto determinado llamado dominio o campo de variación
de la variable.
 Dato estadístico: es el valor obtenido al observar o medir una va-
riable referida a una unidad estadística predeterminada.

48
III. Organización de la Información

Cada variable puede presentar dos o más valores, pero éstos deben
ser excluyentes y exhaustivos, es decir que cada unidad estadística de la
población presenta una y sólo una de estas modalidades y el campo de
variación contempla todos los casos susceptibles de presentación. Corres-
ponde hacer una diferencia entre los valores posibles y los valores obser-
vados ya que éstos generan dos campos de variación distintos: los prime-
ros son los que puede asumir la variable y los segundos son los valores
que realmente se observaron o se obtuvieron en la recopilación.
De acuerdo a su naturaleza a las variables se las clasifica en:
- Cualitativas: son aquellas que corresponden a atributos de la uni-
dad estadística, asumen categorías nominales. Ejemplos: profesión; sexo;
nivel socioeconómico.
- Cuantitativas: son aquellas que asumen valores numéricos. A su
vez según como se originen, pueden clasificarse en:
Discretas: asumen una cantidad finita o infinita numerable de valo-
res posibles. Ejemplos: nº de hijos por familia; nº de habitantes por barrio
en una ciudad; nº de autos que pasan por un peaje en un intervalo de
tiempo determinado.
Continuas: asumen infinitos valores posibles en un intervalo real.
Ejemplos: velocidad promedio de un automóvil observada por tramos re-
corridos; altura media de un conjunto de personas; temperatura máxima
por día durante un mes determinado.
En general las mediciones dan origen a datos continuos y las enu-
meraciones o conteos originan datos discretos. En realidad, la distinción
entre discretas y continuas hace referencia a su naturaleza, considerando
que en la práctica toda medición es discreta, ya que se efectúa con algún
tipo de instrumento que tiene un grado de precisión limitado.
Otra forma de clasificar a las variables cuantitativas es consideran-
do su relación o no con el tiempo cronológico:
- Temporales o cronológicas: son aquellas variables que se estu-
dian considerando su valor observado en relación con el tiempo transcu-
rrido, por ejemplo: por mes, año, minutos, etc., que constituyen la unidad
estadística de observación. O sea que la recopilación de la información se
realiza en correspondencia biunívoca con la variable tiempo, que es prede-
terminada. Por ejemplo: producción de manzanas, en Tn, para el Alto Va-
lle por año en la última década; temperatura corporal por hora para un
paciente durante un día determinado. En general son las variables que
originan las llamadas series demográficas, estadísticas vitales, series eco-
nómicas, etc.
- Atemporal: cuando el orden de las observaciones no es conside-
rado determinante. Ejemplos: información recopilada a través de los Cen-
sos o Encuestas realizadas en una fecha establecida.
Asimismo, según la cantidad de características que se observan
simultáneamente a cada unidad de observación, se puede clasificar a las
variables en:
- Unidimensionales: son aquellas que se originan al observar la
unidad estadística teniendo en cuenta una sola característica.

49
III. Organización de la Información

- Bi o Multidimensionales: son aquellas que se originan al obser-


var la unidad estadística teniendo en cuenta, en forma conjunta, dos o
más características. Ejemplos: registro de altura y peso de jóvenes atle-
tas; ingresos, gastos y ahorros mensuales correspondientes a un grupo de
familias.
En general el dato, como valor observado de una variable para una
unidad estadística determinada, puede considerarse como el resultado de:
o Una medición, para la cual se ha utilizado un instrumento apropia-
do, tal sería el caso de las variables: longitud, peso, presión sanguínea,
etc.
o Un conteo, por ejemplo nº de hijos por familia; nº de autos que pa-
san por un peaje en un intervalo de tiempo determinado, etc.
o Una enumeración, que corresponde a una clasificación según un
criterio específico, por ejemplo individuos observados como sanos o en-
fermos; ocupados o desocupados, que corresponden a clasificaciones dico-
tómicas; o pueden existir varias categorías de clasificación como los casos
de: grado de instrucción alcanzado con modalidades: primaria incompleta,
primaria completa, secundaria incompleta, secundaria completa, universi-
taria incompleta, universitaria completa, analfabeto; ingresos: altos, me-
dios altos, medios, medios bajos, bajos. El resultado en estos casos será
un número de individuos definido, no se realiza una medición sino lo que
se hace es un recuento. Generalmente el resultado, como información se-
rá una proporción o un porcentaje. Cabe consignar que las clasificaciones,
que básicamente son cualitativas, ordinales, cronológicas o geográficas
conducen a datos cuantitativos
o Por último el dato puede ser el resultado de un ordenamiento se-
gún preferencias, por ejemplo para distintas marcas del mismo producto
de consumo o distintas empresas de servicios previsionales. Como en el
caso anterior tampoco se realiza una medición, pero se asigna un número
o se otorga un puntaje según orden jerárquico de preferencias.
Realizada la recopilación, al disponer de un conjunto de datos se
procede a la organización de éstos, tarea que presenta ciertas particulari-
dades según el volumen de la información, la tecnología disponible para el
procesamiento, la naturaleza de la información y los objetivos persegui-
dos.
Con el objeto de realizar una acabada descripción, resulta útil co-
nocer los procedimientos que se desarrollan a continuación.

2. Variables Unidimensionales
Para la aplicación del método estadístico es necesario cumplir con
ciertas etapas operativas, descriptas en el capítulo anterior, siendo la pri-
mera la formulación del problema. En ésta usualmente al definir un marco
teórico como sustento del tema objeto de estudio, no se puede ignorar
que la realidad social, económica, biológica, etc., es variada y compleja,
en consecuencia su estudio y análisis obliga, habitualmente, a trabajar
con datos multidimensionales.

50
III. Organización de la Información

Hecha esta salvedad, a los efectos de lograr simplicidad en los con-


ceptos se expone el tema de la organización de los datos considerando en
primer lugar el caso unidimensional.

2.1. Variables Cuantitativas Unidimensionales


Es conveniente considerar por separado las dos situaciones que se
pueden presentar según sea el número de observaciones con el que se
trabaje. Con este criterio se presentan las series simples y las distribucio-
nes de frecuencias.
Serie simple de datos
Se denomina así al conjunto de observaciones realizadas a un nú-
mero pequeño de unidades estadísticas.
Llamando a la variable en estudio X, definida y observada para n
unidades estadísticas, origina una serie de datos que se representan sim-
bólicamente como: x1 , …, xi , ... , xn; interpretando por ejemplo:
x1 es el valor de la variable que corresponde a la primera unidad conside-
rada, es el primer valor observado de la variable X, xi es el i-ésimo valor
observado de la variable y xn el último o n-ésimo valor observado de la
variable X. El subíndice “i” indica el orden en que se registraron los datos.
n: corresponde a la cantidad total de observaciones realizadas.
Si se está analizando una variable atemporal, esta serie de valores
se puede reordenar por ejemplo de menor a mayor, o viceversa, lo cual
permite visualizar mejor cuál es el mínimo valor observado, cuál es el
máximo, cuál es la amplitud del recorrido de la variable o dónde está ubi-
cado el valor de la variable que ocupa la posición media.
Ejemplo 3-1: Se ha relevado información, utilizando una Encuesta a 200
hogares. Considerando como unidad estadística cada hogar, a continua-
ción se presentan los datos referidos a la variable X: número de hijos por
hogar. Utilizando 10 de los cuestionarios cumplimentados se obtienen los
siguientes datos: 0 – 3 – 4 – 2 – 0 – 1 – 3 – 5 – 2 – 3.
Para este conjunto de datos se interpreta: x1 = 0 hijos, es decir
que en el primer hogar considerado no se registraron hijos. Mientras que
x2 = 3 hijos, significa que en el segundo hogar considerado se registraron
tres hijos. Se observa para estas 10 (n) unidades estadísticas que el me-
nor número de hijos registrado fue 0 y el mayor fue 5. Otra forma de tra-
bajar la serie es re-ordenando de menor a mayor los datos: 0 – 0 – 1 – 2
–2–3–3–3–4–5
Distribuciones de frecuencias
Si la cantidad n de observaciones es muy grande, se hace necesa-
rio organizar los datos construyendo tablas de frecuencia. La construcción
de dichas tablas, depende del tipo y campo de variación de la variable.
En general, si la variable es discreta y su recorrido es reducido, se
procede a construir la tabla colocando de menor a mayor los valores dis-
tintos que asume la variable.
Si la variable es continua, resultado de una medición es necesario
agrupar los valores observados en intervalos o clases para construir la ta-

51
III. Organización de la Información

bla de frecuencias. Este procedimiento puede aplicarse también a varia-


bles discretas cuando su recorrido es extenso.
Frente a estas dos situaciones se construyen, respectivamente, dos
tipos de tablas de frecuencia una para datos sin agrupar y otra para datos
agrupados. En ambos casos se procede a un ordenamiento de los datos
por magnitud, generalmente ascendente.
Datos no agrupados
Sea la variable en estudio X discreta, observada para n unidades
estadísticas, se dispone de un volumen importante de datos presentados
en forma de matriz o simplemente en forma consecutiva.
Se organizan los datos recopilados en una tabla según se puntuali-
za a continuación:
a- En la matriz de datos se identifican el menor y el mayor valor observa-
do de la variable.
b- En la primer columna, identificada como xi, se ordenan de menor a
mayor los m valores distintos observados, sin repetir ninguno.
c- En la segunda columna, identificada como fi, se registran las frecuen-
cias absolutas simple, realizando el conteo en forma manual o electrónica.
d- En las columnas sucesivas se computan los valores correspondientes a
los distintos tipos de frecuencias.
Siguiendo este procedimiento se construye una tabla, que genéri-
camente se puede presentar e interpretar de la siguiente forma:
xi fi x1 indica el menor valor recopilado de la variable
x1 f1 xm indica el mayor valor recopilado de la variable
. . m indica la cantidad de valores distintos observados
. . f1 indica la cantidad de veces que se observó el menor va-
xi fi lor de la variable x1
. . fm indica la cantidad de veces que se observó el mayor va-
. . lor de la variable xm
xm fm

La tabla elaborada se completa con columnas sucesivas que co-


rresponden a diversos tipos de frecuencias, útiles al momento de realizar
la descripción de los datos recopilados y analizar el comportamiento de la
variable en estudio.
Estas se definen, se presentan simbólica y conceptualmenten a
continuación:
fi es la frecuencia absoluta simple correspondiente al i-ésimo valor de
la variable X, se define e interpreta como la cantidad de veces (unidades
estadísticas) que se observó el valor xi..
Verifica la propiedad que la sumatoria de todas frecuencias absolu-
tas simples debe ser igual al total de las observaciones, simbólicamente:
m

∑f
i =1
i = f1 + … + fi + … + f n = n , y la propiedad : 0 ≤ fi ≤ n.

52
III. Organización de la Información

Fi es la frecuencia absoluta acumulada hasta el i-ésimo valor de la va-


riable X, se define e interpreta como la cantidad de veces (unidades esta-
dísticas) que se registraron valores de la variable menores o iguales a xi.
Se calcula para el i-ésimo valor de la variable como la suma acu-
mulada desde el primer valor de la frecuencia absoluta simple f1 hasta el
i
valor de fi. Fi = f1 + f2 + ... + fi = ∑f
j =1
j .

Verifica las propiedades : F1 = f1 y Fm = n ; y 0 ≤ Fi ≤ n.


En muchos casos resulta relevante disponer de información sobre
las frecuencias relativas simples y acumuladas, además de las absolutas,
fundamentalmente cuando se quiere analizar los valores observados com-
parativamente entre sí o con otras distribuciones de frecuencias. Es reco-
mendable hacerlo cuando se trabaja con muestras grandes. Estas fre-
cuencias se presentan a continuación:
hi es la frecuencia relativa simple correspondiente al i-ésimo valor de la
variable X, se define e interpreta como la proporción de veces que se ob-
servó el i-ésimo valor de la variable X.
Se calcula como el cociente entre la frecuencia absoluta simple fi y
f
la cantidad de observaciones n: hi = i ∀i=1,...,m.
n
m
Verifica las propiedades: ∑h
i =1
i = h1+ … + h n = 1; y 0 ≤ hi ≤ 1

Hi es la frecuencia relativa acumulada hasta el i-ésimo valor de la va-


riable X, se define e interpreta como la proporción de veces que se obser-
varon valores menores o iguales al i-ésimo valor de la variable X.
Se calcula para el i-ésimo valor de la variable como:
i i
F fj
Hi = h1 + ... + hi = ∑
j =1
h j o alternativamente Hi = i =
n j =1 n
∀i=1,...,m ∑
Verifica las propiedades: H1 = h1 , Hm = 1 ; y 0 ≤ Hi ≤ 1.
Para interpretar las frecuencias relativas, es conveniente expresar-
las en valores porcentuales. Estos se obtienen multiplicando por 100 las
frecuencias relativas correspondientes. En consecuencia resulta:
hi% es la frecuencia relativa porcentual simple correspondiente al i-
ésimo valor de la variable X, se define e interpreta como el porcentaje de
unidades estadísticas que presentaron el valor xi de la variable X.
Se calcula: hi% = hi . 100 ∀i=1,...,m.
m
Verifica las propiedades: ∑ h % = 100 ;
i =1
i y 0 ≤ hi% ≤ 100.

Hi% es la frecuencia relativa porcentual acumulada hasta el i-ésimo


valor de la variable X, se define e interpreta como el porcentaje de veces

53
III. Organización de la Información

que se observaron valores menores o iguales al i-ésimo valor de la varia-


ble X.
i
Se calcula: Hi% = Hi . 100 = ∑h %
j =1
j ∀i=1,...,m.

Verifica las propiedades: H1%=h1%, Hm%=100; y 0 ≤ Hi% ≤ 100.

Representación gráfica de las distribuciones de frecuencias para


datos no agrupados
Realizar un primer análisis descriptivo de un conjunto de datos es-
tadísticos con la lectura de las tablas de frecuencias resulta de gran utili-
dad, pero ésta descripción se puede complementar ventajosamente con
una representación gráfica de las distribuciones de frecuencias calculadas.
Para ello el Estadístico utiliza gráficos específicos.
En el caso de Datos no Agrupados y frecuencias simples, corres-
ponde un gráfico de bastones, que se presenta en el Gráfico 3-1, para su
construcción, utilizando un sistema de ejes de coordenadas ortogonales,
se procede del siguiente modo: en el eje de las abscisas se representan,
usando la escala adecuada, los valores posibles o recorrido observado de
la variable en estudio, identificando su nombre debajo del eje, y en el eje
de las ordenadas se indica la escala adecuada a los valores de frecuencias
simples observados, sean éstas absolutas o relativas.
Gráfico 3-1
Distribución de Frecuencias Simples
Gráfico de Bastones

En el caso de Datos no Agrupados y frecuencias acumuladas, co-


rresponde un gráfico escalonado como el que se presenta en el Gráfico 3-
2, se procede en forma análoga al anterior, salvo que en el eje de las or-
denadas la escala queda acotada por el extremo superior de los campos

54
III. Organización de la Información

de variación presentados oportunamente para éstas frecuencias acumula-


das, sean éstas absolutas o relativas.
Gráfico 3-2

Distribución de Frecuencias Acumuladas


Gráfico Escalonado

Ejemplo 3-2: Retomando el planteo del Ejemplo 3-1, se considera ahora


el total de los 200 hogares entrevistados (n) con el objeto de describir el
comportamiento de la misma variable cuantitativa discreta X: número de
hijos por hogar. Del conjunto de datos recopilados se observa que el me-
nor valor observado es xm = 0 hijos y el máximo xM = 6 hijos, consecuen-
temente el recorrido de la variable es de cero a seis, y el número de valo-
res distintos será m=7, procediendo según indicación puntualizada ante-
riormente, se construye y presenta la información organizada en la si-
guiente tabla de frecuencias:
Tabla 3-1

x fi hi hi % Fi Hi Hi %
x1 = 0 13 0,065 6,5 13 0,065 6,5
x2 = 1 24 0,120 12,0 37 0,185 18,5
x3 = 2 31 0,155 15,5 68 0,340 34
x4 = 3 46 0,230 23,0 114 0,570 57
x5 = 4 38 0,190 19,0 152 0,760 76
x6 = 5 29 0,145 14,5 181 0,905 90,5
x7 = 6 19 0,095 9,5 200 1,000 100
Total 200 1 100

La lectura e interpretación de la tabla se realiza según los concep-


tos anteriormente expuestos, así por ejemplo:

55
III. Organización de la Información

x1 = 0 hijos, es el menor número de hijos observado.


x7 = 6 hijos, es el mayor número de hijos observado.
f3 = 31 hogares, es la cantidad de hogares que tienen 2 hijos. Se com-
prueba que la suma de la columna correspondiente a las frecuencias abso-
lutas simples totaliza 200 hogares, que es el número (n) de encuestas
realizadas.
h6 = 0,145 es la proporción de hogares que tienen 5 hijos. Se comprueba
que la suma de las columnas correspondiente a las frecuencias relativas
simples totaliza uno.
h5% = 19% de los hogares entrevistados tienen 4 hijos, totalizando 100%
la suma de frecuencias relativas porcentuales.
F4 = 114 hogares presentan 3 o menos hijos.
F7 = 200 hogares presentan 6 o menos hijos, por ser esta la frecuencia
acumulada hasta el mayor valor observado de la variable, debe totalizar
los 200 casos considerados.
H5% = 76 hogares registran 4 o menos hijos. Se comprueba que el último
valor de la frecuencia relativa acumulada porcentual debe ser el 100%, en
el ejemplo H7% = 100%
Para la representación gráfica de las distribuciones de frecuencias
absolutas simples se construye el gráfico de bastones y el escalonado para
las acumuladas:

Distribución de hogares según número de hijos (n = 200)

Gráfico 3-3 - Bastones Gráfico 3-4 - Escalonado

56
III. Organización de la Información

Datos agrupados
En el caso que la variable en estudio X sea cuantitativa continua o
discreta con un campo de variación extenso, se trabaja con el recorrido de
la variable particionado en intervalos.
Hecha la recopilación para n unidades estadísticas, se dispone de
un volumen importante de datos presentados en forma de matriz o sim-
plemente en forma consecutiva. En este caso para describir adecuada-
mente el comportamiento de la variable en estudio resulta de gran utili-
dad agrupar los datos en intervalos o clases, generando luego la tabla de
frecuencias en forma similar a la anterior. Lógicamente que al agrupar los
datos se pierde precisión, pero las ventajas descriptivas son substanciales.
Respecto al número de clases o intervalos a utilizar para obtener la distri-
bución de frecuencias, no existe una regla rigurosa. Es importante recor-
dar que si el número de intervalos es demasiado grande, muchos de ellos
presentarán valores muy chicos de frecuencias o ningún caso incluido en
ellos. Además la distribución de frecuencias se puede presentar con dema-
siadas irregularidades, no permitiendo una descripción en detalle del com-
portamiento de la variable estudiada.
Tampoco es conveniente que el número de intervalos sea muy re-
ducido, en este caso se acumularán tantos casos en un mismo intervalo
que hará que se pierda la individualidad del dato.
Cuanto mayor sea el número de observaciones y más regular sea la
distribución de frecuencias, más intervalos podrán usarse al organizar
agrupando, los datos.
Podría decirse, en general, que es poco usual trabajar con menos
de 6 u 8 intervalos y que más de 16 serán útiles sólo cuando se trabaje
con un gran número de observaciones. Fijado el número de intervalos y
considerando el recorrido observado para la variable en estudio, la ampli-
tud de los intervalos queda determinada. Al respecto se desarrolla el caso
de intervalos de igual amplitud.
Para cálculos posteriores se requiere considerar los valores medios
de cada intervalo; este valor se tomará como representativo del conjunto
de valores observados del intervalo. El punto medio se determina como
semi promedio entre el límite inferior y superior del intervalo. Es deseable
que el punto medio coincida con un valor posible de la variable.
Atendiendo las observaciones realizadas, y para obtener las distri-
buciones de frecuencias en el caso de datos agrupados, se organizan los
datos en una tabla según se detalla a continuación.
a- Se calcula el rango de los valores asumidos por la variable tomando el
máximo valor observado xM y el mínimo valor observado xm: R= xM - xm
b- Luego, se divide este recorrido en una cantidad de intervalos o clases
según el total de observaciones. Un número razonable de clases (m) está
dado por la raíz cuadrada del número de observaciones (n): m = n

57
III. Organización de la Información

c- Estos intervalos deben ser excluyentes y exhaustivos, de manera que


cualquier valor observado de la variable pertenece a uno y sólo un inter-
valo o clase. Por lo tanto, los intervalos deben ser semiabiertos, preferen-
temente cerrados a derecha. Simbólicamente: (xi-1'- xi'].
d- En la primera columna de la tabla, se coloca ordenadamente los inter-
valos resultantes. Para la definición de los intervalos se recomienda: que
el límite inferior del primer intervalo sea menor que el xm ,que el límite
superior del último sea mayor que el xM y que los límites sean tales que
al calcular el punto medio, éste resulte un valor posible de la variable X.
Los intervalos deben ser semicerrados para que no existan dudas sobre
donde ubicar aquellos valores observados que coinciden numéricamente
con algún extremo de intervalo, en general se construyen semicerrados a
la derecha.
e- En una segunda columna, identificada como xi se consignan los puntos
medios de cada intervalo
f- En la tercer columna, identificada como fi, se registran las frecuencias
absolutas simple.
g- En las columnas sucesivas se computan los valores correspondientes a
los distintos tipos de frecuencias.
Siguiendo este procedimiento se construye una tabla, que genéri-
camente se puede presentar e interpretar de la siguiente forma:

x0' indica el límite inferior del primer intervalo.


Intervalos xi fi
xm' indica el límite superior del último intervalo.
m indica la cantidad de intervalos.
(x0'- x1'] x1 f1 x1 indica el punto medio del primer intervalo.
xi indica el punto medio del i-ésimo intervalo.
. . . xm indica el punto medio del último intervalo.
(xi-1'- xi'] xi fi f1 frecuencia absoluta simple del primer intervalo
. . . (x0'- x1'].
(xm-1'-xm'] xm fm fm frecuencia absoluta simple del último intervalo
(xm-1'-xm'].

La tabla presentada se completa con columnas sucesivas que co-


rresponden a diversos tipos de frecuencias, útiles al momento de realizar
alguna descripción de los datos. Estas se presentan simbólicamente y se
definen a continuación.
fi es la frecuencia absoluta simple correspondiente al i-ésimo intervalo
o clase (xi-1' - xi'] de la variable X, se define e interpreta como la cantidad
de veces (unidades estadísticas) que se observó un valor de X que se en-
cuentra incluido en el intervalo (xi-1' - xi'].
n
Verifica las propiedades: ∑f = f
i =1
i 1 +…+ f n = n; y 0 ≤ fi ≤ n.

58
III. Organización de la Información

Fi es la frecuencia absoluta acumulada hasta el límite superior xi', del


i-ésimo intervalo, se define e interpreta como la cantidad de veces que se
observaron valores menores o iguales a xi', extremo superior del i-ésimo
intervalo semicerrado a la derecha.
Se calcula para el i-ésimo intervalo de la variable como la suma
acumulada desde el primer valor de la frecuencia absoluta simple f1 hasta
i
el valor fi : Fi = f1 +... + fi = ∑f
j =1
j .

Verifica las propiedades: F1 = f1 y Fm = n ; y 0 ≤ Fi ≤ n.


En muchos casos resulta relevante tener información sobre las fre-
cuencias relativas simples y acumuladas, además de las absolutas, y para
una mejor interpretación se las calcula en forma porcentual. Estos cálculos
e interpretaciones se realizan en forma similar que para el caso de datos
no agrupados, según se detalla a continuación.
hi es la frecuencia relativa simple correspondiente al i-ésimo intervalo
de la variable X, se define e interpreta como la proporción de veces que
se observaron valores de la variable comprendidos en el i-ésimo intervalo
(xi-1' - xi'] de la variable X.
Se calcula como el cociente entre la frecuencia absoluta simple fi y
f
la cantidad de observaciones n: hi = i ∀i=1,...,m.
n
m
Verifica las propiedades: ∑ h=h
i=1
i 1 + .. + h n = 1; y 0 ≤ hi ≤ 1.

Hi es la frecuencia relativa acumulada hasta el límite superior xi', del i-


ésimo intervalo, se define e interpreta como la proporción de veces que se
observaron valores menores o iguales a xi', extremo superior del i-ésimo
intervalo semicerrado a la derecha.
Se calcula para el i-ésimo intervalo de la variable como:
i i
F fj
Hi= h1+ ... + hi = ∑
j =1
h j , o alternativamente Hi = i =
n j =1
n ∑
∀i=1,...,m.

Verifica las propiedades: H1 = h1 , H m = 1; y 0 ≤ H i ≤ 1.


En este caso al igual que para datos no agrupados se logra una
mejor interpretación de las frecuencias relativas expresándolas en porcen-
taje. Estas se obtienen multiplicando por 100 las frecuencias relativas
correspondientes:
hi % es la frecuencia relativa porcentual simple correspondiente al i-
ésimo intervalo.
Se calcula para el i-ésimo intervalo: hi% = hi . 100, ∀ i = 1 ...
m.
Hi % es la frecuencia relativa porcentual acumulada correspondiente
al i-ésimo intervalo.

59
III. Organización de la Información

i
Se calcula: Hi% = Hi . 100 = ∑h %
j =1
j ∀i=1,...,m.

Las propiedades de estas frecuencias son las mismas que las enun-
ciadas para datos no agrupados.

Representación gráfica de las distribuciones de frecuencias para


datos agrupados
Para la representación gráfica de las distribuciones de frecuencias
obtenidas agrupando los datos según intervalos establecidos, se procede
en forma similar al procedimiento explicado para datos no agrupados, ge-
nerando nuevamente dos gráficos: el Histograma para las frecuencias
absolutas o relativas, simples y la Ojiva para las acumuladas.
El histograma, Gráfico 3-5, se construye utilizando rectángulos
consecutivos, cuyas bases corresponden a los intervalos, todos de igual
amplitud, y cuyas alturas están determinadas por el valor de las frecuen-
cias cuya representación se desea, todo ello en relación con la escala utili-
zada en los ejes de las abscisas y ordenadas respectivamente. Un histo-
grama se completa con el trazado de una línea quebrada y cerrada que
recibe el nombre de Polígono de Frecuencias.
Gráfico 3-5

Distribución de Frecuencias Simples


Histograma - Polígono de Frecuencias

Para la construcción de la poligonal se debe partir del punto co-


rrespondiente a la semi amplitud del intervalo anterior al límite inferior del
primer intervalo, dicho punto se une, a través de segmentos consecutivos,
a los puntos medios de los lados opuestos a las bases de los rectángulos;

60
III. Organización de la Información

finalizando en el punto definido por la semi amplitud siguiente al límite


superior del último intervalo.
En este gráfico para datos agrupados, el área del histograma es la
misma que el área limitada por el polígono de frecuencia y el eje de las
abscisas, resultando ambas equivalentes al total de casos observados. Así
resulta que para las absolutas simples se obtiene un área equivalente a n,
para las relativas simples un área equivalente a 1, y para las porcentuales
el área es equivalente al 100% de los datos.
En el Gráfico 3-5 se presentan los triángulos sombreados para
mostrar como se compensan las áreas entre el polígono y el histograma.
En el caso que los intervalos sean de distinta amplitud, las alturas
de los rectángulos componentes del histograma serán calculadas para
conservar las propiedades antes mencionadas.
En el Gráfico 3-6, se presenta la ojiva correspondiente a una dis-
tribución de frecuencias acumuladas.
Gráfico 3-6

Distribución de Frecuencias Acumuladas


Ojiva

En el eje de las abscisas se indican a escala los intervalos corres-


pondientes a la variable estudiada, en el eje de las ordenadas se trabaja
con las escalas según corresponda al tipo de frecuencia acumulada (abso-
luta, relativa o relativa porcentual.
En el caso de la distribución de frecuencias absolutas acumuladas,
la ojiva es una línea quebrada que se traza comenzando sobre el eje de
las abscisas hasta el límite inferior del primer intervalo, luego se continúa
con un segmento que une el punto (x0', 0) con el punto (x1', F1), y así si-
guiendo se llegará al último intervalo a quien le corresponde un segmento

61
III. Organización de la Información

que une el punto (xm-1', Fn-1 ) con el punto (xm' , Fn ), a partir del límite
superior del último intervalo el gráfico se continúa con una línea paralela
al eje X que se corresponde al valor Fn = n de la escala de las ordenadas.
Para las frecuencias relativas acumuladas se obtiene exactamente
el mismo diagrama, solo que para su lectura se debe utilizar la escala
adecuada, como se indica en el gráfico presentado.
Ejemplo 3-3: Retomando el planteo del ejemplo 3-1, se consideran ahora
a todos los hogares entrevistados, n=200, con el objeto de describir la va-
riable cuantitativa continua X: ingreso per cápita en pesos por hogar. Del
conjunto de datos recopilados se observa que el menor valor observado es
xm = 253 pesos y el máximo xM = 640 pesos, consecuentemente el rango
calculado para esta variable es R = 640 – 253 = 387 y el número de in-
tervalos razonable según la cantidad de datos sería: m = n , en este caso
200 = 14,14. Al dividir el rango por el número de intervalos se obtiene
como amplitud de intervalo 27,3; cifra que se redondea por una cuestión
práctica a h = 25. Resultando el número de intervalos m=7. Siguiendo el
procedimiento indicado anteriormente se presenta la información organi-
zada en la siguiente tabla de frecuencias:
Tabla 3-2

Intervalos i xi fi hi h i% Fi Hi Hi%
(250 – 280] 1 265 24 0,12 12,0 24 0,12 12
(280 – 310] 2 295 41 0,21 20,5 65 0,33 32,5
(310 – 340] 3 325 36 0,18 18,0 101 0,51 50,5
(340 – 370] 4 355 26 0,13 13,0 127 0,64 63,5
(370 – 400] 5 385 20 0,10 10,0 147 0,74 73,5
(400 – 430] 6 415 12 0,06 6,0 159 0,80 79,5
(430 – 460] 7 445 12 0,06 6,0 171 0,86 85,5
(460 – 490] 8 475 10 0,05 5,0 181 0,91 90,5
(490 – 520] 9 505 8 0,04 4,0 189 0,95 94,5
(520 – 550] 10 535 5 0,03 2,5 194 0,97 97
(550 – 580] 11 565 3 0,02 1,5 197 0,99 98,5
(580 – 610] 12 595 2 0,01 1,0 199 1,00 99,5
(610 - 640] 13 625 1 0,01 0,5 200 1,00 100
Total 200 1,00 100,0

Para facilitar la lectura e interpretación de la tabla se agrega una


columna con los valores correspondientes al subíndice i.
Según los conceptos y definiciones ya expuestos, se interpreta por
ejemplo:

62
III. Organización de la Información

(x'4-x'5]= (370-400] es el quinto intervalo correspondiente a montos de


ingresos per cápita por hogar de más de $370 y como máximo $400.
f3 = 36 hogares tiene un ingreso per cápita en el hogar que varía entre
más de $310 y hasta $340. Se comprueba que la suma de la columna co-
rrespondiente a las frecuencias absolutas simples totaliza 200 hogares,
que es el número n de encuestas realizadas. Su representación gráfica se
puede observar en el Gráfico 3-7.
h8 = 0,05 es la proporción de hogares que tienen ingresos per cápita que
oscilan entre $460 y $490 inclusive.
h5% = 10 % de los hogares entrevistados tiene un ingreso per cápita en-
tre $370 y como máximo $400 pesos.
Se comprueba que las sumas de las columnas correspondientes a
las frecuencias relativas, totalizan: uno para las simples y 100% para las
porcentuales.
F5 = 147 hogares presentan un ingreso máximo per cápita de $400.
Se verifica que por ser F13 la frecuencia acumulada hasta el mayor
valor observado de la variable, este valor totaliza los 200 casos conside-
rados.
H8% = 90,5% de los hogares registran un ingreso menor o igual a $490.
Cifra representada en el Gráfico 3-8.
Para la representación gráfica de las distribuciones de frecuencias
absolutas, relativas y relativas porcentuales, de estos datos empíricos
agrupados utilizando intervalos, se construye el Histograma y Polígono de
Frecuencias para las frecuencias simples, y la Ojiva para las frecuencias
acumuladas.

Distribución de hogares según Ingreso per-cápita (n=200)

Gráfico 3-7. Gráfico 3-8


Histograma y Polígono de Fre- Ojiva
cuencias

63
III. Organización de la Información

Casos típicos de distribuciones de Frecuencias


El valor que asumen las frecuencias empíricas, corresponde al nú-
mero de casos en que se presenta determinado valor de la variable estu-
diada, en consecuencia depende directamente del recorrido o valores que
asume la variable. Es por ello que se pueden identificar algunos casos típi-
cos de las formas en que se pueden distribuir las frecuencias a lo largo del
recorrido de la variable considerada. Se presentan a continuación algunos
ejemplos, para los cuales sólo se traza el polígono de frecuencias.

a) Se registra la altura en cm. para un grupo


de estudiantes mujeres entre 18 y 20 años.
Teniendo en cuenta que serán pocos los ca-
sos de muy baja o muy alta estatura, con-
centrándose la mayoría alrededor de un va-
lor central de la variable, se puede decir que
la distribución de las mujeres según altura
será de forma simétrica y acampanada.

b) La distribución de la población económi-


camente activa según ingreso percibido, es
un claro ejemplo de distribución de frecuen-
cias de forma acampanada pero con asime-
tría a la derecha, concluyendo que con al-
tos ingresos se presentan pocos casos, con-
centrándose la población en los valores de
ingresos bajos o medios.

c) El promedio de clasificaciones obtenidas


en pruebas parciales, un curso avanzado de
matemática numeroso, puede originar una
distribución de alumnos según nota prome-
dio que muestre una asimetría a la iz-
quierda. Es el caso en que la concentración
de las unidades estadísticas se presenta para
valores de la variable altos y medios, siendo
muy pocos los casos que corresponde a valo-
res pequeños de la variable estudiada.

64
III. Organización de la Información

d) Una distribución uniforme es la que re-


sulta cuando ningún valor o intervalo de la
variable se destaca del resto, al momento de
considerar cuantas veces se presentó entre
las unidades estadísticas. Un ejemplo podría
ser la altura de los árboles de una plantación
de álamos al cabo de cinco años.

e) Si se considera el porcentaje de personas


en edad activa y desocupadas durante un
período determinado, es probable que se ob-
tenga una distribución por grupos de edad
en forma de U. Esta situación se describe
como un gran número de casos para los va-
lores extremos de la variable y frecuencias
mucho menor en los valores centrales.

f) Una distribución en forma de Jota inver-


tida podría obtenerse como resultado de re-
gistrar el número de vehículos automotor
según tiempo de estacionamiento en una co-
chera ubicada en la zona comercial de una
ciudad. Es el caso en que se produce una
muy importante concentración para valores
pequeños de la variable y rápidamente de-
crece el número de casos a medida que la
variable asume mayores valores.

g) En forma de Jota es la distribución para


una variable que presenta muy pocos casos
al iniciarse su recorrido, creciendo rápida-
mente el número de casos para valores ma-
yores de la variable. Por ejemplo sería la si-
tuación de la distribución del número de bac-
terias por día por cm3 en un ensayo químico,
durante una semana.

65
III. Organización de la Información

Al formalizar un análisis descriptivo de estas distribuciones, cada


caso presentará particularidades, que se estará en condiciones de anali-
zar, al finalizar la comprensión de los conceptos desarrollados en capítulos
siguientes.

3. Variables Bidimensionales
En el campo de la Estadística experimental es frecuente que varias
características sean observadas simultáneamente para un mismo conjunto
de unidades estadísticas. Por ejemplo, en una encuesta de opinión la per-
sona encuestada responde a varias preguntas realizadas en el mismo
momento; en una misma muestra de sangre se controlan al mismo tiem-
po varias variables hematológicas: cantidades de glóbulos, tasas de coles-
terol, nivel de glucosa. Las situaciones planteadas corresponden a estu-
dios multidimensionales.
En el caso particular que a cada unidad estadística se le observe o
mida, simultáneamente dos características, se obtienen datos correspon-
dientes a una variable bidimensional cuyas componentes pueden ser va-
riables cuantitativas, cualitativas u ordinales.
Como ejemplos sencillos se pueden mencionar los siguientes casos:

Ejemplo 3-4: Si la u.e es la vivienda familiar respecto de las cuales in-


teresa disponer información conjunta sobre las siguientes características
X: número de cuartos e Y: metros cubiertos de cada una de ellas. Las
primeras cinco observaciones bidimensionales podrían ser:

Vivien- X: nº de Y: m2
da cuartos cubier-
núme- tos Por tratarse de observaciones bidimensio-
ro nales los datos se consideran como par or-
1 3 82 denado, constituyendo una serie simple de
2 5 120
n = 5 observaciones: (3, 82); (5, 120); (2,
60); (3, 95);(1, 70) ; las componentes son
3 2 60
variables cuantitativas la primera discreta y
4 3 95 la segunda continua.
5 1 70

Ejemplo 3-5: En un trabajo de investigación académica se registra para


cada alumno de un curso de nivel medio, el grado de instrucción alcanza-
do por sus padres o tutores. El nivel alcanzado por el padre es la variable
X y el nivel alcanzado por la madre es la variable Y; las observaciones ob-
tenidas para los primeros cuatro alumnos se consignan en la siguiente ta-
bla:

66
III. Organización de la Información

Alumno X: Instrucción padre Y: Instrucción madre


1 primaria completa secundario incompleto
2 terciario completo secundario completo
3 universitario completo universitario completo
4 universitario incompleto primario completo

Este es un ejemplo de variable bidimensional compuesta por dos


variables cualitativas.
Ejemplo 3-6: Se evalúan cinco postulantes a un cargo vacante en una
empresa. Dos evaluadores después de una serie de entrevistas dan cada
uno de ellos un ordenamiento de los candidatos en un orden decreciente
de mérito.
Los siguientes son los ordenamientos bidimensionales como resul-
tados de las clasificaciones: (2; 1), (3; 2), (1; 3), (4; 5), (5, 4). El valor
de X corresponde al orden dado por el primer evaluador y el valor de la
variable Y corresponde al orden dado por el segundo evaluador. Esta va-
riable bidimensional está compuesta por dos características de orden.
En las investigaciones aplicadas cuando es de interés o resulta ne-
cesario trabajar con datos de esta naturaleza, se recurre a la Estadística
ya que ofrece distintos métodos y técnicas según se trate de variables
cuantitativas, cualitativas u ordinales. Con el fin de ofrecer métodos senci-
llos para el análisis de estas variables bidimensionales se desarrollará en
el capítulo siguiente algunas de las técnicas que permiten describir e in-
terpretar resultados empíricos.
A continuación se presenta la organización de datos bidimensiona-
les.

3.1. Variables Cuantitativas Bidimensionales


Serie simple de datos
Utilizando el mismo concepto anterior, una serie simple de datos es
aquél conjunto referido a un número reducido de unidades estadísticas.
Si para cada unidad estadística se registran simultáneamente dos
características cuantitativas: X e Y, se generan datos de una variable bi-
dimensional: (X,Y).
Las n observaciones, simbólicamente se presentan como una serie
de n pares ordenados:(x1, y1);…;(xi, yi);... ;(xn, yn); interpretando por
ejemplo:(x1,y1) representa el primer valor observado de la variable bidi-
mensional (X,Y), que corresponde a la primera unidad estadística; (xi ,yi)
representa el i-ésimo valor observado de la variable; siendo (xn ,yn) el úl-
timo o el n-ésimo valor observado de la variable (X,Y). Como siempre el
subíndice i indica el orden en que se registraron los datos. La cantidad to-
tal de observaciones, en este caso es un número n pequeño.
Las observaciones bivariadas se representan como un conjunto de
puntos en el plano de coordenadas, considerando que cada observación es

67
III. Organización de la Información

un par ordenado con componentes X e Y. Naturalmente el total de puntos


concuerda con el número total de unidades estadísticas estudiadas.
La gráfica obtenida se denomina nube de puntos o diagrama de
dispersión, las formas que puede presentar son diversas: creciente, de-
creciente, ajustándose a un comportamiento lineal (Gráfico 3-7.a) o no
lineal (Gráfico 3-7.b), el análisis de estos comportamientos conjuntos y
el grado de concentración de las observaciones, serán estudiadas en capí-
tulos subsiguientes.
Diagrama de dispersión

Gráfico 3-7.a: Gráfico 3-7.b:

Ejemplo 3-7: En un control médico se seleccionan 10 alumnos a los que


se les mide, simultáneamente, su altura en cm y su peso en kg, obtenien-
do los siguientes resultados: (154, 53) – ( 169, 68) – (160, 72) – (172 –
81) – (166-65) - (174 78) – (170 73) – (162, 60) – (171, 72) – (170,
77). Estos registros se disponen en el orden que fueron obtenidos en la
Tabla 3-3 y las diez observaciones bidimensionales son presentadas en el
diagrama de dispersión correspondiente.

Tabla 3-3 Alumnos según altura y peso


Orden i xi yi (n=100)
1 154 53
2 169 68
3 160 72
4 172 81
5 166 65
6 174 78
7 170 73
8 162 60
9 171 72
10 170 77

68
III. Organización de la Información

Observando el diagrama de dispersión se puede intuir que subyace


una relación lineal y directa entre peso y talla.
Distribuciones de frecuencias
Si la cantidad de observaciones que se realiza es muy grande, se
hace necesario organizar los datos construyendo tablas de frecuencias bi-
dimensionales. Las distribuciones de frecuencias para una variable cuanti-
tativa bidimensional (X,Y), se elaboran teniendo en cuenta las mismas
consideraciones y conceptos expresados en el caso de variable unidimen-
sional.
La organización de los datos se realiza en una tabla de doble en-
trada, colocando en la primer columna y primer fila, en orden creciente,
los valores distintos observados para las componentes X e Y, respectiva-
mente. Análogamente al tratamiento para variable unidimensional, de-
pendiendo de la naturaleza de las variables se originan tablas para datos
no agrupados, generalmente, variables discretas) y tablas para datos
agrupados en intervalo o clase, generalmente para variables continuas.
Datos no agrupados
Recopilada la información correspondiente a una variable bidimen-
sional con ambas componentes cuantitativas discretas, se procede a su
organización en una tabla de doble entrada. El procedimiento de cómputo
es: para cada una de las componentes se identifica el menor y mayor va-
lor observado. Luego en la primera columna se ubica los valores observa-
dos de la componente X sin repetir y en forma ascendente, análogamente
se procede con los valores de la componente Y que se ubican en la prime-
ra fila.
En las celdas interiores se computan las frecuencias conjuntas ab-
solutas simples y adicionando una columna y una fila se registran las fre-
cuencias marginales correspondientes. Resultando la siguiente tabla de
frecuencias conjuntas:.

X
y1 … yi … yp fi•
Y
x1 f11 … f1j … f1p f1•
… … … … … … …
xi fi1 … fij … fip fi•
… … … … … … …
xm fm1 … fmi … fmp fm•
f•j … f•i … f•p N
Interpretando como:
x1 indica el menor valor que asume la componente X
xm indica el mayor valor que asume la componente X
m indica la cantidad de valores distintos observados de la componente X

69
III. Organización de la Información

y1 indica el menor valor que asume la componente Y


yp indica el mayor valor que asume la componente Y
p indica la cantidad de valores distintos observados de la componente Y
Para realizar una lectura descriptiva de la información disponible se
definen y explican los conceptos de:
fij es la frecuencia conjunta absoluta simple correspondiente a la i-
ésima y j-ésima celda. Se define e interpreta como la cantidad de veces
(casos o unidades estadísticas) que se observó el valor xi de la componen-
te X conjuntamente con el valor yj de la componente Y.
Así por ejemplo: f12 indica la cantidad de veces que se observó el
par (x1 ,y2); fmp indica la cantidad de veces que se observó el par (xm ,yp)
fij indica la cantidad de veces que se observó el par ( xi , yj ), i = 1, ., m, j
= 1, .. ,p
m p
n indica la cantidad total de observaciones n= ∑∑f
i =1 j =1
ij

Por su gran utilidad, se definen también las frecuencias margina-


les que indican la cantidad de veces que se observó un valor de una va-
riable sin interesar cuál es el valor que asume la otra, simbólicamente:
fi•• indica la frecuencia marginal del valor xi de la variable X
f•j indica la frecuencia marginal del valor yj de la variable Y
f1•• indica la cantidad de veces que se observó el menor valor de X: x1
fm•• indica la cantidad de veces que se observó el mayor valor de X: xm
f•1 indica la cantidad de veces que se observó el menor valor de Y: y1
f•p indica la cantidad de veces que se observó el mayor valor de Y: yp
En general:
fi•• es la frecuencia absoluta simple del i-ésimo valor de la componente X.
Se define e interpreta como la cantidad de veces que se observó el valor
xi. Se calculan realizando las sumas de las frecuencias conjuntas por filas:
p
fi • = ∑f
j =1
ij i = 1,…, m; a su vez con la suma de estas frecuencias margi-

m
nales se obtiene el total de observaciones: n = ∑f
i =1
i•

f•j es la frecuencia absoluta simple del j-ésimo valor de la componente Y.


Se define e interpreta como la cantidad de veces que se observó el valor
yj. Se calculan realizando las sumas de las frecuencias conjuntas por co-
m
lumnas: f• j = ∑f
i =1
ij j = 1,…, p; a su vez con la suma de estas frecuen-

p
cias marginales se obtiene el total de observaciones: n = ∑f
j =1
•j

70
III. Organización de la Información

Debe advertirse que a partir de una distribución de frecuencias


conjuntas para variable bidimensional, se puede obtener dos distribucio-
nes de frecuencias unidimensionales, sin embargo si se dispone exclusi-
vamente de dos distribuciones marginales no podrá deducirse la distribu-
ción conjunta.
Si es necesario a los fines descriptivos, se pueden calcular las res-
tantes frecuencias presentadas tales como las frecuencias acumuladas, re-
lativas y porcentuales.
Representación gráfica-Datos no agrupados
Por tratarse de una variable bidimensional para lograr una repre-
sentación gráfica de las distribuciones de frecuencias, se requiere trabajar
en el espacio tridimensional, obteniendo un diagrama como el que se
muestra en el Gráfico 3-9.
Para su construcción, utilizando la información de la tabla de fre-
cuencias presentada anteriormente, se procede de la siguiente manera:
en el plano XY se representa a escala, el recorrido de la variable bidimen-
sional (primera fila y primera columna de la tabla), geométricamente
queda determinado un producto cartesiano discreto sobre el que se traza-
rán los bastones correspondientes a cada par de valores. Estos bastones
tendrán una altura equivalente, según escala, a la frecuencia conjunta ab-
soluta, ubicada en el tercer eje de ordenadas.
Gráfico 3-9

Distribución de frecuencias conjuntas


Variables cuantitativas discretas

La representación de las frecuencias absolutas marginales se puede


realizar sobre los planos X,fij e Y,fij, según corresponda, originando dos
gráficos de bastones como los presentados para variables unidimensiona-
les.

71
III. Organización de la Información

Ejemplo 3-8: En un estudio socio demográfico referido a mujeres casa-


das que tienen entre 22 y 27 años cumplidos, se registró para cada una
de ellas su edad y el número de hijos. Al considerar estas dos característi-
cas conjuntamente se elabora una tabla bidimensional de los datos obte-
nidos.
Total de observaciones realizadas: n = 75
Unidad Estadística: cada mujer encuestada.
Variable bidimensional (X,Y) , considerando : números de hijos (X) y edad
(Y).
Tabla 3-4

Y
22 23 24 25 26 27 fi.
X
0 4 3 2 1 1 0 11
1 2 5 3 4 4 5 23
2 2 2 3 1 2 1 11
3 0 1 1 3 6 8 19
4 0 3 2 1 3 2 11
f.j 8 14 11 10 16 16 75

Procesados los datos se realiza la siguiente lectura:


f22=5 mujeres tienen un hijo y registran una edad de 23 años.
f45=6 mujeres tienen 3 hijos y registran una edad de 26 años.
Si se observa sólo la variable números de hijos (X) y sus corres-
pondientes frecuencias marginales se lee:
f2••= 23 mujeres registran un solo un hijo, siendo este el número de hijos
más frecuente. A la vez se puede deducir que este guarismo es el 31%
(h2••%) del total de casos.
Para la variable edad se puede observar que las edades de 26 y 27
años fueron las más frecuentes, esto se constata por los valores asumidos
de: f•5 = 16 mujeres y f•6 = 16 mujeres, respectivamente.
Datos agrupados
Al organizar datos correspondientes a una variable bidimensional
(X,Y), contando con un número de observaciones suficientemente grande
y siendo ambas componentes cuantitativas continuas, se debe dividir el
recorrido de cada componente en cierto número de intervalos, siguiendo
el criterio presentado para variables unidimensionales.
Decidido el número y amplitud de los intervalos se coloca en la
primer columna los correspondientes a X y como encabezado de columnas
los correspondientes a Y.
Realizado el cómputo del número de casos propios de cada casillero
según lo indique la clasificación cruzada, y calculando los totales por filas

72
III. Organización de la Información

y columnas, se genera una tabla de frecuencias conjuntas, que genérica-


mente se puede presentar según el siguiente esquema:

Y
(y0'-y1'] … (yj-1'-yj'] … (yp-1'-yp'] fi•
X

(x0'–x1'] f11 … f1j … f1p f1•

… … … … … … …

(xi-1'-xi'] fi1 … fij … fip fi•

… … … … … … …

(xm-1'-xm'] fm1 … fmi … fmp fm•

f•j f•1 … f•i … f•p n

La simbología utilizada se detalla a continuación:


x0' límite inferior del primer intervalo de la componente X.
xm' límite superior del último intervalo de la componente X.
m cantidad de intervalos de la componente X.
y0' límite inferior del primer intervalo de la componente Y.
yp' límite superior del último intervalo de la componente Y.
p cantidad de intervalos de la componente Y.
fij es la frecuencia conjunta absoluta simple, correspondiente al i-
ésimo intervalo de X conjuntamente con el j-ésimo intervalo de Y, para
i=1,...,m y j=1,...,p; se define e interpreta como la cantidad de observa-
ciones para las cuales la componente X asumió un valor dentro del i-ésimo
intervalo: (xi-1'-xi'] y simultáneamente la componente Y asumió un valor
dentro del j-ésimo intervalo (yj-1'-yj']. Así, por ejemplo, f12 indica la can-
tidad de observaciones en las cuales el valor de la variable X se encuen-
tra comprendido en el intervalo (x0'–x1'] y a la vez el valor de la variable
Y se encuentra en el intervalo (y1'-y2'].
fmp indica la cantidad de observaciones en las cuales X asume valores
dentro del intervalo (xm-1'-xm']y a la vez Y asume valores en el intervalo
( yp-1' - yp' ]. La frecuencia conjunta absoluta simple verifica la siguiente
m p
propiedad: n= ∑∑ f
i=1 j=1
ij

Por su gran utilidad, se definen también las frecuencias margina-


les fi•• y f•j, que indican la cantidad de veces que se observó un valor de
una componente dentro de un intervalo, sin interesar cual es el valor que
asume la otra. Así, por ejemplo, f1•• indica la cantidad de veces que X

73
III. Organización de la Información

asume un valor dentro del intervalo (x0'–x1'], sin tener en cuenta los valo-
res de Y.
fm•• indica la cantidad de veces que X asume un valor dentro del intervalo
(xm-1'-xm']sin tener en cuenta los valores de Y.
f•1 indica la cantidad de veces que Y asume un valor dentro del intervalo
(y0'-y1']. sin tener en cuenta los valores de X.
f•p indica la cantidad de veces que Y asume un valor dentro del intervalo
( yp-1' - yp'] sin tener en cuenta los valores de X.
En general:
fi•• representa la frecuencia marginal absoluta simple del i-ésimo intervalo
de la componente X, indica la cantidad de veces que la variable X asume
un valor dentro del i-ésimo intervalo (xi-1'-xi'] y se calcula :
p m
fi • = ∑
j =1
fij ∀i=1,...,m n= ∑f
i =1
i•

f•j representa la frecuencia marginal absoluta simple del j-ésimo intervalo


de la componente Y, indica la cantidad de veces que la variable Y asume
un valor dentro del j-ésimo intervalo (yj-1'-yj'] y se calcula :.
m p
f• j = ∑
i =1
fij ∀j=1,...,p n= ∑f
j =1
•j

Representación gráfica- Datos agrupados - Estereograma


La representación gráfica de una distribución de frecuencias con-
juntas para datos agrupados, correspondiente a una variable bidimensio-
nal (X,Y) se llama estereograma, y se traza en un sistema de ejes coorde-
nados tridimensionales.
Utilizando la información de la última tabla de frecuencias presen-
tada se procede de la siguiente manera: en los ejes X e Y se representa, a
escala, el recorrido de la variable bidimensional expresada ésta en inter-
valos (primera fila y primera columna de la tabla), geométricamente que-
da determinado un producto cartesiano continuo, que genera intervalos en
R2 sobre los que se asentarán los (m* p) paralelepípedos cuya altura será
equivalente a la frecuencia conjunta absoluta correspondiente, según es-
cala ubicada en el tercer eje de ordenadas.
De este modo, al ser los intervalos en R2 rectángulos de igual ta-
maño, resulta que el volumen de cada paralelepípedo es proporcional a la
frecuencia conjunta que le corresponde al intervalo de X conjuntamente
con el intervalo de Y, resultando el volumen total del estereograma repre-
sentativo del total n de observaciones.

74
III. Organización de la Información

Gráfico 3-10
Distribución de frecuencias conjuntas
Variables cuantitativas continuas

fij

La representación de las frecuencias absolutas marginales se puede


realizar sobre el plano X,fij e Y,fij, según corresponda, originando dos his-
togramas como los presentados para variables unidimensionales.
Ejemplo 3-9: Para un grupo de 40 estudiantes cuyos padres registran ac-
tividad laboral, se recopiló información relativa al ingreso en cientos de
pesos, de cada uno de ellos: Ingreso del padre X, ingreso de la madre Y,
organizados los datos en una tabla de doble entrada se obtienen los si-
guientes resultados:

Y
5-7 7-9 9-11 11-15 fi.
X

5-7 4 3 2 1 10
7-9 2 5 3 4 14
9-11 2 2 3 1 8
11-15 2 2 1 3 8

f.j 10 12 9 9 40

La lectura de los datos obtenidos se realiza a continuación utilizan-


do los conceptos presentados anteriormente:
f42= 2 alumnos de la muestra registraron un ingreso entre 700 y 900 pe-
sos para su madre y entre 1100 y 1500 pesos para su padre.

75
III. Organización de la Información

f33 = 3 alumnos de la muestra declararon un ingreso entre 900 y 1100


pesos para ambos padres.
Si se observa sólo la variable ingreso de la madre (Y) se verifica el
mismo número de estudiantes cuyas madres ganan entre 900-1100 y
1100-1500, ya que f•3 = f•4 = 9 alumnos.

3.2. Variables Cualitativas Bidimensionales


En aquellos estudios en los cuales el objetivo de la investigación
conduce a la observación de características cualitativas de las unidades
estadísticas, se procede a una recopilación de datos correspondiente a va-
riables cualitativas, cuyas modalidades se definen en categorías o clasi-
ficaciones.
Estas variables cualitativas se distinguen según el número de mo-
dalidades posibles en:
Variables dicotómicas: las que asumen sólo dos modalidades.
Variables policotómicas: las que asumen más de dos modalida-
des.
Por lo general cuando se trabaja con este tipo de variables, como
mínimo se estudian conjuntamente dos de ellas, generando una variable
bidimensional.
La organización de las observaciones recopiladas se realiza en una
tabla de frecuencias conjunta denominada Tabla de Contingencia, o de
clasificaciones cruzadas, en ella se registran las frecuencias conjuntas y
marginales. Se puede describir el proceso de organización de la informa-
ción según se detalla a continuación.
Suponiendo que se quiere estudiar conjuntamente dos variables
cualitativas, se dispondrá entonces de un conjunto de n observaciones bi-
variadas. Se organizan los datos en distribuciones de frecuencias bidimen-
sionales similares a las obtenidas para variables cuantitativas. Las compo-
nentes de la variable bidimensional son: X con modalidades A1, A2,
A3,….,Ap e Y con modalidades B1, B2, B3,…,Bm
Si las variables son dicotómicas entonces las modalidades de una
se simbolizan con A y A y las de la otra variable con B y B .
En este caso el investigador frecuentemente recurre a clasificacio-
nes cruzadas a fin de encontrar relaciones significativas entre modalida-
des. En esta situación, una vez recopilados los datos correspondientes a
este tipo de variable bidimensional, se procede a su organización confec-
cionando una tabla de frecuencias conjuntas 2x2, que se presenta e in-
terpreta:
B B fi• A indica presencia de la característica A
A f 11 f 12 f 1• A indica ausencia de la característica A
A f 21 f 22 f 2• B indica presencia de la característica B
f•j f f n B indica ausencia de la característica B
•1 •2

76
IV. Medidas Descriptivas

Elaborada la tabla, se realiza el cómputo correspondiente para ubi-


car las n unidades estadísticas analizadas, según sus características ob-
servadas en forma simultánea. De esta manera se generan las frecuencias
conjuntas y marginales que se detallan a continuación:
f11 indica la cantidad de individuos que simultáneamente presentan las
características A y B.
f12 indica la cantidad de individuos que presentan la característica A y
no presentan B.
f21 indica la cantidad de individuos que presentan la característica B y
no presentan A.
f22 indica la cantidad de individuos que simultáneamente no presentan las
características A ni B.
f1— indica la cantidad de individuos que presentan la característica A.
f2— indica la cantidad de individuos que no presentan la característica A.
f—1 indica la cantidad de individuos que presentan la característica B.
f—2 indica la cantidad de individuos que no presentan la característica B.
Ejemplo 3-10: Se ha inoculado una vacuna experimental a 100 animales
de un laboratorio, observando su reacción a la misma según sexo. La va-
riable X presenta dos modalidades A reacción positiva,A reacción negati-
va. La variable Y presenta las modalidades B: Macho y B : hembra

La interpretación de algunas de las frecuencias


B B fi• conjuntas y marginales es la siguiente:
f11=41 machos con reacción positiva a la vacu-
A 41 9 50
na.
A 39 11 50 f12=9 hembras con reacción positiva a la vacu-
na.
f•j 80 20 100
f2 •=500 animales con reacción negativa a la
vacuna

Si en la experiencia se recopila información referente a variables


cualitativas bidimensionales, y una de las componentes, o ambas asumen
más de dos modalidades, se está trabajando con variables cualitativas po-
licotómicas.

En este caso se simboliza con las letras m y p a la cantidad de mo-


dalidades que pueden asumir las variables X e Y respectivamente, éstas
se disponen en la primera fila y en la primera columna de una tabla de
doble entrada de dimensión mxp, llamada tabla de contingencia. Esta
tabla se completa con las frecuencias marginales tal como se presenta a
continuación.

77
IV. Medidas Descriptivas

Y
B1 … Bi … Bp fi•
X
A1 f11 … f1j … f1p f1•
… … … … … … …
Ai fi1 … fij … fip fi•
… … … … … … …
Am fm1 … fmi … fmp fm•

f•j f•1 … f•i … f•p n


En esta tabla se indica:
A1,..,Ai.,.., Am son las diferentes modalidades de la variable X.
B1, Bj, , BP son las diferentes modalidades de la variable Y.
fij es la frecuencia conjunta absoluta, indica la cantidad de observaciones,
unidades estadísticas o casos, en los cuales la variable X asume la moda-
lidad Ai y simultáneamente la variable B asume la modalidad Bj.
fi•• indica la cantidad de observaciones en las cuales la variable X asume la
modalidad Ai sin tener en cuenta las modalidades de Y.
f•j indica la cantidad de observaciones en las cuales la variable Y asume la
modalidad Bj sin tener en cuenta las modalidades de X.
Las frecuencias marginales se obtienen sumando las frecuencias
p m
conjuntas: fi • = ∑
j =1
fij y f• j = ∑f
i =1
ij

Ejemplo 3-11: Para cubrir cargos en una empresa se presentaron 200


personas. En la tabla se presenta la clasificación que se realizó según el
nivel de estudios alcanzados y los resultados de una evaluación.
Nivel de
Estudios Primario Secundario Terciario
Calificación

Insuficiente 10 30 30 70

Regular 10 10 20 40

Distinguido 20 60 10 90

40 100 60 200

Interpretando estos datos empíricos se lee:


f32=60 personas que alcanzaron el nivel secundario fueron calificadas con
distinguido.
f13=30 personas que poseen nivel terciario obtuvieron la calificación de in-
suficiente.
f.2=100 personas poseen el nivel secundario.
f2.=40 personas obtuvieron calificación regular.

78
IV. Medidas Descriptivas

MEDIDAS DESCRIPTIVAS

1. Introducción
Para cualquier conjunto de unidades estadísticas, universo o mues-
tra, a las cuales se les ha estudiado una o más variables cuantitativas,
puede resultar de gran utilidad a los fines de cumplimentar los objetivos
de la investigación, disponer de un resumen de sus características. Este es
el primer paso en el análisis de datos cuantitativos que implica describir el
comportamiento de la variable para el conjunto de unidades estadísticas
experimentales. En la etapa de análisis de la información, luego de haber
realizado la recopilación de los datos el investigador debe hacer usio de
mediadas que resuman, y además brinden la posibilidad de interpretar el
comportamiento de la variable en estudio en el conjunto de unidades es-
tadísticas.
Si estas medidas de resumen descriptivas de un conjunto de datos
se calculan utilizando los datos provenientes de una muestra se denomi-
nan estadísticos y si estas medidas descriptivas se calculan a partir de los
datos recopilados en toda la población, se llaman parámetros.
En función de encontrar medidas de resumen, la Estadística se
ocupa de analizar e interpretar, entre otras, tres características funda-
mentales: posición, que corresponde a la localización del conjunto de da-
tos cuantitativos recopilados respecto a valores de la variable en estudio;
dispersión, que implica analizar la variación de estos valores observados;
y forma de la distribución de frecuencias cuando el conjunto de datos es-
tá organizado de esta manera.

2. Medidas de Posición
Las medidas de posición son valores de la variable estudiada que
tienen como objetivo describir el comportamiento del conjunto de datos,
representando al mismo a través de un solo número.
Las características más usuales que describen a un conjunto de da-
tos hacen referencia a la posición de éstos respecto al recorrido de la va-
riable en estudio.
Su importancia radica en que para cualquier conjunto de datos in-
dican las tendencias de agrupamiento de los mismos, con distinto grado
de cercanía entorno a determinados valores de estas medidas de posición.
Es importante tener en cuenta que estas medidas se aplican a gru-
pos y no a individuos. Por ello no se podría usar ni el mayor ni el menor
valor observado, como representantes del conjunto, sino que es más ade-
cuado buscar un valor central respecto al campo de variación de la varia-
ble. Las medidas que describen un valor típico de estas características en
un grupo de observaciones, reciben el nombre de medidas de tendencia
central. Las más utilizadas son: promedios, mediana y modo. Asimismo
entre las medidas de posición se consideran las llamadas medidas de

79
IV. Medidas Descriptivas

tendencia no central, que brindan también información para el análisis


descriptivo de los datos, estas son: cuartiles, deciles y percentiles.
Todas estas medidas proporcionan la localización de la distribución
de frecuencia o conjunto de datos, sobre el eje de las abscisas respecto al
origen. Como ejemplo se considera las gráficas de dos distribuciones de
frecuencias hipotéticas con valores distintos de promedios aritméticos, re-
presentadas por sus correspondientes polígonos:

Al comparar la ubicación de ambas distribuciones, se observa el


desplazamiento de una distribución respecto de la otra sobre el eje de las
abscisas, esto indica que tiene diferentes medidas de posición.
Si se calculan las medidas de posición de ambas distribuciones se
podrá observar que en la distribución A, éstas asumen valores menores
que las de B, por estar mas cercanas al origen de la escala que corres-
ponde a la variable X.

2.1. Promedios
Los promedios son valores que resultan de trabajar matemática-
mente con todos los valores observados de las variables.
Existen tres tipos de promedios: aritmético, geométrico y ar-
mónico. Según la naturaleza y comportamiento de la variable correspon-
de usar uno u otro promedio. Cualquiera sea el utilizado, en su cálculo in-
tervienen todos los valores observado en la muestra y está comprendido
dentro del recorrido de la variable.
Serie simple de datos
Generalmente se está trabajando con una serie simple de datos
cuando el conjunto de unidades experimentales es reducido, por ejemplo
un n menor que 30.
Si se realiza un procesamiento electrónico, trabajando con un ta-
maño de muestra grande se pueden obtener las características descripti-
vas trabajando con los datos originales sin agrupar.

80
IV. Medidas Descriptivas

Promedio Aritmético
Por ser el promedio o media aritmética un concepto simple y de fá-
cil cálculo es la medida de tendencia central más conocida y de mayor
uso.
El promedio aritmético es el valor medio resultante de la
suma de todos los valores observados dividido por la cantidad de
observaciones; en el caso de serie simple de datos de una variable X,
simbólicamente se expresa:
n

∑x i =1
i
x 1 + ... + x i + ... + x n
M(x) = x = =
n n
Considerando:
x1,…,xi ,...,xn serie simple de observaciones
n: el total de observaciones
i : subíndice que indica el orden en que se ubica cada observación
Σ : símbolo que corresponde a la letra griega Sigma, se utiliza en forma
convencional para indicar “sumatoria”, en este caso, según lo definido en
los límites de la sumatoria se debe sumar desde el primer valor observado
hasta el último.
x = M (x) : símbolos que representan al promedio aritmético y se leen x
rayita o como operador matemático M de X.
Ejemplo 4-1: En una comunidad hay cuatro panaderías que venden el
kilo de pan a estos valores: 2$, 1,80$, 1,50$, 2,10$. La media aritmética
de estas cuatro cifras es igual a 1,85$ en símbolos:
n

∑x
i =1
i
2 + 1,80 + 1,50 + 2,10
x = = = 1,85$
n 4
Este resultado se interpreta diciendo que el precio promedio del pan por
kilo en ésta comunidad, es de 1,85$.
Se puede observar que el valor obtenido no corresponde a ninguno
de los registrados, sin embargo es un valor incluido en el campo de varia-
ción de la variable y resulta un valor medio de todos ellos.
Las propiedades de la media aritmética, que se enumeran a conti-
nuación resultan útiles tanto para los cálculos prácticos, como por sus
aplicaciones teóricas.

1.- La media aritmética de una constante es igual a dicha constante:


M (k) = k siendo k constante
n

∑k
i=1 nk
Demostración M(k) = = =k
n n

81
IV. Medidas Descriptivas

2.- La media aritmética de una constante multiplicada una variable es


igual a dicha constante por la media de la variable:
M (k.x) = k. M (x) siendo k constante
n n

∑ kx
j =1
j k ∑xj=1
j

Demostración = M(kx) =
= kM(x)
n n
3.- La media aritmética de una variable aumentada o disminuida en una
constante es igual a la media de la variable aumentada o disminuida esa
constante:
M (x ± k ) = M (x) ± k siendo k constante
Demostración
n n n n n

∑j =1
(x j ± k) ∑
j =1
xj ± ∑j=1
k ∑
j=1
xj ∑k
j =1
M(x ± k) = = = M(x) ± k = ±
n n n n
4.- La media aritmética de la combinación lineal de una variable, es igual
a la misma combinación lineal aplicada a la M(x):
M (a. x ± b) = a. M (x) ± b siendo a, b constantes
Aplicando las propiedades 2 y 3 anteriores se obtiene:
Demostración:
n n n n n

∑ (ax
j =1
j ± b) ∑ ax ± ∑ b
j =1
j
j =1
a ∑ x ∑b
j =1
j
j =1
M(ax ± b) = = = ± = aM(x) ± b
n n n n
5.- La media aritmética de los desvíos de las observaciones con respecto a
la media aritmética es igual a cero:
M (xi - x ) = 0 Demostración:
n n n
M (xi - x )=0 ⇒ ∑
i =1
(x i − x) = 0 ⇒ ∑
j =1
xj − ∑ x = nx − nx = 0
j =1
6.- La media aritmética de los cuadrados de los desvíos de las observacio-
nes con respecto a la media es un mínimo:
M (xi - x )2 = mínimo

7.- La media aritmética de la suma o resta de dos variables independien-


tes es igual a la media de una variable mas la media de la otra variable:
M (x ± y) = M (x) ± M (y) para x e y variables

8.- La media aritmética permite calcular el total correspondiente a la va-


riable: Total = n — M (x)

82
IV. Medidas Descriptivas

Una característica importante de señalar, respecto a la media arit-


mética, es que en su cálculo intervienen todos los valore observados y es-
to en algunos casos se transforma en un desventaja, ya que si hubiera al-
gún valor extremo de la variable observada, el valor obtenido como pro-
medio puede quedar distorsionado y no ser representativo del conjunto de
observaciones.
A menudo se trabaja con una variable donde cada valores posible
tiene asignado un peso, es decir importancia relativa o ponderación; el
cálculo del promedio debe realizarse tomando en cuenta esas ponderacio-
nes. Entonces éste se obtiene como la sumatoria de los valores observa-
dos multiplicados por sus ponderaciones y dividido por la suma de éstas,
llamado Promedio Aritmético Ponderado, simbólicamente:
m

∑ x .p
i =1
i i
x1.p1 + ...... + xm.pm
Mp (x) = x = =
m p1 + ....... + pm
∑p
i =1
i

Ejemplo 4-2: Planteada la misma situación del ejemplo 4-1, se dispone


ahora de información adicional referida a la venta en kilos por día de cada
panadería. Estos datos son considerados ponderaciones por indicar el va-
lor relativo de cada precio considerando el consumo total de la comuni-
dad. La información completa se presenta en la siguiente tabla:

Considerando a las cantidades


Panadería Precio / kilo Kilos / día
vendidas como ponderación de los
1 2 120
precios por kilo, si se desea un
2 1,80 440
precio promedio aritmético pon-
3 1,50 380
4 2,10 290
derado, el cálculo se realiza según
se indica a continuación:

M p (x) = 2 — 120 +1,80 — 440 + 1,50 — 380 +2,10 — 2,90 = 1,79 $


120 + 440 +380 + 290

Concluyendo, el precio promedio de venta de pan por kilo conside-


rando las cantidades vendidas, es de 1,79$. Es importante evaluar compa-
rativamente este valor con el promedio que se obtuvo en el caso anterior,
donde la ponderación es la unidad, y resultó mayor que ésta.
Ejemplo 4-3: En una agencia de viajes, con el objeto de tomar decisiones
a futuro, se necesita conocer el precio promedio de los pasajes vendidos
durante el último mes. La información disponible consiste en datos sobre
200 pasajes vendidos, según precio en dólar, y las cantidades respectivas,
datos que son presentados en la siguiente tabla:

83
IV. Medidas Descriptivas

Precio de Nº de Ponderación
Venta pasajes pi Para calcular el promedio del pre-
(dólares) xi fi cio de venta de los 200 pasajes, y
12 60 0.30 obtener un número representativo
14 100 0.50 para las ventas totales se debe
16 40 0.20 efectuar un promedio ponderado
Total 200 1.00

Sin pérdida de precisión en el cálculo, se puede utilizar como pon-


deración el valor relativo del número total de pasajes vendidos, estos gua-
rismos se presentan en la tercera columna de la tabla. Es importante des-
tacar que en este caso sólo habrá que realizar la sumatoria de los produc-
tos individuales, por ser el denominador del cociente igual a uno:
12.0,30 + 14.0,50 + 16.0,20 12.0,30 + 14.0,50 + 16.0,20
x= = = 13,8
0,30 + 0,50 + 0,20 1
Con este cálculo se concluye diciendo que el promedio del precio de
venta de pasajes en el mes considerado es igual a 13,8 dólares.

Promedio Geométrico
En la práctica cuando se desea promediar razones, índices, cifras
relativas, porcentajes, que son resultado de realizar cocientes o cuando se
trata de interpolar datos en una serie que proviene de una población, sea
del tipo de una progresión geométrica o de fenómenos cuya variación es
del tipo exponencial; corresponde calcular como valor promedio de los da-
tos la media geométrica.
Este promedio también se utiliza para determinar el incremento
porcentual promedio en ventas, producción u otras actividades o series
económicas de un periodo a otro.
Para un conjunto de n observaciones, el promedio geométrico se
calcula, para el caso de serie simple, como la raíz n-ésima del producto de
las n observaciones, simbólicamente:
n
xg = n x1x2....xn = n ∏x
i=1
i

Considerando:
x1,…,xi ,...,xn serie simple de observaciones.
n: el total de observaciones.
i: subíndice que indica el orden en que se ubica cada observación.
∏: símbolo que corresponde a la letra griega Pi, se utiliza en forma con-
vencional para indicar “productoria”, en este caso multiplicar, según lo in-
dican los límites de la productoria, sucesivamente desde el primer valor
observado hasta el último.
x g: símbolo que representa al promedio geométrico.

84
IV. Medidas Descriptivas

Nota: al ser la raíz del producto de los valores de la variable, es importan-


te señalar que no se debe calcular el x g si la variable toma valores nega-
tivos o ceros.
Ejemplo 4-4: La Dirección Municipal de Planeamiento Urbano de una de-
terminada localidad desea estimar la población para un año, intermedio a
dos años Censales, de los cuales se dispone de la información provista por
los Censos de Población correspondientes.
Una hipótesis razonable es suponer que el porcentaje de aumento es
el mismo año a año y que la población año a año varía según una progre-
sión geométrica. Partiendo del momento inicial to con una población igual
a P0 , el cálculo de la población para los años siguientes: P1; P2,….,Pn ,bajo
las hipótesis planteadas se obtiene según se detalla:

P0= P0 , P1= P0 r , P2= P0 r2 , ... , Pn= P0 rn .


Pn
Despejando de la última igualdad se obtiene: Pn= P0 rn ⇒ = rn (I)
P0
Por otra parte la serie puede ser escrita en función de la población
inicial de la siguiente forma:
P0 , P0 r , P0 r2 , … , P0 rn (II)
Suponiendo que se conoce la población del año “0” y del año “n”,
manteniendo las hipótesis iniciales y utilizando las expresiones (I) y (II);
para el cálculo de la población correspondiente a una fecha intermedia a
estas dos fechas, se procede:
n
Pn P02Pn
Pn = P0r 2 = P0 r n = P0 = = P0Pn
2
P0 P0
Razonando y utilizando operatoria algebraica se llega a un expre-
sión que matemáticamente es igual a la que resulta de aplicar la fórmula
de cálculo de la media geométrica a los valores conocidos: P0 y Pn .
Ejemplo 4-5: Con el objeto de calcular el aumento promedio bimestral en
el precio de un determinado bien, se registran cada dos meses los precios
en pesos y se presentan en la siguiente tabla

Mes Dic Feb Abril Junio Ago Oct Dic


Precio ($) 50 55 65 70 77 85 90

Con estos datos se procede al cálculo del Indice bimensual, que


indica la variación del precio del bien, si se obtiene un índice mayor que
uno esto hace referencia a un aumento de precio, y en el caso de que el
índice es menor que uno indica una disminución de precios.

Mes Dic Feb Abril Junio Ago Oct Dic


Precio ($) 50 55 65 70 77 85 90
Índice 1,100 1,180 1,077 1,100 1,104 1,059

85
IV. Medidas Descriptivas

El cálculo del índice promedio corresponde a una media geométri-


ca. El resultado indica el aumento promedio bimestral de los precios du-
rante ese periodo y se calcula:
x = 6 1,1 ∗ 1,18 ∗ 1,077 ∗ 1,1 ∗ 1,104 ∗ 1,059 = 1,103
Para estos datos el índice promedio bimestral es de 1,103. Si a es-
ta cifra se le resta uno y se multiplica por 100 se obtiene el aumento pro-
medio bimestral que resulta igual a 10,3%.

Promedio Armónico
Cuando se desea promediar valores de variables, como en los ca-
sos de productividad, velocidad, tiempo, rendimiento, cambio, todos ellos
resultados de cocientes en los cuales la relación numerador denominador
puede expresarse en forma recíproca, se debe recurrir al cálculo de la me-
dia armónica.
Para un conjunto de n observaciones la media armónica se calcula
como la inversa de la media aritmética de las inversas de las observacio-
nes, simbólicamente:
n
xh = n 1

x
i =1 i

Definiendo:
x1,…,xi ,...,xn serie simple de observaciones.
n: el total de observaciones.
i: subíndice que indica el orden en que se ubica cada observación.
Σ: símbolo que corresponde a la letra griega Sigma, se utiliza en forma
convencional para indicar “sumatoria”, en este caso, según lo definido en
los límites de la sumatoria se debe sumar desde el primer valor observado
hasta el último.
Ejemplo 4-6: Aunque no es común que se trabaje con el precio de las
unidades cuando se compra fruta, supongamos que en una frutería se
ofrecen dos clases de limones, los de la clase A, 10 por 1$ y los de la cla-
10 + 20
se B, 20 por 1$. La media aritmética resulta: x = = 15
2
Esto significa que en promedio se está comprando 15 limones por
un peso, indica esto que el precio unitario es de $0.0067. Este es el pre-
cio que se debe pagar por limón si se gasta la misma cantidad de dinero
en cada clase de limones. Pagando $0.0067 por cada uno de los 30 limo-
nes se gastará $2.
Si se calcula la media armónica, el resultado es diferente:
2 2 40
xh = = = = 13,333
1 1 3 3
+
10 20 30

86
IV. Medidas Descriptivas

Esto es, 13,333 por $1 o a $0,075 cada limón. Este resultado es el


precio que se debe pagar por cada limón si se compran números iguales
de limones de cada una de las clases. Si se compran 15 limones a 10 por
$1 y 15 limones a 20 por $1, se gastarán $2,25 por los 30 limones.
La media armónica da igual resultado que la media aritmética si se
ponderan las cantidades compradas a cada precio, entonces:
30
x = = 15 , es decir 15 limones por $1, o 0,0067 por limón.
 1   1 
10.  + 20. 
 10   20 
La media aritmética y la media armónica dan resultados congruen-
tes si se presta debida atención a la forma de cómo están dados los datos
y la ponderación que se utiliza.
Luego cuando se promedian fracciones por el método de la media
aritmética o la media armónica se debe considerar: usar la media aritmé-
tica si las ponderaciones están dadas en las mismas unidades de medida
que el denominador, y la media armónica si las ponderaciones están en
las mismas unidades que el numerador.
Los tres promedios, anteriormente presentados, verifican las si-
guientes propiedades:
1.- El promedio de una constante es la misma constante.
2.- El promedio de una constante multiplicada por una variable es igual a
la constante multiplicada por el promedio de la variable.
3.- La relación entre los tres promedios es la siguiente: x ≤ x g ≤ xh
Estas tres medidas sólo coinciden cuando todas las observaciones
son el mismo valor constante.
Nota: si bien para todo conjunto de datos se puede calcular cualquiera de
los tres promedios presentados, es importante, antes de decidir cuál utili-
zar, reconocer la procedencia de estos datos y aplicar el correcto. Caso
contrario se podría estar sobre o subestimando el valor real del promedio.
Distribuciones de frecuencias
Se recordará, del capítulo anterior, que en datos no agrupados, no
hay pérdida de información, en consecuencia las medidas descriptivas son
resultados exactos, en cambio al trabajar con datos agrupados, si hay
pérdida de información, en consecuencia estas medidas pueden presentar
cierta diferencia respecto al valor obtenido si los datos se utilizan como
serie simple.
Cualquiera sea la situación, si se trabaja con datos organizados en
tablas de frecuencias, el cálculo de las medidas descriptivas presentan
ciertas particularidades, no así sus propiedades, interpretaciones y con-
ceptos específicos.

87
IV. Medidas Descriptivas

Promedio aritmético
En las tablas de frecuencias se ubican en la primera columna los
valores observados de la variable sin repetir, en el caso de datos no agru-
pados, y para datos agrupados los intervalos y sus puntos medios. A con-
tinuación se presentan las frecuencias absolutas y relativas simples. Utili-
zando los números registrados en estas tablas se presenta la expresión
algebraica a utilizar para el cálculo del promedio aritmético:
m m

∑ xi.fi ∑ x .f i i m
fi
m
M(x) = x = i=1
m
= i=1
n
= ∑ xi. ∑
= xihi
n i=1
∑i=1
fi i=1

Considerando:
x1,…,xi,...,xm en datos no agrupados: valores distintos observados y or-
denados sin repetir.
En datos agrupados: punto medio de los intervalos considerados.
fi: en datos no agrupados: cantidad de veces que se observó el valor de la
variable xi . En datos agrupados: cantidad de veces que se observó un va-
lor de X incluido en el intervalo (xi-1' - xi '].
m: para datos no agrupados: total de valores distintos observados. Para
datos agrupados: número total de intervalos considerados.
n: total de observaciones
i: subíndice que indica el orden en que se ubica cada observación
Σ: símbolo que corresponde a la letra griega Sigma, se utiliza en forma
convencional para indicar “sumatoria”, en este caso, según lo definido en
los límites de la sumatoria se debe sumar desde el primer valor observado
hasta el último, en este caso sumar ordenadamente los resultados del
producto x i * f i
x = M(x): símbolos que representan al promedio aritmético y se leen x ra-
yita. o como operador matemático M de X.
Al desarrollar el tema datos agrupados, se señaló que para cálculos
posteriores se requiere considerar los valores medios de cada intervalo,
valor que se considera representativo del conjunto de valores comprendi-
dos en el intervalo correspondiente. Este procedimiento implica pérdida de
información, sin embargo permite encontrar características descriptivas
útiles al momento de obtener conclusiones sobre el conjunto analizado.
A continuación se desarrollan dos ejemplos, el primero para datos
no agrupados y el siguiente para agrupados:
Ejemplo 4-7: Para conocer los requerimientos habitacionales de una ciu-
dad, se realiza un estudio en el que se recopiló información acerca del
número de habitaciones (X), para 34 (n) viviendas, entre otros indicado-
res de interés. A continuación se presenta dicha información organizada
en una tabla de frecuencia para datos no agrupados:

88
IV. Medidas Descriptivas

xi fi El cálculo del promedio de habitaciones por vi-


1 2 vienda se calcula de la siguiente forma:
2 4 1 k 1
x = ∑ xifi = (1 ∗ 2 + 2 * 4 + 3 * 10 + 4 * 9 + 5 * 6 + 6 * 3) =
3 10 n i =1 34
4 9 = 3,647 = 4
5 6 Por tratarse de una variable cuantitativa discreta,
6 3 el resultado final se redondea al número entero
∑fi= 34 mas próximo y se interpreta que el promedio arit-
mético de de habitaciones por vivienda es aproxi-
madamente 4.

Ejemplo 4-8: Para determinar el salario medio de los obreros para un


Sector de Producción y Servicios en una empresa, se recopiló el salario
mensual, en pesos, de 150 asalariados. La tabla presenta la información
correspondiente:

i Intervalos xi fi
1 (1400-1600] 1500 9 Para el cálculo del promedio se
2 (1600-1800] 1700 16 debe considerar el punto medio
3 (1800-2000] 1900 23 de los intervalos simbolizado con
4 (2000-2200] 2100 42 xi en la tabla. Utilizando los datos
5 (2200-2400] 2300 33 consignados y la fórmula corres-
6 (2400-2600] 2500 17
pondiente se calcula:
7 (2600-2800] 2700 10
Total 150

k
1 1
x =
n ∑x f
i=1
i i =
150
(1500 * 9 + ......... + 2500 * 17 + 2700 * 10) = 2120

Este valor indica que el salario promedio para el conjunto de asala-


riados es de $2120

Promedio geométrico - Promedio armónico


En forma similar y teniendo en cuenta las mismas consideraciones
expresadas para el cálculo del promedio aritmético se calculan los otros
promedios, aplicando las siguientes expresiones algebraicas:

m m n
xg = n ∏ x ii =
f ∑ fi
∏ x ii
f xh =
i=1 i=1
m f
∑ i
i=1 x i

2.2. Mediana
Como característica de posición y medida de tendencia central al-
ternativa, según corresponda se presenta el cálculo, aplicación e interpre-
tación de la Mediana.

89
IV. Medidas Descriptivas

La Mediana es el valor de la variable que supera a no más de


la mitad de los valores observados y a la vez es superada por no
más de la mitad de los valores observados. Es una medida descriptiva
de la localización de los datos que aparece ubicada en la posición media
de una sucesión ordenada de datos.
A partir de los datos originales se procede a ordenarlos según
magnitud, esto es, ubicarlos de menor a mayor o viceversa, para luego
ubicar el punto medio del ordenamiento y en ese lugar se encuentra el va-
lor de la variable que corresponde a la Mediana.
La forma de obtención de la Mediana, al no considerar para su cál-
culo todas las observaciones sino sólo los valores centrales, conduce a que
es una medida de posición no distorsionada en caso de que exista algún
valor extremo; circunstancia que sí afecta a la representatividad de la
media aritmética, como medida de tendencia central.
Serie simple de datos
Para el cálculo de la mediana en un conjunto de datos presentados
como serie simple, el procedimiento a seguir es simple, distinguiendo solo
el caso de n par o impar.
Partiendo de una serie simple: x1,…,xi ,...,xm ; valores observados
de la variable X, la Mediana se calcula según se detalla y ejemplifica a
continuación:
1- Se ordenan los datos de menor a mayor valor o viceversa.
2- Si n (cantidad de observaciones) es impar, entonces la mediana es el
valor de la variable que ocupa el lugar central: Mna = x n + 1
2
3- Si n es par, entonces existen dos valores de la variable centrales, y la
xn + xn
+1
2 2
Mediana se calcula como un promedio de éstos: Mna =
2
Ejemplo 4-9: Dados los valores de la variable X= 5, 7, 3, 1, 4, 6. Esta es
una serie simple presentada según el orden en que se obtuvieron los da-
tos. Para calcular el valor de la Mediana se procede según lo indicado:
Se ordenan los datos de menor a mayor, obteniendo una sucesión de nú-
meros ordenados: 1, 3, 4, 5, 6, 7; luego por ser el número de obser-
vaciones par, el cálculo se realiza como semisuma de los dos valores me-
dios, según se indica:
En este caso exactamente la mitad de los
x6 + x6 datos superan y son superados por el valor
+1 4+5 Mna = 4,5
Mna = 2 2
= = 4,5
2 2

90
IV. Medidas Descriptivas

Ejemplo 4-10: Para el siguiente conjunto de valores de X = 7, 4, 3, 2, 5.


Esta es una serie simple, por ser impar el número de observaciones, para
obtener el valor de la Mediana se procede de la siguiente forma.
Se ordenan los datos de menor a mayor: 2, 3, 4, 5, 7; luego se ubica el
valor central, que resulta: Mna = x 5 + 1 = x 3 = 4
2
Es importante observar que por debajo de la mediana que es valor
4 de la variable se encuentran dos datos: 3 y 2, y dos datos por encima 7
y 5.
Distribuciones de frecuencias
Si los datos están organizados en tablas de frecuencias, el cálculo
de la Mediana presenta particularidades. Se debe distinguir según se tra-
baje con datos agrupados o sin agrupar.
Datos sin agrupar
Por lo general cuando la variable es discreta, se dispone de una ta-
bla de frecuencias con datos sin agrupar, en este caso el cálculo de la me-
diana es exacto.
Los datos ya están ordenados y dispuestos en una tabla de fre-
cuencias, en la que debe constar como mínimo las frecuencias absolutas
simples y acumuladas.
El procedimiento es muy sencillo, según se detalla:
1- En primer término se debe calcular el Orden de la Mediana. Para ello se
n
divide el tamaño de la muestra por 2, Orden = Or =
2
2- Luego se ubica la Frecuencia Absoluta Acumulada Fi, tal que verifique
Fi −1 < Or ≤ Fi .
3- El valor de la Mediana será aquél valor de la variable (xi) al cual le co-
rresponda dicha frecuencia acumulada Fi.
Si la mediana de orden coincide con una de las frecuencias acumu-
n xi + xi + 1
ladas Or = = Fi , la mediana se calcula como xmed = Mna = ,
2 2
pues de esta manera supera exactamente a la mitad de las observaciones
y es superada por la otra mitad.
Como forma alternativa o complementaria, la obtención de la Me-
diana se puede realizar gráficamente. Para ello utilizando el gráfico de las
Frecuencias Absolutas Acumuladas, se calcula la mediana de orden
n
Or = , luego se ubica el valor obtenido en el eje de las ordenadas, desde
2
ese punto se traza una línea paralela al eje de las abscisas hasta intercep-
tar el gráfico de frecuencias acumuladas, luego partiendo ese punto se di-
buja la perpendicular al eje de abscisas. El punto de intersección en el eje
de las abscisas es el que corresponde a la Mediana.

91
IV. Medidas Descriptivas

Gráfico 4-1:

Ejemplo 4-11: Utilizando el caso presentado en el ejemplo 4-7,se realiza


el cálculo de la Mediana:

xi fi Fi Se calcula el orden de la mediana, en este caso


1 2 2 n 34
Or = = = 17 , que se ubica en F4 = 25. Este va-
2 4 6 2 2
3 10 16 lor de frecuencia absoluta acumulada corresponde al
4 9 25 valor de x4 = 4. Por lo tanto la Mediana resulta:
5 6 31 Mna = 4 habitaciones
6 3 34
Total 34
La interpretación de este valor es que el cincuenta por ciento de las
viviendas tienen cuatro habitaciones o menos y el cincuenta por ciento
restante tiene cuatro habitaciones o más.
La determinación gráfica correspondiente a esta distribución de fre-
cuencias absolutas acumuladas, se realiza a continuación
Gráfico 4-2:

92
IV. Medidas Descriptivas

Datos agrupados
Cuando se trabaja con un volumen importante de datos y la varia-
ble es continua o discreta con campo de variación extenso, con el objeto
de lograr descripciones lo más completas posibles, se agrupan los datos
en intervalos, generando así las distribuciones de frecuencias para datos
agrupados, según se desarrolló en el capítulo anterior.
En esta situación para calcular la Mediana, se consideran los inter-
valos, las frecuencias absolutas simples y acumuladas. Una vez ordenados
los datos en la tabla correspondiente, el procedimiento se detalla a conti-
nuación:
1- En primer término se debe calcular el Orden de la Mediana. Para ello se
n
divide el tamaño de la muestra por 2, Orden = Or = .
2
2- Luego se ubica la Frecuencia Absoluta Acumulada Fi, tal que verifi-
que Fi − 1 < Or ≤ Fi . Se ubica el i-ésimo intervalo que corresponde a esa Fi. Es-
to indica que la Mediana será un valor de la variable comprendido en di-
cho intervalo, es decir: Mna ∈ (xi-1'-xi']
3- Para obtener el valor de la Mediana en forma analítica debe realizarse
una interpolación entre los límites inferior y superior del intervalo deter-
minado en el paso anterior. Para ello utilizando las propiedades de trián-
gulos semejantes, se deduce que la Mediana es el valor de la variable que
resulta del siguiente cálculo:
n
− Fi−1
Mna = xi-1'+ 2 . (xi'- xi-1'] donde: xi-1' representa el límite inferior
fi
del i-ésimo intervalo, ubicado según se indicó en el ítem anterior, y (xi' -
xi-1'] resulta ser la amplitud de dicho intervalo.
Para el cálculo gráfico se procede en forma similar al caso de datos
no agrupados:
Gráfico 4-3:

93
IV. Medidas Descriptivas

Ejemplo 4-12: Utilizando el conjunto de datos presentados como distri-


bución de frecuencias en el ejemplo 4-8 se calcula la Mediana:

i Intervalos xi fi
1 (1400-1600] 1500 9
2 (1600-1800] 1700 16
3 (1800-2000] 1900 23
4 (2000-2200] 2100 42
5 (2200-2400] 2300 33
6 (2400-2600] 2500 17
7 (2600-2800] 2700 10
Total 150

La suma de frecuencias absolutas simples corresponde al total de


observaciones, en consecuencia n = 150 asalariados, luego para obtener
n 150
el orden de la Mediana se calcula: O r = = = 75
2 2
Seguidamente se identifica la desigualdad : Fi −1 < Or ≤ Fi , que resul-
ta para este caso: 48 ‹ 75 ‹ 90, se ubica en la columna de frecuencias ab-
solutas acumuladas el valor F4 = 90, que corresponde al cuarto intervalo.
Por último reemplazando en la fórmula para el cálculo de la Media-
na para datos agrupados:
n
− Fi−1
Mna = xi-1'+ 2
fi
( ]
' x´i − xi-1 Mna = 2000 +
75 − 48
42
.200 = 2128,57 pesos

Interpretando que el 50% de los asalariados reciben un sueldo


máximo de $ 2128,57 pesos y el otro 50% de los asalariados reciben un
salario mínimo de $2128,57.

La Mediana tiene tres características importantes que se deben


considerar al momento de decidir qué medida de tendencia central utilizar
y cómo interpretar el resultado obtenido:
1- El valor de la Mediana, por su propio cálculo, depende del número de
observaciones, pero no del valor de todas las observaciones, sólo de los
valores centrales. Esto último le proporciona una gran ventaja como me-
dida de posición central ya que no resulta afectada por valores extremos
del conjunto de observaciones muestrales. Por ello en algunos casos resul-
ta más representativa que otras medidas de posición central.
2- La suma de los desvíos, en valor absoluto, con respecto a la Mna es un
mínimo.
3- Al trabajar con datos agrupados el cálculo analítico y gráfico de la me-
diana es aproximado.

94
IV. Medidas Descriptivas

2.3. Modo
Otra medida de posición, considerada de tendencia central es el
Modo. Este se define como el valor de la variable al que le correspon-
de la máxima Frecuencia Absoluta Simple. Es el valor típico corres-
pondiente a una distribución de frecuencias, por su propia definición no es
posible obtenerlo en una serie simple cualquiera sea su extensión.
Distribuciones de frecuencias
Nuevamente se debe advertir que según sea la forma en que se
realice la organización de los datos, el cálculo del Modo difiere, no así en
el concepto e interpretación de los resultados.
Datos sin agrupar
A partir de la tabla de frecuencias, para calcular analíticamente el
valor del Modo se debe proceder de la siguiente manera:
1- Ubicar la máxima frecuencia absoluta simple fi.
2- El Modo será el valor de la variable xi al cual le corresponde dicha fre-
cuencia simple fi.
Nota: se considera máxima frecuencia aquella que supera a la inmediata-
mente anterior y siguiente, es decir que verifique: f i-1 ‹ f i › f i-1. Esta defi-
nición implica que puede encontrarse en la misma distribución más de un
valor de la variable que verifique la condición de máximo relativo. Esta si-
tuación se analizará mas adelante.
Como forma alternativa o complementaria, la obtención del valor
Modal se puede realizar gráficamente. Para ello utilizando el gráfico de las
frecuencias absolutas simples, se ubica el bastón que supera en altura al
anterior y al siguiente, es decir el bastón que corresponde a la frecuencia
absoluta simple que verifica fi > fi+1 y fi > fi-1. El valor de X que corres-
ponde a esa frecuencia es el valor modal.
Gráfico 4-4:

95
IV. Medidas Descriptivas

Ejemplo 4-13: Retomando el caso presentado como ejemplo 4-7, obser-


vando la columna de las frecuencias absolutas simples, se comprueba que
la máxima frecuencia es f3= 10 viviendas, ya que supera f2= 4 y a f4= 9. A
este valor de frecuencia máxima le corresponde el valor de la variable x3 =
3 habitaciones por vivienda. Por lo tanto se interpreta que en la ciudad
donde se recopilaron los datos del número de habitaciones por vivienda, lo
más frecuente o típico es que las viviendas tengan 3 habitaciones.
Datos agrupados
Para determinar el valor del Modo cuando los datos recopilados co-
rrespondientes a una variable, se organizan en tablas de frecuencias utili-
zando intervalos dentro del recorrido de la variable, se procede:
1- Se debe ubicar el intervalo que le corresponda la máxima Frecuencia
Absoluta Simple fi, siendo ésta aquella frecuencia que supera a las fre-
cuencias correspondientes a los intervalos inmediatamente anterior y pos-
terior, es decir fi > fi+1 y fi > fi-1 .
2- En el caso de no existir un único valor de la variable con máxima fre-
cuencia, sino un intervalo de máxima frecuencia. Por lo tanto se obtiene
un intervalo modal, el modo será un valor incluido el mismo, genérica-
mente: xmod = Mdo ∈ (xi-1'-xi']
3- Para el cálculo analítico del Modo, se debe realizar una interpolación
entre los límites inferior y superior del intervalo, determinados en el paso
anterior. Este procedimiento considera la magnitud de las frecuencias an-
terior y posterior al intervalo modal. Calculando las magnitudes: ∆1= fi -
fi+1 y ∆2= fi - fi-1, y aplicando propiedades de triángulos semejantes
(opuestos por el vértice), geométricamente se deduce que el Modo es el
valor de la variable que se obtiene reemplazando en la siguiente expre-
∆1
sión: Mdo = x'i−1 + . (Xi' - Xi-1'). En la que Xi-1' representa el límite inferior
∆1 + ∆2
del intervalo modal y (Xi' - Xi-1') es la amplitud del intervalo modal.
Gráficamente el Modo se determina utilizando un Histograma:
Gráfico 4-5

96
IV. Medidas Descriptivas

Para encontrar dónde se ubica el xmod se debe hallar la barra que


supera en altura a la anterior y a la posterior, es decir la que representa la
frecuencia como máximo relativo, y se ubica el intervalo correspondiente,
este intervalo se denomina intervalo modal.
Obtenido el intervalo modal se puede procede a realizar la interpo-
lación geométrica, trazando dos triángulos opuestos por el vértice, como
muestra la figura, que resultan ser triángulos semejantes. Luego en el
punto donde se intersecan la perpendicular y el eje de las abscisas se en-
cuentra el valor aproximado del Modo. Este procedimiento considera la
magnitud de las frecuencias anterior y posterior al intervalo modal.
Ejemplo 4-14: Continuando el análisis descriptivo de los salarios corres-
pondientes a 150 obreros de una fábrica, y trabajando sobre la distribu-
ción de frecuencias presentada en el ejemplo 4-8:

i Intervalos xi fi La máxima frecuencia absoluta simple


1 (1400-1600] 1500 9 es f4= 42, por ser mayor que f3= 23 y
2 (1600-1800] 1700 16 que f5= 33 se calcula:
3 (1800-2000] 1900 23
4 (2000-2200] 2100 42 ∆ 1 = 42 − 23 = 19
5 (2200-2400] 2300 33
∆ 2 = 42 − 33 = 9
6 (2400-2600] 2500 17
7 (2600-2800] 2700 10
Total 150

El intervalo modal correspondiente a la máxima frecuencia es el


ubicado en el orden i= 4, o sea: (2000-2200], cuyo límite inferior es:
x'3 = 2000 y cuya amplitud es 200
Reemplazando las cifras obtenidas en la expresión analítica del cál-
19
culo del Modo se obtiene: xmod = Mdo = 2000 + .200 = 2135 pesos
19 + 9
Este resultado se interpreta que para el conjunto de 150 asalaria-
dos el salario típico es de 2.135 pesos
A continuación se detallan algunas consideraciones importantes de
tener en cuenta si se desea describir un conjunto de datos utilizando como
medida de tendencia central el Modo, con el objeto que su cálculo, uso e
interpretación sean los correctos.
Al momento de definir el Modo de una distribución de frecuencias
absolutas simples, se consideró el concepto de frecuencia máxima como
máximo relativo. Esto implica que en alguna distribución puede haber más
de un Modo. Si existen dos modos, la distribución se denomina bimodal.
Por ejemplo, si consideramos las siguientes distribuciones posibles:

97
IV. Medidas Descriptivas

Gráfico 4-6: Gráfico 4-7:

Se puede observar que tanto en el Histograma como en el gráfico


de Bastones se indican dos valores modales. En estos casos se recomien-
da revisar el diseño del experimento, ya que puede ocurrir que se haya
trabajado, por ejemplo con una subclasificación oculta en las unidades ex-
perimentales que afecta al comportamiento de la variable en estudio. Es
interesante evaluar en estas circunstancias que en el caso del Histograma,
el cálculo de un valor promedio sería una característica de discriminación
o separación entre dos conjuntos de datos, más que un valor de tendencia
central representativo de todo el conjunto.
En una distribución uniforme o con valores de frecuencias absolu-
tas simples que difieren muy poco entre sí se concluye que no existe el
Modo. Por ejemplo en distribuciones de frecuencias con gráficas como las
siguientes:

Gráfico 4-8: Gráfico 4-9:

98
IV. Medidas Descriptivas

Relación entre las medidas de tendencia central


Hay aspectos de las distribuciones de frecuencia que son importan-
tes estudiar y uno de ellos es conocer la característica descriptiva que co-
rresponde a la forma de las distribuciones de frecuencias, esto se refiere a
cómo el conjunto de datos se distribuye respecto en el campo de variación
de la variable en estudio.
En particular, se analiza si la distribución de los datos es o no si-
métrica. Si la distribución de los datos no es simétrica la distribución se
denomina asimétrica o sesgada
Existen varios coeficientes para medir la simetría. Pero a los fines
descriptivos es suficiente, una vez calculados los valores de tendencia
central: Media aritmética, Mediana y Modo, comparar los valores obteni-
dos.
En el caso que las medidas coincidan en un único valor de la varia-
ble, xi =M (x)= xMdo = xMna, se puede considerar que la distribución es
simétrica o con sesgo cero. Gráficamente se tiene la distribución que se
presenta a continuación:

Gráfico 4-10:

Si la distribución es asimétrica a la derecha, significa que empíri-


camente se presentó una mayor cantidad de datos que corresponden a
valores pequeños del recorrido de la variable y pocos correspondientes a
valores superiores de este recorrido.
Es así que entonces la Media Aritmética, para cuyo cálculo se consideran
todos los valores observados, se ve afectada por los valores extremos que
asume la variable, en este caso los ubicados a la derecha. En consecuen-
cia asume un valor mayor que la Mediana, que no se ve afectada por los
valores extremos, ya que en su cálculo intervienen sólo los valores centra-
les. Resultando: Mdo < Mna < M (x), esta situación es la presentada en el
Gráfico 4-11. Si la distribución es asimétrica a la izquierda, en forma aná-
loga a las razones expresadas en el caso anterior, resulta generalmente:
M (x) < Mna < Mdo, según se presenta en el Gráfico 4-12.

99
IV. Medidas Descriptivas

Gráfico 4-11: Gráfico 4-12:

Es importante destacar que el empleo de las medidas descriptivas,


para caracterizar el comportamiento de la distribución de una variable no
se puede aislar de la forma de la distribución, es así que en distribuciones
asimétricas la Mediana adquiere mayor representatividad como medida de
tendencia central que la Media Aritmética.
Ejemplo 4-15: Para el ejemplo donde se presentan los salarios de 150
asalariados se calcularon las medidas de tendencias central, obteniendo
en orden de magnitud los valores de la media aritmética: 2.120 pesos,
mediana: 2.128 pesos y modo: 2.135 pesos. Se concluye que la distribu-
ción es ligeramente asimétrica a la izquierda.
Existen otras medidas útiles si se desea contar con valores de la
variable que ubiquen posiciones no central. Estas medidas conocidas como
Cuantiles tienen la característica de dividir el recorrido de la variable de
modo que agrupen igual cantidad de datos entre dos de ellos. A continua-
ción se presentan algunos de ellos.

2.4. Cuartiles
A partir de un conjunto de datos ordenados en forma creciente o
decreciente, los cuartiles son tres valores que dividen el recorrido de la
variable en cuatro partes o intervalos a los que les corresponden igual
proporción de datos.
En el tratamiento y caracterización de la información, adquieren relevan-
cia particular dos de los cuartiles, uno de ellos, el Cuartil Inferior o primer
cuartil, es el valor de la variable que supera a no más de la cuarta parte
de las observaciones y a su vez es superado por no más de las tres cuar-
tas partes de las observaciones. El otro cuartil denominados Cuartil Supe-
rior o tercer cuartil, es el valor de la variable que supera a no más de las
tres cuartas partes de las observaciones y a su vez es superado por no
más de la cuarta parte de las observaciones. El segundo cuartil coincide
con la Mediana por lo tanto brinda la misma información que ésta.
Serie simple de datos
Cuando se tiene una serie simple de datos, para el cálculo de los
Cuartiles se debe proceder en primer lugar a ordenar la serie de menor a

100
IV. Medidas Descriptivas

mayor valor o viceversa, y luego evaluar si la cantidad de observaciones


es múltiplo de cuatro.
En el caso de ser n múltiplo de cuatro para el cálculo del Cuartil
Inferior Q i , que corresponde al valor de la variable que deja por debajo
al 25 % de las observaciones y es superado por el 75% de las observacio-
nes, y para el cálculo del Cuartil Superior Q s, que corresponde al valor
de la variable que deja por debajo al 75% de las observaciones y a la vez
es superado por el 25% de las observaciones, se debe proceder a reem-
plazar en las fórmulas de cálculo correspondientes:
xn + xn x 3.n + x 3.n
+1 +1
Qi = Q1 = 4 4
Q s = Q3 = 4 4
2 2
En el caso que n no sea múltiplo de cuatro, entonces los cuartiles
coinciden con algún valor de la serie ordenada de observaciones.

Distribuciones de frecuencias
Al trabajar con tablas de frecuencias para el cálculo de los Cuartiles
se trabaja en forma análoga al caso de la Mediana diferenciando según
estén o no agrupados los datos.
Datos sin agrupar
Por lo general cuando la variable es discreta, se dispone de una ta-
bla de frecuencias con datos sin agrupar, en este caso el cálculo analítico
y gráfico de los cuartiles es exacto.
Los datos ya están ordenados y dispuestos en una tabla de fre-
cuencias, en la que debe constar como mínimo las frecuencias absolutas
simples y acumuladas.
El procedimiento de cálculo es muy sencillo y se detalla a continua-
ción:
1- En primer término se debe calcular el Orden de los Cuartiles. O sea de-
terminar su posición, esto implica calcular los valores:
n 3.n
O q i = O q1 = O qs = O q3 =
4 4
2- Luego se ubican las Frecuencias Absolutas Acumuladas Fi , para ambos
Cuartiles tal que verifiquen: Fi −1 < Oq ≤ Fi .
3- El valor del Cuartil correspondientes es aquél valor de la variable (xi) al
cual le corresponde dicha frecuencia acumulada Fi.
Si el cuartil de orden coincide con una de las frecuencias acumuladas, en-
xi + x i + 1
tonces el cuartil normalmente es calculado como Q = .
2
Para la determinación gráfica de los cuartiles se utiliza el gráfico de
las Frecuencias Acumuladas Simples. Calculado el orden de los Cuartiles,
se ubican estos valores en el eje de las ordenadas, desde ese punto de in-

101
IV. Medidas Descriptivas

tersección se traza una línea paralela al eje de las abscisas hasta inter-
ceptar el gráfico de frecuencias acumuladas, luego partiendo ese punto se
dibuja la perpendicular al eje de abscisas. El punto de intersección en el
eje de las abscisas es el valor de la variable del correspondiente Cuartil.

Gráfico 4-13: Gráfico 4-14:

Datos agrupados
En el cálculo analítico se procede de forma similar al caso de la
mediana.
k.n
1- Se calcula el cuartil de orden, en general: O k = con k = 1, 2, 3
4
2- Luego se determina la frecuencia acumulada Fi tal que Fi −1 < O k ≤ Fi .
Esto indica que el cuartil es el valor de la variable que pertenece al i-
ésimo intervalo, para el cual corresponde la frecuencia acumulada Fi .
Es decir: Q k ∈ (x 'i − 1 ; x 'i ] .
En forma análoga al caso de la Mediana , por propiedades de triángulos
Q o − Fi − 1
semejantes, se deduce que: Q k = x 'i − 1 + k .(x i' − x i' − 1 )
fi
Para la determinación gráfica de los Cuartiles nuevamente se utili-
za el gráfico de Frecuencias acumuladas simples, y en forma análoga al
procedimiento utilizado para la Mediana, se ubican sobre el eje de la va-
riable en estudio los valores, aproximados, correspondiente a los Cuarti-
les.
Ejemplo 4-16: Retomando el caso de los 150 asalariados del
ejemplo 4-8, se calcula el cuartil superior:
3.n 3.150
O3 = = = 112,5 Luego se reemplaza en la fórmula
4 4

102
IV. Medidas Descriptivas

112,5 − 90
Q 3 = x 0,75 = 2200 + 200 = 2236 pesos
33
Esta medida de posición de tendencia no central está indicando que
el 75% de los asalariados gana menos de 2236 pesos y el 25% restante
ganan más de 2236$.

2.5. Deciles
A partir de un conjunto de datos ordenados en forma creciente o
decreciente, los deciles son nueve valores que dividen el recorrido de la
variable, en diez partes o intervalos a los que les corresponden igual pro-
porción de datos.
Es decir, proporcionan los valores correspondientes que acumulan
el 10%, 20%... y 90% de los datos. Se calculan utilizando procedimientos
similares a los casos anteriores.

3. Medidas de Dispersión
Las medidas de dispersión son aquellas que proporcionan infor-
mación acerca de la distancia o desvío que presentan los valores de la va-
riable respecto a un cierto valor central. Estas permiten identificar el gra-
do de concentración de los datos.
Gráficamente si se presen- Gráfico 4-15
tan tres poligonales correspon-
dientes a distribuciones de fre-
cuencias hipotéticas: A, B y C,
como en el Gráfico 4-15, se ob-
serva que la distribución A tiene
menor dispersión que la B y que
la C, las tres tienen igual medi-
das de tendencia central, pero di-
ferente concentración de datos
alrededor de la misma:
Otra situación que se pue- Gráfico 4-16
de presentar es aquella en que
las distribuciones de frecuencia
como las presentadas en el Grafi-
co 4-16, se observa igual disper-
sión respecto a sus medidas de
tendencia central siendo estas úl-
timas distintas por estar despla-
zadas, una respecto a la otra, so-
bre el eje de las abscisas.

La medida de dispersión más utilizada es el desvío Standard o des-


viación típica, aunque también proporciona información útil sobre la varia-

103
IV. Medidas Descriptivas

ción de los datos: el rango, el recorrido intercuartil, y la desviación cuartí-


lica. Estas medidas son las que indican, en general, la intensidad con que
se dispersan o concentran los valores observados con respecto a una me-
dida de tendencia central, en este sentido caracterizan la variabilidad que
presentan los valores de las observaciones, complementando la descrip-
ción de los datos ya realizada con las medidas de posición.

3.1. Rango
Para un conjunto de n datos empíricos ordenados de menor a ma-
yor el Rango es la diferencia entre los valores correspondientes al
extremo superior e inferior . Es decir se calcula como el máximo valor
observado menos el mínimo valor observado del conjunto de valores:
R = xmáx - xmín
Ejemplo 4-16: Para una muestra de cinco datos: 1, 45, 50, 55, 100, el
dato menor magnitud es 1 y el dato mayor es 100. Luego los valores de
esta serie presentan un rango de: Rango = 100 – 1 =99
El rango como medida de dispersión fácil de entender y calcular no
tiene en cuenta como se distribuyen los datos entre los valores extremos.
Es una primera aproximación, puede resultar errático en el caso de tener
observaciones extremas, como en el ejemplo anterior.

3.2. Rango Intercuartil


Es la diferencia entre cuartil superior menos cuartil inferior,
su ventaja frente al Rango es que evita el problema de existencia de valo-
res atípicos en los datos ya que no considera el 50% de los valores ex-
tremos.
El Rango Intercuartílico es la amplitud del intervalo que contiene el
50% de las observaciones centrales: RQ = Q s - Q i
El Rango Intercuartil es una medida de dispersión sencilla pero
presenta dos desventajas: una es que mide esta característica en el cen-
tro de los datos no teniendo en cuenta a los datos en su totalidad y otra
es que sólo mide la distancia entre Q1 y Q3 y no la forma en que los datos
se distribuyen entre ambos cuartiles.

3.3. Desviación Cuartílica


También se puede calcular y utilizar, como medida de dispersión la
Desviación Cuartílica, que se define y calcula como el la diferencia en-
Qs − Qi
tre el cuartil superior y el cuartil inferior, dividido dos: DQ =
2
En distribuciones simétricas se verifica que el intervalo
( x - DQ ; x + DQ ) contiene el 50% de las observaciones centrales, pues
coincide con el intervalo (Qi ;Q s ) .

104
IV. Medidas Descriptivas

La Desviación Cuartílica es una medida de dispersión que igual al


Rango Intercuartílico, en su cálculo no intervienen los valores extremos,
por lo tanto no toma en consideración los valores menores a Q1 y los su-
periores a Q3. Asimismo el valor que asume la desviación intercuartílica no
refleja los distintos comportamientos de los valores observados compren-
didos entre Q1 y Q3.
Las tres medidas anteriores resultan circunstancialmente descripti-
vas de la dispersión de un conjunto de observaciones, pero no deben ser
utilizadas sin dejar de considerar las advertencias hechas sobre sus limita-
ciones.
Es por ello que se busca una característica de dispersión que resu-
ma y sea representativa del conjunto de observaciones. En este sentido la
medida de dispersión más importante y más utilizada en Estadística Des-
criptiva es el Desvío Standard. Para llegar a su definición y expresión
analítica se debe previamente definir y calcular la Variancia.

Variancia
Serie simple
Sean x1,..., xi ,..., xn, los valores observados de la variable X.
Si interesa encontrar una medida del grado de concentración o dis-
persión con que se presentan todas las observaciones, tomando como
centro de referencia al promedio aritmético, es razonable considerar la
magnitud que resulta al hacer la diferencia entre el valor de cada observa-
ción y el valor del promedio aritmético correspondiente, valor que recibe
el nombre de desvío, éste se simboliza y calcula: di = x i − x
Un primer análisis de los posibles resultados para el conjunto de
desvíos es que éstos pueden resultar con signo positivo, negativo o cero,
según sea que la observación supere el valor del promedio, sea inferior o
igual a él.
Como se desea encontrar una medida que en su cálculo utilice to-
dos los datos observados, para que sea representativa del conjunto de
observaciones, se debe calcular la media aritmética de estos desvíos, se
está midiendo así la dispersión promedio en torno a la misma.
En este punto se debe recordar que por propiedad de la media
aritmética este cálculo resulta siempre igual a cero. Luego, un procedi-
miento posible es considerar estos desvíos elevados al cuadrado, obte-
niendo un cálculo promedio de distancias cuadradas, definiendo así la Va-
riancia. Otra alternativa puede ser considerar el valor absoluto de todos
los desvíos y luego promediar. Este último procedimiento no será conside-
rado por ahora.
Por lo tanto la Variancia se define y calcula como el promedio
de los cuadrados de los desvíos de cada observación respecto de la
media aritmética correspondiente a estos datos.
Su cálculo se realiza utilizando la siguiente expresión algebraica:

105
IV. Medidas Descriptivas

2 ∑ (x i − x)2
V(x) = S (x) = i =1
n
Interpretando:
x1,…,xi ,...,xn serie simple de observaciones.
n: total de observaciones.
i : subíndice que indica el orden en que se ubica cada observación.
Σ: símbolo que corresponde a la letra griega Sigma, se utiliza en forma
convencional para indicar “sumatoria”, en este caso, según lo definido en
los límites de la sumatoria se debe sumar desde el primer valor observado
hasta el último.
Distribuciones de frecuencias
La Variancia se define y calcula para datos agrupados o no, como el
promedio de los cuadrados de los desvíos respecto de la media aritmética,
ponderado por la frecuencia absoluta correspondiente. Simbólicamente:
m

∑ (x
i =1
i − x)2 . fi
V(x) = m

∑f
i =1
i

Considerando:
x1,…,xi ,...,xm en datos no agrupados: valores distintos observados y or-
denados sin repetir. En datos agrupados: punto medio de los intervalos
considerados.
fi en datos no agrupados: cantidad de veces que se observó el valor de la
variable xi. En datos agrupados: cantidad de veces que se observó un va-
lor de X incluido en el intervalo (xi-1' - xi '].
m: para datos no agrupados: total de valores distintos observados. Para
datos agrupados: número total de intervalos considerados.
n: total de observaciones
i: subíndice que indica el orden en que se ubica cada observación
Σ: símbolo que corresponde a la letra griega Sigma, se utiliza en forma
convencional para indicar “sumatoria”, en este caso, según lo definido en
los límites de la sumatoria se debe sumar desde el primer valor observado
hasta el último, en este caso sumar ordenadamente los resultados del
producto x i2 fi
Las propiedades de la Variancia que se enuncian a continuación,
resultan de interés tanto al momento de realizar cálculos, como así tam-
bién por sus aplicaciones teóricas, necesarias éstas en desarrollos poste-
riores.
1– La Variancia de una variable es estrictamente mayor que cero:
V(x) > 0 para X variable

106
IV. Medidas Descriptivas

2– La variancia da como resultado cero sólo si los valores observados son


todos iguales:
V(k) = 0 para k constante
Demostración:
n n


j=1
(k − M(k))2 ∑ (k − k)
j=1
2

V(k) = = =0
n n
3- La variancia de una variable aumentada o disminuida en una constante
es igual a la variancia de la variable:
V(x ± k) = V(x) para k constante.
Demostración:
∑ ((x ± k) − M(x ± k)2 ) ∑ (x ± k − M(x) m M(k))
n n
2

j=1 j=1
V(x ± k) = = =
n n

∑ (x − M(x))
n
2

j=1
= = V(x)
n
4- La variancia de una constante multiplicada por una variable es igual a
la constante al cuadrado multiplicada por la variancia de la variable:
V(k.x) = k2.V(x) para k constante.
Demostración:

∑ ((xk ) − M(xk ) ) ∑ (xk − M(x)k )


n n n

j =1
2

j =1
2
k2 ∑ (x − M(x))
j =1
2

V(kx ) = = = = k 2 V(x)
n n n
5– La variancia de la combinación lineal de una variable, es igual a la
misma combinación lineal aplicando las propiedades de la V(x):
V(a.x ± b) = a2.V(x) para a y b constantes.
Demostración:
∑ ((ax ± b) − M(ax ± b)2 ) ∑ (ax ± b − M(ax) m M(b))
n n
2

j=1 j=1
V(ax ± b) = = =
n n

∑ (ax − M(ax))
n
2

j=1
= = a2 V(x)
n
6– La variancia de la suma o resta de dos variables independientes es
igual a la suma de las variancias de cada una de ellas:
V( x ± y )= V(x) + V(y) x, y independientes
7- La variancia de la suma o resta de dos variables no independientes es
igual a la suma de las variancias de cada una de ellas aumentada o dis-
minuida dos veces la covariancia entre ellas:
V( x ± y )= V(x) + V(y) ± 2 Cov (x,y) x, y no independientes
Nota: el concepto de Covariancia se desarrolla en el capítulo siguiente.

107
IV. Medidas Descriptivas

Es importante destacar que en el cálculo de la variancia para una


variable observada, el resultado se expresa en unidades de medida al
cuadrado: Kilogramos al cuadrado, segundos al cuadrado, pesos al cua-
drado. Así por ejemplo si X es: distancia medida en metros, al realizar el
cálculo de la variancia de la variable, el resultado modifica su unidad de
medida de tal forma que ya no es una medida de longitud (m) y se trans-
forma en una medida de superficie (m2). Es por ello que se define el des-
vío standard como la medida de dispersión cuyo resultado se expresa en
la unidad de medida de la variable estudiada.
Al estudiar dos distribuciones de frecuencias, referidas a la misma
variable, con igual recorrido existe mayor dispersión en aquella que posee
mayor variancia.

3.4. Desvío Standard


El Desvío Standard se define y calcula como la raíz cuadrada
de la Variancia.
Es la medida de dispersión más utilizada en los análisis empíricos
como así también en desarrollos de la teoría Estadística.
Serie simple
Sean x1,…,xi ,...,xm los valores observados de la variable X. Una vez
obtenida la Variancia el Desvío Standard se calcula:
n

∑( x
i=1
i − x )2
S(x) =
n
Considerando:
x1,…,xi ,...,xn serie simple de observaciones.
n: el total de observaciones.
i: subíndice que indica el orden en que se ubica cada observación.
Σ: símbolo que corresponde a la letra griega Sigma, se utiliza en forma
convencional para indicar “sumatoria”, en este caso, según lo definido en
los límites de la sumatoria se debe sumar desde el primer valor observado
hasta el último.
Ejemplo 4-18 Retomando el ejemplo 4-1 relativo a información sobre
precios en pesos del kilo de pan: 2$, 1,80$, 1,50$, 2,10$. Cuya media
aritmética resultó igual a 1,85$, para calcular la Variancia y luego el des-
vío Standard se procede:

108
IV. Medidas Descriptivas

n
2 ∑ (xi − x)2 (2 − 1,85)2 + (1,80 − 1,85)2 + (1,50 − 1,85)2 + (2,10 − 1,85)2
V(x) = S (x) = i =1
= =
n 4
0,0225 + 0,0025 + 0,1225 + 0,5
V(x) = = 0,161875
4
S(x) = V(x) = 0,161875 = 0,4023

Distribuciones de frecuencias
Para calcular el desvío Standard en distribuciones de fre-
cuencias, la expresión algebraica es la siguiente:
m

∑(x
i =1
i − x )2 . fi
S(x) =
n
Definiendo:
x1,…,xi ,...,xm en datos no agrupados: valores distintos observados y or-
denados sin repetir. En datos agrupados: punto medio de los intervalos
considerados.
fi en datos no agrupados: cantidad de veces que se observó el valor de la
variable xi. En datos agrupados: cantidad de veces que se observó un va-
lor de X incluido en el intervalo (xi-1' - xi '].
m para datos no agrupados: total de valores distintos observados. Para
datos agrupados: número total de intervalos considerados.
n: total de observaciones
i : subíndice que indica el orden en que se ubica cada observación
Σ: símbolo que corresponde a la letra griega Sigma, se utiliza en forma
convencional para indicar “sumatoria”, en este caso, según lo definido en
los límites de la sumatoria se debe sumar desde el primer valor observado
hasta el último, en este caso sumar ordenadamente los resultados del
producto xi2.fi
Análogamente y por las mismas razones expresadas en el caso de
la Variancia, se enuncian las propiedades del desvío Standard:
1- El desvío standard de una variable es estrictamente mayor que cero:
S(x) > 0 para X variable
2– El desvío standard de una constante es igual a cero:
S(k) = 0 para k constante
3- El desvío standard de una variable aumentada o disminuida en una
constante es igual al desvío standard de la variable:
S(x ± k) = S(x) para k constante
4- El desvío standard de una constante multiplicada por una variable es
igual a la constante al cuadrado multiplicada por el desvío standard de la
variable:
S (k.x) = k.S(x) para k constante positiva

109
IV. Medidas Descriptivas

5- El desvío standard de la combinación lineal de una variable, es igual a


la misma combinación lineal aplicando las propiedades del desvío stan-
dard.
S(a.x ± b) = a.S(x) para a y b constantes
Ejemplo 4-19: Con la información referida al número de habitaciones pa-
ra 34 viviendas presentadas en el ejemplo 4-7 se realizó el cálculo de la
media aritmética, la cual resultó igual a 3,647. Con este dato se calcula la
variancia y el desvío correspondiente:
m
∑ (x i − x)2 .fi
i=1
V(x) = =
n
6 (1 − 3,647)2 .2 + (2 − 3,647)2 .4 + ... + (5 − 3,647)2 .6 + (6 − 3,647)2 .3
V(x) = ∑ =
1 34
V(x) = 1,699391 S(x) = V(x) = 1,36036 habitaciones
Ejemplo 4-20: El cálculo de la variancita y el desvío Standard para el
ejemplo 4-8, referido a los salarios mensuales en pesos de 150 asalaria-
dos se calcula a continuación. En este ejemplo, para mejor comprensión
del cálculo se presenta la tabla de trabajo.

I Intervalos xi fi x i . fi
(x − x ) (x − x )2 (x − x )2 . fi
1 (1400-1600] 1500 9 13.500 -620 384.400 3.459.600
2 (1600-1800] 1700 16 27.200 -420 176.400 2.822.400
3 (1800-2000] 1900 23 43.700 -220 48.400 1.113.200
4 (2000-2200] 2100 42 88.200 -20 400 16.800
5 (2200-2400] 2300 33 75.900 180 32.400 1.069.200
6 (2400-2600] 2500 17 42.500 380 144.400 2.454.800
7 (2600-2800] 2700 10 27.000 580 336.400 3.364.000
150 318.000 1.122.800 14.300.000

m
∑ ( xi − x )2. fi 14.300.000
V(x) = i=1
= = 95.333,33
n 150
S(x) = V(x) = 308,76 pesos

Regla empírica fundamental del Desvío Standard


Una de las aplicaciones más frecuente del Desvío Standard, por su
interpretación en forma práctica, es su uso para calcular intervalos en el
recorrido de la variable en estudio que, bajo ciertas condiciones, com-
prende proporciones aproximadas del total de observaciones. Explícita-
mente se enuncian a continuación.

110
IV. Medidas Descriptivas

En distribuciones empíricas acampanadas y con un número de


observaciones suficientemente grande, se verifica que aproximada-
mente:

El intervalo que tiene co- .


mo límite inferior el valor de la
variable que se obtiene de calcu-
lar la media aritmética menos un
desvío y como limite superior la
media más un desvío, contiene
aproximadamente al 68% de las
observaciones.
( x − S(x) ; x + S(x) ) contiene
aproximadamente al 68% de las
observaciones

El intervalo que tiene co-


mo límite inferior el valor de la
variable que se obtiene de calcu-
lar la media aritmética menos
dos desvíos y como limite supe-
rior la media más dos desvíos,
contiene aproximadamente al
95% de las observaciones.
( x − 2.S(x) ; x + 2.S(x) ) contiene
aproximadamente al 95% de las
observaciones.

El intervalo que tiene co-


mo límite inferior el valor de la
variable que se obtiene de calcu-
lar la media menos dos desvíos y
como limite superior la media
más dos desvíos, contiene
aproximadamente al 99% de las
observaciones.
( x − 3.S(x) ; x + 3.S(x) ) contiene
aproximadamente al 99% de las
observaciones.

111
En síntesis el Desvío Standard conceptualmente, mide la dispersión
promedio en torno a la media aritmética, considerando todas las observa-
ciones. En su uso práctico es muy útil al momento de sacar conclusiones o
tomar decisiones, ya que determina la mayor o menor representatividad
de la media aritmética y está vinculado al concepto de precisión, interpre-
tando su magnitud, según se expresa:

mayor S(x) ⇒ mayor dispersión ⇒ menor precisión


Esto es válido para la comparación del grado de dispersión de dos
conjuntos de datos correspondientes a la misma variable, expresados en
la misma unidad de medida.

3.5. Dispersión Relativa


Si para dos o más conjuntos de datos, las unidades de medida de
la misma variable estudiada difiere para cada uno de ellos o las variables
a considerar son de distinta naturaleza, para poder realizar comparaciones
concernientes al grado de concentración de las observaciones entre los
conjuntos, se requiere buscar para cada conjunto un coeficiente de varia-
ción adimensional que mida la dispersión, relativa al valor de la media
aritmética de cada uno de ellos y luego comparar.
Coeficiente de Variación
Se lo define y calcula como el cociente entre el desvío Standard
y la media aritmética de los datos, por lo tanto indica el valor relativo
existente entre la desviación standard en una muestra y su media. Por la
forma de cálculo se elimina la unidad de medida, resultando un coeficiente
S(x)
adimensional, normalmente expresado en porcentaje. CV = .100
x
Su aplicación es adecuada en los siguientes casos:
- Cuando es necesario comparar dos conjuntos de datos en los cuales se
estudian variables diferentes, y por lo tanto se están utilizando unidades
de medida diferentes.
- También se lo utiliza cuando se desea comparar dos conjuntos de datos
en los cuales se estudia la misma variable pero con medias diferentes.
Se debe advertir que el principal inconveniente es que, al ser un
coeficiente inversamente proporcional a la media aritmética, cuando ésta
tome valores cercanos a cero, el coeficiente tenderá a infinito.
Su interpretación se vincula no sólo con la dispersión sino con la
homogeneidad de los datos objeto de análisis. En este sentido se conclu-
ye:
- A mayor valor del coeficiente de variación mayor heterogeneidad de los
datos, mostrando mayor dispersión de los mismos.
- A menor coeficiente de variación mayor homogeneidad en los datos, en
consecuencia presentan más concentración.

112
V. Técnicas básicas de análisis

TÉCNICAS BÁSICAS DE ANÁLISIS

1. Variable Bidimensional
En las etapas operativas de la investigación estadística, presenta-
das en el capítulo II, el Análisis de Datos se ubica dentro de las últimas
etapas. Esto implica estudiar, explorar, comparar, razonar, destacar lo
esencial de la información que los datos brindan, individualmente o en
conjunto, respetando siempre los objetivos planteados en la investigación.
Hasta ahora se ha presentado y desarrollado el análisis de los da-
tos cuando se trabaja con una sola variable. Sin embargo en estudios ex-
perimentales es muy frecuente realizar análisis bidimensionales, es decir a
cada unidad estadística se le observa o miden conjuntamente dos caracte-
rísticas y en este caso interesa analizar el comportamiento conjunto de
esas dos variables, realizando un análisis causa-efecto o simplemente mi-
diendo relación entre atributos..
Un primer análisis de las variables bidimensionales cuantitativas,
es estudiar el comportamiento de cada una de sus componentes en forma
unidimensional, de manera que se calculan las medidas de posición y dis-
persión ya estudiadas.
La Estadística Descriptiva bidimensional permite el estudio simul-
táneo de las componentes de la variable y tiene como propósito emplear
técnicas estadísticas a través de las cuales se consigue poner de manifies-
to las coincidencias de determinados valores o categorías entre dichas
componentes. Por medio del estudio bidimensional se podrá determinar si
existe algún tipo de dependencia estadística entre ellos. Es necesario
hacer hincapié en el carácter estadístico de dependencia, sin que de forma
alguna se pueda afirmar una relación causal entre ellas. Ninguna herra-
mienta estadística permite afirmar relaciones de causalidad; otra cosa es
que la dependencia estadística entre ambos caracteres pueda sugerir una
posible relación causal.

2. Variables cuantitativas
En el caso de estar trabajando con una variable bidimensional cu-
yas componentes sean ambas cuantitativas, es natural indagar a cerca de
la relación entre ambas componentes para ello es interesante comenzar a
describir si existe algún tipo de relación, calculando la covariancia.

2.1. Covariancia
Al trabajar con una serie simple de datos bidimensionales(x1, y1 ),
(x2, y2 ), (x3, y3 ), ..., (xn, yn ) y con el fin de analizar la relación entre las
componentes (variables) la primera exploración es graficar el conjunto de
n observaciones bidimensionales en un diagrama de dispersión o nube de
puntos:

113
V. Técnicas básicas de análisis

Si la gráfica representada en el plano posee características que su-


pone una relación entre las variables, el tratamiento se debe comenzar
con el cálculo de la covariancia.
En este conjunto de datos bidimensionales se puede analizar de
forma unidimensional las variables calculando las medidas de posición y
dispersión de cada una de las componentes.
Con el fin de evaluar el comportamiento conjunto en este punto se
debe encontrar un coeficiente que brinde una medida de la variación con-
junta entres ambas variables. Esta medida está dada por un coeficiente
denominado covariancia cuya expresión matemática es la siguiente.
n
∑ (xi − x).(yi − y)
Cov(x, y) = i =1

n
Para interpretar la covariancia, se debe comenzar con un análisis
del signo de los desvíos de las observaciones respecto a los promedios de
cada variable y del signo resultante de su producto, en forma individual y
conjunta. Para mejor comprensión del razonamiento ha realizar se acom-
paña la presentación con dos gráficos apropiados.
En el Gráfico A se presenta un diagrama de dispersión con un com-
portamiento de las observaciones que se ajusta al de una forma de rela-
ción lineal directa entre las variables, en cambio en el Gráfico B los datos
siguen aproximadamente un comportamiento lineal pero inverso.
Gráfico A Gráfico B

114
V. Técnicas básicas de análisis

En ambos gráficos se divide el diagrama de dispersión en cuatro


cuadrantes determinados por los valores promedios de X e Y. Luego to-
mando una observación, por vez, en cada cuadrante, se analiza el signo
de los desvíos y productos correspondientes.
Como resultado del análisis anterior, se presenta la siguiente tabla:
Signo de los des- Signo del producto
Cuadrante Relación respecto víos
al promedio xi − x yi − y (x i − x).(y i − y)
I xi > x , yi > y + + +
II xi < x , yi > y - + -
III x i < x , yi < y - - +
IV xi > x , yi < y + - -

Evaluando la ubicación de la nube de puntos y trabajando con la


formula de cálculo se concluye:
 Cuando la relación entre las variables es directa la mayoría de los
puntos estarán en el 1° y en el 3º cuadrantes, en cuyo caso la suma de
los productos de los desvíos será positiva, luego, la Covariancia es positi-
va. Gráfico A.
 Cuando la relación entre las variables es inversa la mayoría de los
puntos estarán en el 2° y en el 4º cuadrantes, en cuyo caso la suma de
los productos de los desvíos será negativa, luego, la Covariancia es nega-
tiva. Gráfico B.
 Cuando no existe relación entre las variables, los puntos se distri-
buirán uniformemente en los cuatro cuadrantes, y por lo tanto habrá tan-
tos términos positivos como negativos; en este caso se compensan los
términos positivos con los negativos anulando la suma de los productos de
los desvíos, la Covariancia será cero o muy próxima a cero. Gráfico C ó D.

Gráfico C Gráfico D

115
V. Técnicas básicas de análisis

Por lo tanto:
Cov (x, y) > 0 ⇒ existe relación directa entre las variables.
Cov (x, y) < 0 ⇒ existe relación inversa entre las variables.
Cov (x, y) = 0 ⇒ no existe relación lineal entre las variables.
De esta forma se concluye que:
 La Covariancia mide la variancia conjunta entre dos variables cuan-
titativas X e Y e indica además el tipo de relación que existe entre ellas:
directa, inversa, o bien, la ausencia de una relación lineal.
 Si bien el valor absoluto de la Covariancia aumenta a medida que
aumenta la intensidad de la relación, este valor no nos indica el "grado de
la relación", ya la Covariancia, como regla general, puede asumir cual-
quier valor real. Entonces se torna necesario disponer de un coeficiente
adimensional que mida, o cuantifique, la intensidad de la relación que
existe entre dos variables cuantitativas y que además asuma valores aco-
tados.

2.2. Coeficiente de Correlación muestral


El coeficiente de correlación muestral Bravais –Pearson mide la in-
tensidad de la relación lineal entre dos características cuantitativas, ob-
servadas simultáneamente para una misma unidad estadística.
Este coeficiente cuantifica la dispersión de las observaciones en
torno a la recta mínimo cuadrática, obtenida ésta como ajuste de la nube
de puntos según el método estadístico llamado Análisis de Regresión y
Correlación.
La expresión matemática para el cálculo del coeficiente de correla-
ción es:
cov(x, y) Σ (x i − x).(y i − y)
r = = -1 ≤ r ≤ 1
S(x).S(y) Σ (x i − x)2 (y i − y)2
Este coeficiente asume valores entre -1 y 1. En el caso que r sea
estrictamente positivo, r> 0, o estrictamente negativo, r<0, se concluye
que existe relación; mientras que si r=0, se concluye que las variables no
están relacionadas en forma lineal.
El signo del coeficiente depende del signo de la covariancia, cuando
los puntos se encuentran alineados el valor absoluto del coeficiente de co-
rrelación es 1, su signo responde a la ubicación de las observaciones res-
pecto a los valores medios de las variables x e y, y se concluye que la co-
rrelación es perfecta.
Si el coeficiente de correlación lineal es igual a 1, indica una rela-
ción perfecta y directa entre las variables, si asume el valor -1 existe una
relación perfecta e inversa entre las variables.
Si las correlaciones no son perfectas los valores de r variarán, de-
finiendo una correlación de media a alta si r asume en valor absoluto en-

116
V. Técnicas básicas de análisis

tre 0,5 y 1 y se define una correlación de baja a media si r en valor abso-


luto varía de cero a 0,5.
El diagrama de dispersión o nube de puntos, como representación
gráfica de observaciones correspondiente a una variable bidimensional
cuantitativa, es un recurso útil para realizar en primera instancia el análi-
sis de las observaciones y evaluar si existe alguna relación en el compor-
tamiento de las variables en forma conjunta, así como la forma que toma
ésta. En el capítulo III se puede observar los gráficos 3-7 a y b. Si el caso
estudiado corresponde a la forma de la nube del gráfico 3-7 a y la obten-
ción de la información verifica los supuestos del método de regresión es
posible realizar el cálculo correspondiente al Coeficiente de Correlación.

Ejemplo 5-1: Utilizando la información presentada en la tabla 3-3 del


ejemplo 3-7, se construye el diagrama de dispersión y se traza la recta de
ajuste mínimo cuadrática:

Orden i xi yi Alumnos según altura y peso


1 154 53 (n=100)
2 169 68
3 160 72
4 172 81
5 166 65
6 174 78
7 170 73
8 162 60
9 171 72
10 170 77

Al representar los pares observados, éstos muestran una tendencia


lineal, se calcula e interpreta el coeficiente de correlación:
cov(x, y) Σ (x i − x).(y i − y)
r = = = 0.8341
S(x).S(y) Σ (x i − x)2 (y i − y)2
Se interpreta diciendo que existe una alta relación directa entre las
variables altura y peso de los alumnos.
Esta herramienta es rigurosa y confirmatoria del supuesto de rela-
ción entre las variables, que se estableció dentro de los objetivos de la in-
vestigación.
Si a este coeficiente se lo eleva al cuadrado, se obtiene el coefi-
ciente de determinación: r2 = 0.6957 que se expresa en porcentaje y se
interpreta que el 69.6% de la variabilidad de Y esta explicada por la va-
riabilidad de X.

117
V. Técnicas básicas de análisis

3. Variables cualitativas
En el caso de variables cualitativas el análisis consiste en la bús-
queda de la relación entre dos o más atributos, construyendo tablas de
contingencia en las cuales se puede estudiar la independencia estadística
entre los distintos atributos.
Al trabajar con estas variables la falta de independencia entre los
atributos suele denominarse asociación, y el análisis del grado de asocia-
ción entre variables cualitativas tiene fuerte incidencia en la estadística no
paramétrica.
Al analizar datos empíricos recopilados utilizando una encuesta, por
ejemplo de opinión, a menudo se desea analizar como respondieron los
entrevistados considerando en su tabulación simultánea dos o más pre-
guntas vinculadas entre sí de acuerdo al objetivo planteado por el investi-
gador. Para ello primero se debe organizar la información recogida, regis-
trando las observaciones en tablas que presentan dos o más sentidos de
clasificación. Se dice que dos atributos A y B son independientes cuando
entre ellos no existe ningún tipo de influencia mutua.

3.1. Asociación – Tablas 2x2


En el caso que se esté observando conjuntamente dos variables
cualitativas dicotómicas para un conjunto de unidades estadísticas, la in-
formación recopilada se presenta en una tabla 2x2. Para construir la tabla
se registra cada observación bidimensional en una de las cuatro posibles
celdas, según explicación desarrollada en el inciso 3.2 del capítulo III.
El fundamento de este arreglo es ordenar la información para pro-
ceder a la búsqueda de la medida de relación, en este caso denominada
de asociación entre la modalidad A con B.

B B f i•
A f11 f12 f 1•
A f 21 f 22 f 2•
f•j f •1 f •2 n

En cada celda se ubica la frecuencia conjunta de las modalidades


correspondientes a las filas y columnas, así f11 indica la cantidad de veces
que se presentó en el conjunto de observación las modalidades A y B si-
multáneamente.
Trabajar con tablas de este tipo lleva implícita una hipótesis acerca
de la existencia o no de una relación entre variables, presuponiendo o no
que una sea causa de la otra. Esto depende del modo en se decide encarar
el análisis en función de los objetivos del investigador.

118
V. Técnicas básicas de análisis

Siempre que se considere una tabla de contingencia es recomen-


dable comenzar el análisis por la distribución univariada de las frecuencias
marginales, que deben determinar los totales parciales de cada modalidad
y corresponder al total general, sea por columna o por fila. Caso contrario,
si la tabla no cierra aritméticamente, se ha producido un error en la tabu-
lación. Estas lecturas por lo general se realizan utilizando proporciones o
sea se trabaja con frecuencias relativas llevadas a valores porcentuales.
Luego corresponde analizar las frecuencias condicionales, que indi-
can las particularidades de cada cruce de variables, y que por definición
son el resultado del cociente entre las frecuencias conjuntas y marginales.
Así, si se establece que una variables es causa de otra, el denomi-
nador de cada proporción será el total de casos para cada modalidad de la
variable independiente o factor causal. Si la lectura de la tabla se limita a
cifras porcentuales éstas se calculan en el sentido de la variable indepen-
diente y se comparan en el sentido de la variable dependiente, como se
muestra en el siguiente ejemplo:
Ejemplo 5-2 Se realiza en la Universidad FF una encuesta de opinión re-
ferida a la implementación de determinado sistema de promoción para
aprobar materias, utilizando una muestra representativa del total pobla-
cional. Existe una hipótesis que las opiniones difieren según sea las carre-
ras que cursan los alumnos: Ciencias Exactas o Ciencias Sociales. Recogi-
dos los datos se procede a la tabulación de los mismos resultando:

A : Ciencias Exactas. B B fi•


A : Ciencias Sociales. on-
A 98 32 130
B : De acuerdo.
B : No de acuerdo. A 80 120 200
f•j 178 152 330
6
Asumiendo que existe relación entre opinión favorable y pertenecer
a las Cs. Exactas, y considerando a la opinión como variable dicotómica
asociada al área de las ciencias a la que pertenece el alumno, se presenta
la tabla en cifras porcentuales, calculadas éstas por filas y comparadas por
columna:
Tabla 5-1: Conformidad con el sistema de promoción
según Área de las Ciencias en %
(n = 150)
B B hi• %

A 75 25 100%

A 40 60 100%
h•j% 54% 46% 100%

119
V. Técnicas básicas de análisis

La lectura se realiza de la siguiente manera: el 75% de los alumnos de las


Cs. Exactas está de acuerdo, mientras que el 40% de los alumnos de las Cs. So-
ciales manifiestan conformidad con el sistema de promoción. La diferencia es evi-
dentemente. Se concluye que el tipo de carrera afecta o determina la aceptación
del sistema propuesto.
Puede observarse que los porcentajes marginales ubicados en la fi-
la del total, son valores comprendidos en el rango determinado por las ci-
fras de las celdas correspondientes, por ejemplo 54 % está comprendido
entre el 40% y el 75%. Esta propiedad conduce a que frecuentemente los
porcentajes marginales del atributo dependiente, suele no consignarse.
Para encontrar una medida de asociación entre variables cualitati-
vas dicotómicas, es válido comenzar con el análisis de las diferencias por-
centuales. Un paso más allá buscando determinar la significación estadís-
tica que se le puede otorgar a una asociación entre variables se presenta
aspectos fundamentales del razonamiento que se debe realizar.
Ejemplo 5-3 Retomando la tabla 2x2 del ejemplo 3-10, en el que se pre-
senta para 100 animales experimentales su reacción ante una vacuna:
positiva ( A ) o negativa ( A ), según el sexo del animal, se puede interpre-
tar que si la proporción de machos ( B ), respecto del grupo que han tenido
reacción positiva es la misma proporción de machos que en la población
total (con o sin reacción) se concluye que reaccionar ante la vacuna es in-
dependiente de ser macho.

B B fi• Si se analiza la proporción de machos con


reacción positiva con respecto al total de
A 41 9 50 machos de la muestra y se lo compara con
A 39 11 50 la proporción de machos respecto del total:
41 50
f•j 80 20 100 = 0,51 = 0,50
80 100
Se concluye que por ser los resultados de estos cocientes aproxi-
madamente iguales, las modalidades ser macho y reaccionar a la vacuna
son independientes. Con estos resultados la conclusión resulta obvia; no
siempre es así.
La pregunta que cabe hacer es si esta diferencia entre las propor-
ciones es estadísticamente significativa o no. Para ello se presentan distin-
tas situaciones.
Retomando la tabla 2x2 se analizan situaciones de valores extre-
mos de las frecuencias conjuntas en la composición de la tabla:
B B f i•
A f11 f12 f 1•
A f 21 f 22 f 2•
f•j f •1 f •2 n

120
V. Técnicas básicas de análisis

Caso I – Asociación completa.


Si las frecuencia conjuntas, ubicadas en la diagonal principal de la
tabla, son iguales a sus respectivas frecuencias marginales, esto implica
que las celdas restantes son iguales a cero. Es decir, si se cumple lo ante-
rior entonces se deduce que las modalidades A y B siempre se presentan
simultáneamente,
f11=f1—=f—1… entonces …f22=f2—=f—2.. luego f21=f12 = 0

Caso II – Disociación Completa


Si las frecuencia conjuntas, ubicadas en la diagonal menor de la
tabla, son iguales a sus respectivas frecuencias marginales, esto implica
que las celdas restantes son iguales a cero Se deduce que las modalidades
A y B nunca se presentan simultáneamente,
f12=f1—=f—2… entonces …f21=f2—=f—1.. luego.. f11=f22 = 0

Caso III – Independencia


Si las modalidades son independientes, entonces, la modalidad que
asume uno de los atributos no afecta al comportamiento del otro. En con-
secuencia la proporción de casos en que se presentan conjuntamente A y
B respecto al subtotal de casos de la modalidad B, es la misma que la
proporción de casos de A respecto al total de casos general. Lo anterior
f f f
expresado en forma de proporciones y simbólicamente es: 11 = 12 = 1 • .
f•1 f• 2 n

Expresado de otra forma no habrá asociación entre las modalida-


f * f•1 f2 * f• 2
des de las variables cuando: f11 = 1 • y f12 = • . Esta
n n
situación en la que las frecuencias conjuntas son iguales al producto de
las marginales correspondientes dividido el tamaño de la muestra se de-
nomina frecuencias esperadas bajo el supuesto de independencia.
Es poco frecuente que en el campo empírico ocurran estos casos
extremos, lo cual significa que los atributos pueden estar asociados (o
bien disociados) pero no completamente, y es preciso medir el grado de
esta asociación (o disociación).

3.2. Contingencia - Coeficientes


Extendiendo el concepto de independencia enunciado en las tablas
de frecuencias 2x2 a tablas de dimensión mxp se verifica que cualquier
frecuencia conjunta será igual al producto de las frecuencias marginales
dividido por el total de observaciones si y sólo si existe independencia
fi• × f• j
entre los atributos. Es decir: fij = ∀ i = 1.....m, j = 1....p
n
Ahora bien, si existe alguna relación entre las variables, entonces

121
V. Técnicas básicas de análisis

es preciso medir (o cuantificar) el grado de dicha relación, la cual será


más intensa cuanto mayor sea la diferencia entre las frecuencias conjun-
tas observadas (empíricas) y las esperadas (teóricas) que corresponden al
caso en que las variables cualitativas son independientes.
Luego, se distinguen dos tipos de frecuencias:
Frecuencia observada fo ij = fij

fi• × f• j
Frecuencia esperada fe ij =
n

En la búsqueda del coeficiente de relación consiste en medir cuanto


se desvían las frecuencias observadas respecto de las esperadas, debiendo
entenderse que el conjunto de frecuencias esperanza constituyen sólo un
modelo posible de no asociación basadas en la idea de independencia es-
fi• × f• j
tadística. δ ij = fo ij − fe ij = fij −
n
Una de las respuestas posibles es calcular el coeficiente Chi –
Cuadrado, llamado en estadística descriptiva Coeficiente Cuadrático

Coeficiente X 2
m p δ ij2 m p (fo ij − fe ij )2
X 2
= ∑∑ = ∑∑ X 2
≥0
i=1 j=1 fe ij i=1 j=1 fe ij
El recorrido del coeficiente, por ser suma de desvíos al cuadrado
divido frecuencia conjunta, siempre positiva, resulta: X2 ≥0
Si todas las frecuencias conjuntas observadas coinciden con las
frecuencias esperadas, entonces:
δ ij = 0 ∀i = 1...m, j = 1...p por lo tanto . X 2 = 0
Se interpreta el X 2 para valores distintos como:
2
X =0 indica que las variables X e Y son independientes.
2
X >0 indica existe alguna relación entre las variables X e Y.
Este coeficiente es concluyente si su resultado es cero pero para
valores mayores a cero no sirve para medir la fuerza de la asociación;
porque su valor varía en función de n.
En caso de ser positivo la intensidad de la relación entre las varia-
bles aumenta a medida que aumenta el valor numérico del coeficiente,
pero no está acotado superiormente, y por lo tanto, no es posible interpre-
tarlo cuantitativamente.
Su máximo valor o cota superior, depende de la cantidad total de
observaciones n, y también de la cantidad de modalidades de cada una de
las variables. Existen varios coeficientes derivados del X 2

122
V. Técnicas básicas de análisis

Coeficiente Cuadrático Medio


Como el Chi cuadrado varía directamente en función de n, la solu-
ción más simple es estandarizar su valor dividiéndolo por el número total
de casos que presente la tabla de frecuencias, obteniendo así el llamado
Coeficiente Cuadrático Medio.
Este se simboliza y calcula de la siguiente forma:
χ2
φ2 = φ2 ≥ 0
n
Los valores que asume este coeficiente dependen de los valores
que asume X 2 .
Ambos son nulos cuando existe independencia entre las variables
ya que X 2 es cero, y positivo cuando existe alguna relación entre ellas.
Entonces, interpretamos el valor de φ 2 como:
φ2 = 0 indica que las variables X e Y son independientes.
φ2 > 0 indica existe alguna relación entre las variables X e Y.
Este coeficiente, se independiza del valor de n, pero tiene el mismo
inconveniente que el anterior, no está acotado superiormente, y por lo
tanto no es fácil de interpretar cuando es mayor que cero. Para cualquier
tabla de formato 2x2, mx2 o 2xp el coeficiente varía 0 y 1 propiedad que
se pierde ambas variables presentan mas de dos modalidades, en este ca-
so el limite máximo supera el 1.

Coeficiente Cuadrático de Pearson


Con el fin de acotar el valor máximo para dar lugar a una interpre-
tación se define el Coeficiente Cuadrático de Pearson que se calcula de las
siguientes formas:
χ2 φ2
C2 = = 0 ≤ C2 < 1
n+χ 2
1+φ 2

χ2 φ2
C= = 0≤ C <1
n + χ2 1 + φ2
2
El máximo valor o cota superior de estos coeficientes C y C es
siempre menor que la unidad y se puede vincular respecto a la cantidad
de modalidades de cada una de las variables:

123
V. Técnicas básicas de análisis

Simbolizando con k al menor valor entre m y p, es decir


2 k −1
k = mín{m, p} , entonces el máximo valor que puede tomar C es ,y
k
k −1
en consecuencia, el máximo valor de C es .
k
2
El mínimo valor de estos coeficientes C y C sigue siendo cero y
toman este valor cuando las variables son independientes.
Por lo tanto, el recorrido del coeficiente cuadrático de Pearson es el
k −1
siguiente: 0 ≤ C ≤ , que indica que la relación entre las variables X
k
k −1
e Y será más intensa cuanto más cercano a . El inconveniente que
k
presenta este coeficiente es que su cota superior es estrictamente menor
que uno.

Coeficiente de Tchuprow - T2
Este coeficiente en situaciones especiales de la dimensión de la ta-
blas este coeficiente alcanza el valor uno. Se calcula como:
φ2
T2 = 0 ≤ T2 ≤ 1
(m − 1).(p − 1)
El mínimo valor de este coeficiente T 2 es cero, toma este valor
cuando las variables son independientes. No siempre el valor máximo de
T2 es la unidad sólo alcanza el valor uno si el formato de las tablas es cua-
drado: m=p, simbólicamente:
Si m=p entonces 0 ≤ T2 ≤ 1
Si m≠p entonces 0 ≤ T2 < 1

3.3. Asociación – Coeficiente de Kendall


En particular para las tablas 2x2 se comprueba fácilmente que los
coeficientes presentados anteriormente coinciden en su valor.
Se define entonces el coeficiente de asociación de Kendall que se
simboliza Q y se calcula de la siguiente forma:

f11 × f22 − f21 × f12


Q= −1 ≤ Q ≤ 1
f11 × f22 + f21 × f12

Para los casos extremos de la distribución de frecuencias bidimen-


sionales (asociación y disociación completa) el coeficiente Q asume valo-

124
V. Técnicas básicas de análisis

res 1 y -1 respectivamente, verificando las situaciones extremas dadas


anteriormente como caso I y caso II.

En consecuencia reemplazando adecuadamente resulta:


f11 × f22
Asociación Completa Q= =1
f11 × f22

−f21 × f12
Disociación Completa Q= = −1
+ f21 × f12
Este coeficiente es de fácil interpretación:
 Siempre que exista asociación (completa o no) entonces Q > 0,
 Siempre que exista disociación (completa o no) entonces Q < 0,
A modo de sugerencia se puede establecer la siguiente interpretación

Disociación completa Q = -1
Alta a moderada disociación -0,90 < Q < -0,60
Moderada a muy baja disociación -0,60 < Q < -0,10
Independencia entre modalidades Q =0
Muy baja a moderada asociación 0,10 < Q < 0,60
Moderada a alta asociación 0,60 < Q < 0,90
Asociación completa Q=1

Si las modalidades A y B son independientes, esto implica que la


presencia de un atributo en la unidad de observación no está condicionada
a la presencia de algún otro atributo en ella. Esta situación se expresa
matemáticamente como:

f11 f f f11 f f
= 12 = 1 • = 21 = •1
f• 1 f• 2 n f1 • f2 • n
y
Verificando que
f × f1 • f × f• 1 f × f• 2 f × f• 2
f11 = •1 f21 = 2 • f12 = 1 • f22 = 2 •
n n n n
En esta situación el coeficiente de asociación de Kendall toma valor
0, según se demuestra reemplazando en la expresión:

f•1 × f1 • × f• 2 × f2 • / n2 − f•1 × f2 • × f• 2 × f1 • / n2 0
Q= = =0
2 2
f•1 × f1 • × f• 2 × f2 • / n + f•1 × f2 • × f• 2 × f1 • / n 2(f•1 × f1 • × f• 2 × f2 • / n2 )

Concluyendo que A y B son independientes ⇔ Q = 0.

A continuación se presentan algunos ejemplos de aplicación de los


coeficientes enunciados.

125
V. Técnicas básicas de análisis

Ejemplo 5-4 el cálculo del coeficiente Q para el ejemplo 5-3 resulta igual
a:
41 × 11 − 9 × 39
Q= = 0,125 , valor que por ser prácticamente ce-
41 × 11 + 9 × 39
ro, indica independencia entre ser macho y tener reacción positiva a la va-
cuna.

Ejemplo 5-5 Utilizando la tabla del ejemplo 5-2

A : Ciencias Exactas. B B fi•


A : Ciencias Sociales. on-
A 98 32 130
B : De acuerdo.
B : No de acuerdo. A 80 120 200
f•j 178 152 330
6
98 × 120 − 80 × 32
Se calcula el coeficiente como: Q = = 0,64
98 × 120 + 80 × 32
Se concluye que existe una moderada asociación entre las modali-
dades de las variables analizadas.
Ejemplo 5-6: Utilizando la información recopilada y presentada en el
cuadro del ejemplo 3-11, se calcula los coeficientes cuadrático medio,
Pearson y Tchuprov para la siguiente tabla.

Nivel de
Estudios Primario Secundario Terciario
Calificación
Insuficiente 10 30 30 70
Regular 10 10 20 40
Distinguido 20 60 10 90

40 100 60 200

2
Cálculo del Coeficiente X
23 20 12 5.33333333

Celda ij fo fe
(fo − fe)2 31 20 28 0.22222222
fe 32 60 45 5.00000000
33 10 27 10.7037037
11 10 14 1.14285714
Total 32.473545
12 30 35 0.71428571
13 30 21 3.85714286
21 10 8 0.50000000
22 10 20 5.00000000

126
V. Técnicas básicas de análisis

60 * 40
fe 23 = = 12
200
Explicación del cálculo:
Término f23 en el cálculo del X 2 (fo − fe)2 =
(20 − 12)2 = 5.3333
fe 12

Luego el coeficiente cuadrático resulta: X 2 igual a 32.473545. Este valor


no es concluyente en relación a la fuerza de la relación, por tal motivo se
calculan:
χ2 32.473545
Coeficiente cuadrático medio: φ2 = = = 0.13263
n 200
φ2 0.13263
Coeficiente de Tchuprov: T2 = = = 0.0066
(m − 1).(p − 1) (3 − 1).(3 − 1)
Estos resultados conducen a afirmar que la fuerza de la relación entre ni-
vel de estudios y calificación de la evaluación es débil.

4. Variables ordinales
En la investigación experimental en algunas oportunidades es im-
prescindible según el estudio, observar si una unidad de análisis posee en
mayor, menor o igual grado que otra la característica que se está eva-
luando generando de esta forma una variable ordinal.
La escala ordinal o escala de rango, define la posición relativa de
objetos o individuos con respecto a una característica sin implicación al-
guna en cuanto a la distancia entre posiciones pero si otorga un orden je-
rárquico.
Ejemplo de esta variable son: nivel socio económico, prestigio ocu-
pacional, dureza de Mohs (indicador que se aplica a los minerales), etc.

4.1 Coeficiente de Spearman


Una medida de relación entre variables en escala ordinal, es el
coeficiente de Spearman. o de correlación de rangos rSP.
Como el coeficiente de correlación de Bravais-Pearson, el rSP puede
asumir valores entre -1 y 1. Indicando discordancia o concordancia perfec-
ta en cada uno de los casos extremos. Si el coeficiente es igual a 0 signifi-
ca que existe independencia entre las dos ordenaciones.
Este coeficiente que da el grado de concordancia entre el orden en-
tre variables ordinales, también se puede aplicar transformando las varia-
bles medidas en una escala métrica a una escala ordinal.
Teniendo en cuenta que con este cálculo del rsp se obtiene la infor-
mación contenida en los datos procesando solamente el lugar que ocupa

127
V. Técnicas básicas de análisis

cada dato, y no su distancia con respecto al valor medio como lo hace el


coeficiente de correlación, luego hace un cálculo individual y no una valo-
ración del conjunto.
El coeficiente de correlación de rangos, que trabaja con variables
ordinales, es más estable ante la presencia de valores extremos, si bien su
valor es aproximado.
Partiendo de la fórmula del coeficiente de correlación de Pearson, y
realizando una transformación de las variables X e Y, medidas en escala
métricas, por su correspondiente orden generando dos nuevas variables:
rango de x: rg(x) y rango de y: rg(y), se obtiene la expresión algebraica
para el cálculo del coeficiente de Spearman:
n
6 ∑ d2
i
r =1− i =1 di = rg(x ) − rg(y)
sp
n n2 − 1
 

Ejemplo 5-6: Dos consultoras A y B, por separado, examinan los curri-


culums de cinco empleados. En la tabla se presenta para cada empleado
el rango X propuesto por la consultora A y el rango Y propuesto por la
consultora B.

Emplea- rg(x) rg(y) di d i2


do En columnas adyacentes se calculan
E1 4 4 0 0 las diferencias de ranking de cada
E2 2 1 1 1 empresa para cada individuo, y rea-
E3 1 2 -1 1 lizando las operaciones correspon-
E4 5 5 0 0 dientes se obtiene
E5 3 3 0 0
n
6 ∑ d2
i 6*2 12
r =1− i =1 = 1− =1− = 0.90
sp
n n2 − 1 5(25 − 1) 120
 
Que se interpreta como alta concordancia entre las dos consulto-
ras.

5. Análisis Multivariante
En este punto considerando el nivel del tratamiento de los concep-
tos hasta aquí expuestos, es importante plantear, que la realidad de las
investigaciones en general no sólo se trabaja con datos uni o bidimensio-
nales sino que los análisis son mas complejos, por lo tanto se realiza una
breve presentación de lo que se denomina análisis multivariante.

128
V. Técnicas básicas de análisis

Para realizar el análisis exploratorio de datos multivariado existen


métodos estadísticos específicos que se usan principalmente para buscar
las variables menos representativas y luego eliminarlas, realizando de es-
ta forma una simplificación del modelo estadístico cuando el número de
variables es un problema y simultáneamente facilita la comprensión de la
relación entre varios grupos de variables. La fundamental aplicación de
estos métodos es en función de encontrar estructuras subyacentes que no
se evidencian en un primer análisis uni o bidimensional en la búsqueda de
respuestas al problema planteado.

129
BIBLIOGRAFÍA
BARANGER Denis, “Construcción y análisis de datos”, Editorial Universita-
ria, Universidad Nacional de Misiones, Posadas, Misiones 1992.
BERENSON, Mark;LEVINE, David. (1991). Estadística para Administración
y Economía. Ed. McGraw-Hill. México.
BLALOCK, Hubert- “Estadística Sopcial”, Ed. FCE, México 2da. Edición
1978.
CHAO Lincoln, “Estadística para las ciencias administrativas”. Mc. Graw
Hill, Colombia 1993.
CORTADA DE KOHAN, Nuria. (1994). Diseño Estadístico. Ed.EUDEBA.
Buenos Aires.
FERNANDEZ AGUADO Carmen Manual de Estadística descriptiva aplicada
al sector turistico, Ed. Síntesis, Madrid, 2003
KAZMIER- DIAZ Estadística aplicada a la administración y economía Mc.
Graw Hill, México, 1991.
KISH, Leslie. (1979). Muestreo de Encuesta. Ed. Trillas. México.
LOHR, Sharon L. (2000). Muestreo: Diseño y Análisis. Ed. Thomson. Méxi-
co.
LUQUE MARTINEZ Teodoro, “Técnicas de análisis de datos en investigación
de mercados”, Ediciones Pirámide-2001
PEREYRA, A.M.;Abbiati, N.N.; Fernández, E.N. (2003). Manual de Estadís-
tica para Proyectos de Investigación. Ed. Universidad Nac. De Lomas de
Zamora, 2004
PERÉZ, César. (2000). Técnicas de Muestreo Estadístico. Ed. Alfaomega.
México.
SHAO, Stephen Pinyee, “Estadística para Economistas y administradores
de Empresas”, Ed. Herrero, México, 8va. Edición- 1973
YA LUN Chou, “Estadística” Ed Kapeluz-1990

130

Вам также может понравиться