Вы находитесь на странице: 1из 401

UNIDAD 1

MAPA CONCEPTUAL DE
LA UNIDAD
POBLACION
MUESTRA

DATOS
MEDIDA

TABLAS
TABLAS DESCRIPTIVAS
GRAFICOS

INFORMACION PARA TOMAR DECISIONES


APLICACIONES
DE LA ESTADISTICA
EN EL ÁREA DE LA
ECONOMÍA, ADMINISTRACIÓN
Y LA EMPRESA EN GENERAL
Con lo que vamos a ver en esta cátedra,
observaremos como las técnicas estadísticas y la
teoría de probabilidad encuentran
su cauce en muchas aplicaciones,
no solamente en ingeniería, ciencias y matemáticas,
sino también en campos como la agricultura,
la administración de empresas, la medicina,
la psicología pueden servir tanto al administrador,
economista, empresario agrónomo, médico, y otros
profesionales para obtener un conocimiento amplio
sobre su realidad.-
Es obvio que toda persona que se dedique al mundo de
los negocios (industria, empresa, comercio, etc) necesita
información sobre las características del ambiente y
medio en que realiza su actividad.- Cualquier información,
ya sea de tipo cualitativo o cuantitativo, debidamente
tratada, puede servir para el estudio de la economía en
general y para el conocimiento, desarrollo y control de los
principales subsistemas funcionales de la empresa, entre
los que podemos mencionar, recursos humanos,
marketing, producción, finanzas, etc.- Si analizamos
algunos de estos subsistemas es posible encontrar
ejemplos en los que la Estadística puede constituir un
auténtico elemento de ayuda.-
RECURSOS
HUMANOS

Para la selección del personal los


administradores, empresarios etc, suelen usar
cada vez con más frecuencia, además de los
juicios subjetivos obtenido en las entrevistas a
los candidatos, los resultados obtenidos en
tests de aptitudes y conocimientos deseables en
la persona a contratar.- Las técnicas
descriptivas son instrumentos adecuados para
el tratamiento de las puntuaciones numéricas
alcanzadas en dichos tests.-
MARKETING
Los estudios de mercado
dirigidos al conocimiento de la demanda
de productos, productos competidores,
efectos de campañas publicitarias, etc, se llevan a cabo con
regularidad en la empresa y el comercio.- Antes de sacar un
producto al mercado se suele realizar una investigación al
respecto mediante muestreo con objeto de obtener alguna
información.-Las técnicas estadísticas permiten en estas
situaciones inferir valores de parámetros poblacionales a partir de
información muestral.- Por supuesto, a partir de una muestra no se
puede conocer con exactitud y precisión las características de
toda la población; siempre habrá un grado de incertidumbre sobre
el verdadero valor poblacional; la cual puede ser cuantificada en
cierta medida en términos de probabilidad.-
FINANZAS
El conocimiento de las fuentes de
financiación y los movimientos de
los tipos de interés son esenciales
para que un comercio, empresa decida si se somete a
algún tipo de endeudamiento en un momento dado.- Así,
las decisiones de inversión en nuevos productos,
locales, maquinarias, etc, vendrán condicionadas por los
precios esperados del dinero.- Para ello son de gran
utilidad las técnicas de predicción, que constituyen una
auténtica necesidad en el mundo de los negocios. En
toda empresa suele ser necesario el conocimiento del
volumen y precios de acciones, obligaciones, futuros y
productos derivados de los mercados de valores, tanto si
la empresa cotiza en Bolsa como si se posee una Cartera
de Valores.-
Cualquier inversor que haya de decidir como equilibrar
su Cartera de Valores debe hacer un análisis de
inversiones para seleccionar entre los distintos
productos financieros ofertados por el mercado de
valores, y ha de tomar sus decisiones cuando aún
desconoce los movimientos futuros del mercado,
aunque pueda tener alguna información al respecto.-
Las técnicas estadística pueden ayudar en dicha tarea e
incluso cuantificar el grado de incertidumbre de sus
operaciones.-
CONTABILIDAD.-
Las empresas de contaduría pública emplean
procedimientos estadístico de muestreo para llevar a cabo
auditorias a sus clientes.- Por ejemplo, suponga que una
empresa de Contadores desea determinar la cantidad que
aparece en las cuentas por cobrar en el balance de un
cliente, representa fielmente la cantidad real de ese rubro.-
Usualmente, la cantidad de cuentas individuales por
cobrar es tan grande que sería demasiado lento y costoso
revisar y validar cada cuenta.- En casos como éste,
regularmente se acostumbra que el personal del auditor
seleccione un subconjunto de las cuentas llamado
muestra.- Después de revisar la exactitud de las cuentas
muestreadas, los auditores llegan a una conclusión acerca
de si la cantidad que aparece en cuentas por cobrar, en los
estados financieros de su cliente, es aceptable.-
PRODUCCION
En el proceso de fabricación de
un producto Intervienen innumerables factores
( materias primas, maquinarias, obreros, etc) que afectan
a las características de calidad de ese producto.- En muchas
fábricas es corriente ver como los productos llegan a una cinta
transportadora en cuyo final hay una máquina de empaquetar que
los envía al almacén .- Entre la cinta transportadora y la máquina de
empaquetar hay un obrero que observa atentamente los productos
que llegan y ocasionalmente arroja algunos a un cesto cercano.-
Está eliminando productos defectuosos.- Hoy en día el control de
calidad de la producción es básico para que los artículos
producidos cumplan los requisitos de calidad establecidos por las
normas tantos nacionales como las internacionales.- los métodos
estadísticos son una herramienta eficaz en esta área para mejorar
los procesos de producción reducir sus defectos.-
Resulta evidente que cualquier profesional de la empresa, comercios,
administración o los negocios debe adquirir una formación básica
en estadística en su proceso de aprendizaje, que le permita moverse
con soltura en el mundo que le rodea.- Si su objetivo va más allá del
entendimiento y ha de tomar decisiones en un entorno de
fluctuaciones y riesgo, no bastará con entender la terminología
estadística.- Necesitará conocerla lo suficiente como para aplicarla y
hacer de ella una herramienta realmente eficaz en el ejercicio de su
actividad.- Considerando además, el desarrollo y uso generalizado que
la informática ha tenido en los último años- Lo que facilita actualmente
una gran disponibilidad tanto en lo que respecta a la capacidad de
almacenamiento como en la rapidez en el cálculo y procesamiento de
datos-, Podemos asegurar que con el empleo de las técnicas
estadísticas, las posibilidades de utilizar la información de una manera
adecuada y eficiente son casi infinita.-
ECONOMIA
Con frecuencia se pide a los Economistas su
pronósticos acerca del futuro de la economía o
de algunos de sus aspectos, por lo que recurren
a información estadística diversa para elaborarlo.- Así,
para pronosticar las tasas de inflación usan indicadores
como índices de precios del productor, la tasa de
desempleo y la ocupación de la capacidad de producción.-
Muchas veces, esos indicadores estadísticos se
introducen en modelos computarizados de pronósticos,
cuyo resultado son predicciones sobre las tasas de
inflación.-
LAS
LAS APLICACIONES
APLICACIONES
DE
DE LA
LA ESTADISTICA
ESTADISTICA
EN
EN SITUACIONES
SITUACIONES
COMO
COMO LAS
LAS
MOSTRADAS
MOSTRADAS Y Y
OTRAS,
OTRAS, SON
SON PARTE
PARTE
DE
DE LO
LO QUE
QUE VEREMOS
VEREMOS
EN
EN ESTA
ESTA CATEDRA
CATEDRA
TRATEMOS DE
DAR UNA
DEFINICIÓN
DE ESTADISTICA
SEGÚN EL AUTOR QUE
TOMEMOS COMO
BIBLIOGRAFIA, NOS
ENCONTRAREMOS CON
MUCHAS DEFINICIONES DE
ESTADISTICA.-
Moore D. S., dice:

La estadística es la ciencia que trata sobre la


obtención de información a partir de datos
numéricos …… Para la mayoría de las
personas que utilizan la estadística e incluso
para muchos estadísticos profesionales, la
estadística es la disciplina que proporciona
instrumentos e ideas que permite utilizar datos
numéricos para profundizar en la comprensión
de distintos temas.- A pesar de que la
estadística se fundamenta en una sólida base
matemática, nuestro interés se centra en la
estadística aplicada, que se puede dividir en
tres campos de estudio: la obtención de
datos, el análisis de datos, y la inferencia
estadística.-
Anderson, Sweeney y Williams, dice:

En un sentido amplio, la estadística


es el arte y la ciencia de reunir,
analizar, presentar e interpretar
datos.- Especialmente en los
negocios y la economía, una razón
básica para esa recopilación e
interpretación de datos, es
proporcionar a los administradores
y a quienes toman decisiones, una
mejor comprensión del entorno
para permitirles tomar las mejores
decisiones.-
Según Jack Levin y William C. Levin, definen
a la ESTADISTICA como

“ Un conjunto de técnicas para tomar decisiones


que ayuden a los investigadores a hacer inferencias
de la muestra a la población y, en consecuencia
a comprobar hipótesis relativas a la naturaleza
de la realidad social”.-
“BERENSON Y LEVINE “ DICE:
El contenido de la estadística moderna incluye la
recopilación, presentación y caracterización de la
información a fin de que auxilie tanto en el análisis de
datos como en el proceso de toma de decisiones.-

“HILDEBRAND Y OTT“ DICE:


La estadística como campo de estudio, es el arte y la
ciencia de dar sentido a los datos numéricos.-

“HARNETT Y MURPHY “ DICE:


La estadística se define a menudo como un conjunto
de métodos para la toma de decisiones en
condiciones de incertidumbre.-
Es una palabra que
encontramos y usamos
frecuentemente en
nuestro lenguaje
cotidiano.-

En realidad, es
una palabra que
tiene tres
acepciones
diferentes:
Primera
Acepción (*)
No es más que
una colección de
datos ordenados
y clasificados
según un criterio

Segunda
Acepción

Es la ciencia, que con ayuda del calculo de


(**) probabilidades estudia las leyes del
comportamiento de aquellos fenómenos que
dependen del azar.-
(*) En este sentido se la tomo en la antigüedad.-

Cuando las sociedades primitivas se organizaron y


superaron su ámbito local, se vieron en la necesidad de
tener que tomar decisiones que exigían un conocimiento
numérico de los recursos disponibles.- Esta necesidad
dio lugar a la utilización y desarrollo de las primeras
técnicas estadísticas basadas en un principio,
exclusivamente, en el recuento y presentación de datos.-
La Historia nos muestra que las primeras estadísticas
fueron realizadas con efectos recaudatorios en la mayoría
de los casos, por los gobernantes de las grandes
civilizaciones antiguas, para conseguir conocer el
número de bienes que poseía el Estado y como estaban
repartidos entre la población.-
La utilización de estas técnicas, en su comienzos,
exclusivamente por el Estado hace que esta propia
palabra sea la raíz del término Estadística.-
El primer dato que se dispone de la elaboración de una
estadística nos la proporciona Heródoto que señala como
en el año 3050 a de C, se efectuó un recuento de las
riquezas y de la población de Egipto, cuya finalidad era
conocer los recursos humanos y económicos disponibles
para construir las pirámides.-
En el año 2238 a de C, se realiza una estadística industrial
y comercial por el emperador Yao de China, según cita de
Chu King en el libro de Confucio.-
En el año 1400 a de C, Ramses II realizó un censo de las
tierras de Egipto a fin de efectuar un nuevo reparto.-
Moisés en el año 1400 a de C, según aparece en el
Pentateuco, y David en el 1018 a de C. según aparece en
el Libro de Los Reyes, realizaron sendos censos para
conocer que número de guerreros disponían las tribus de
Israel.-
Los griegos realizaron diversos censos con fines
tributarios, reparto de tierras, así como disponibilidad de
recursos y guerreros para sus campañas.- En época
romana de contabilizaban, al menos, la realización de 69
censos con diversos fines; tributarios, número de
hombres con derecho al voto, y posibilidades para la
realización de sus campañas militares.- Desde la caída
del imperio romano pasa prácticamente un milenio sin
que se conozca ninguna estadística importante, salvo las
recopilaciones realizadas por Pepino el Breve en el
año758 y por Carlomagno en el 762 sobre las tierras
propiedad de la Iglesia.-
Durante el siglo IX se realizaron en Francia recuentos
parciales de siervos.- Recuentos similares se realizaron
en Inglaterra que fueron recopilados por Guillermo el
Conquistador en 1086 y muy posteriormente en el siglo
XIV, por Eduardo II.-
Es con el nacimiento de las Naciones cuando la
Estadística va adquiriendo un rigor científico en las
técnicas de recogida y presentación de datos que van a
facilitar el análisis de las conclusiones y por tanto, la
toma de decisiones.- En 1540, Sebastián Munter, realizó
una recopilación estadística de los recursos nacionales
alemanes, en la que se incluía la organización política de
la nación alemana, así como sus instituciones sociales,
su comercio y su potencia militar.-
Estudios parecidos fueron realizados durante el siglo XVI
en Italia y Francia.-
La estadística demográfica tiene un gran auge durante el
siglo XVII.- La gran pregunta era saber si la población se
modificaba, aumentando o disminuyendo o si éste era un
parámetro estático.- Estos estudios dieron lugar a la
creación de los índices de natalidad y mortalidad.-
(**) Durante el siglo XVII y principios del XVIII, se
desarrolla la Teoría de las Probabilidades, teoría que
proporciona a la Estadística métodos de investigación que
la permiten alcanzar la categoría de ciencia.- El primer
tratado sobre esta teoría fue escrita por Bernoulli en el
que se dice que la regularidad que aparece en el orden
social se debe a la probabilidad más que al designo
sobrenatural.- Durante el siglo XVII son conocidos los
trabajos realizados por Pascal y Farmat, sobre problemas
de juegos de azar, que tuvieron sus antecedentes en
algunos matemáticos del siglo XV como, Paccioli,
Cardano, Tartaglia, Kepler y Galileo.-
En este período también aparecen los grandes
matemáticos con diversos métodos estadísticos.-
Quetelet (1796 – 1874) aplicó la teoría de las
probabilidades a las ciencias sociales, elaborando una
teoría determinista en las que las características de un
hombre quedaría determinadas por su entorno social, con
lo que se podría aplicar el principio de los promedios,
pudiéndose hablar de un hombre medio.-
A principio del siglo XIX, se desarrolla dos nuevas teorías
matemáticas de gran influencia en la teoría estadística que
son; la teoría de los errores de observación de laplace y
Gauss y la teoría de los mínimos cuadrados desarrollada
por los dos anteriores y Legendre.-
Es a finales del siglo XIX cuando Sir Francis Galton
desarrolla el método de la correlación, que tiene por
objeto medir la influencia relativa de los factores sobre
las variables.- De este modo partió el método de
correlación creado por Klar Pearson.-
Los progresos más recientes en el campo de la
estadística se refieren al cálculo de las probabilidades
basado en el principio de indeterminismo, que supone que
la uniformidad de la naturaleza debe considerase como
una serie de posibles resultados procedentes de cualquier
causa o causas dadas, más que de un único resultados
exacto y preciso en cada caso.-
Tercera Acepción ES LA
DEFINICION
QUE OPTARA
LA CATEDRA

Es la ciencia que aporta las técnicas


o métodos que se sigue para recoger,
organizar, resumir, presentar,
analizar, interpretar, generalizar y
contrastar resultados de las
observaciones de los fenómenos
reales para ayudar a tomar
decisiones más efectivas.-
Observando esta definición, podemos concluir que es
una ciencia que aporta los conocimientos y herramientas
insustituibles para:

DISEÑAR Y APLICAR PROCEDIMIENTOS DE


RECOLECCIÓN DE DATOS, (experimentos, muestra,
censos, registros administrativos y fuentes secundarias),
referidos a un conjunto numeroso de personas, animales,
objetos, etc, necesarios para el estudio de un fenómeno
de nuestra esfera de interés científico o de toma de
decisiones.-

ORGANIZAR Y RESUMIR, los datos masivos


recogidos.-

DESCRIBIR Y ANALIZAR, a las personas, animales u


objeto observados, mediante los datos organizados y
resumidos.-
REALIZAR INFERENCIAS, sobre la población de la
que provienen los datos recogidos, cuando estos se
originan en procedimientos muestrales.-

OBTENER CONOCIMIENTOS E INFORMACION,


sobre el fenómeno en estudio, a partir de interpretar los
resultados del análisis estadístico.-
Para pensar en términos estadísticos hay que seguir una
serie de pasos que van desde la definición del problema
hasta la toma de decisiones.-
Una vez identificado y definido el problema, se recogen
datos producidos mediante diversos procesos de
acuerdo con un diseño y se analizan utilizando uno o
mas métodos estadísticos.- De este análisis se obtiene
información.-
La información se convierte a su vez, en conocimiento,
utilizando los resultados de las experiencias especificas,
la teoría y la literatura y aplicando métodos estadísticos
adicionales.- Para convertir los datos en un conocimiento
que lleva a tomar mejores decisiones se utiliza tanto la
Estadística Descriptiva como la Estadística Inferencial.-
TIPOS
TIPOS DE
DE
ESTADISTICAS.-
ESTADISTICAS.-

Dependiente del propósito del


estudio, la estadística puede ser
Descriptiva o Deductiva e
Inferencial o Inductiva
La Estadística Descriptiva
comprende aquellos métodos gráficos y
numéricos usados para recopilar,
organizar y describir la información que
se ha recogido con el fin de describir
sus características.-

La Estadística Inferencial comprende


aquellos métodos y técnicas usadas
para hacer generalizaciones,
predicciones y estimaciones que se
utilizan para transformar la información
en conocimiento.-
Veamos un ejemplo de como actúa en parte la
estadística descriptiva:

Producción diaria de una fabrica de cereales.-


Un jefe de producción de cereales de Trigo formo un
equipo de empleados para estudiar el proceso de
producción de cereales.- Durante la primera fase del
estudio se peso una selección aleatoria de cajas y se
midió la densidad del producto.- A continuación, el jefe
quería estudiar datos relacionados con las pautas de
producción diaria.- Se hallaron los niveles de producción
(en miles) de un periodo de 10 días.- Represente estos
resultados gráficamente y comente sus observaciones:
Día 1 2 3 4 5 6 7 8 9 10
Cajas 84 81 85 82 85 84 109 110 60 63
(miles)
Scatterplot of CAJAS (MILES) vs DIA

110

100
CAJAS (MILES)

90

80

70

60

0 2 4 6 8 10
DIA

Solución
En la figura, el jefe de producción puede identificar los
días de baja producción, así como los días de mayor
producción.-
No parecería que hubiera mucha diferencia en el numero
de cajas producidas en los seis primeros días.-
Sin embargo, en los días 7 y 8 el nivel de
producción parecería que era mas alto.- En
cambio, en los días 9 y 10 parecería que era mas
bajo.-
Basándose en estas observaciones, el equipo
intento identificar las causas por las que la
productividad era mas alta y mas baja.-
Por ejemplo, tal vez en los días 9 y 10 estuvieron
ausentes trabajadores clave o hubieran cambiado
las materias primas.- También se podrían
identificar las causas por las que aumento la
productividad en los días 7 y 8.-
Respecto a la Estadística Inferencial, diremos:

La estadística inferencial es un proceso, no un mero


resultado numérico.- Este proceso puede consistir en
una estimación, una prueba de hipótesis, un análisis de
relaciones o una predicción.-
En primer lugar, podemos querer estimar un parámetro.-
Supongamos que Florería Sicar SRL, quiere desarrollar
una nueva estrategia de comercialización.- Podría ser útil
la información sobre los hábitos de gasto de los clientes
de la florería.- Puede querer:
• Estimar la edad media de los clientes de la florería.-
• Estimar la diferencia entre la cantidad media que los
clientes pagan con Tarjeta American Express y la
cantidad media que pagan con Visa.-
• Estimar la proporción de clientes que están insatisfecho
con el sistema de reparto de la florería.- Etc…….

En segundo lugar, podemos querer probar una


hipótesis sobre un parámetro.- Por ejemplo, la Florería
Sicar puede querer:
• Probar la hipótesis si los clientes tienen este año una
preferencia por el color de las rosas distintas a la del año
pasado.-
• Probar la hipótesis si menos del 25 por ciento de los
clientes de la florería son turistas.-
• Probar la hipótesis si las ventas son mayores los fines
de semana que el resto de los días de la semana.-
• Probar la hipótesis si la cantidad media que gastaron los
clientes es su ultima compra supero los 50$.-
Las respuestas a estas preguntas pueden ayudar a la
Florería Sicar SRL a lanzar una campaña publicitaria que
le permita reducir costos, incrementar beneficios y
aumentar la satisfacción de los clientes.-

En tercer lugar, podemos querer analizar las relaciones


entre dos o mas variables.- El director financiero de la
General Motors, quiere tomar decisiones estratégicas que
afectan a toda la compañía.- En esos casos, puede
utilizar series de datos macroeconómicos de los que
puede disponerse en diversas publicaciones, para
analizar las relaciones entre variables como el producto
bruto interno, tipo de interés, la renta per capita, la
inversión total y oferta monetaria, etc., que indican la
situación general de la economía nacional.- El director
financiero puede hacerse las siguientes preguntas:
• ¿Influye la tasa de crecimiento de la oferta monetaria en
la tasa de inflación?.-
• Si General Motors sube un 5 por ciento el precio de los
automóviles de tamaño intermedio, ¿Cómo afectara la
subida a las ventas de estos automóviles?.-
• Afecta la legislación sobre el salario mínimo de
desempleo?.-
• Etc..
¿Cómo se comienza a responder a la pregunta sobre el
efecto que puede producir una subida de los precios en la
demanda de automóviles?.- La teoría económica básica
nos dice que manteniéndose todo lo demás constante,
una subida del precio va acompañada de una reducción
de la cantidad demandada.- Sin embargo, esta teoría es
puramente cualitativa.-
No nos dice cuanto disminuye la cantidad demandada.-
Para avanzar mas, hay que recoger información sobre
como ha respondido la demanda a las variaciones del
precio en el pasado y evaluarla.- Estudiando estadística
inferencial aprenderemos a recoger información y a
analizar relaciones.-

En cuarto lugar, podemos necesitar predecir, es decir,


hacer predicciones confiables.- Las decisiones de
inversión deben hacerse mucho antes de que pueda
llevarse un nuevo producto al mercado y evidentemente,
es deseable tener predicciones de la situación en la que
se encontrara probablemente el mercado dentro de unos
años.- Cuando los productos están consolidados, las
predicciones sobre las ventas a corto plazo son
importantes para decidir los niveles de existencias y los
programas de producción.-
Las predicciones de los futuros tipos de interés son
importantes para una empresa que tiene que decidir si
emite o no nueva deuda.- Para formular una política
económica coherente, el gobierno necesita predicciones
de los resultados probables de variables como el
producto bruto interno.-
Las predicciones de los futuros valores dependen de las
regularidades descubiertas en la conducta anterior de
estas variables.- Por lo tanto, se recogen datos sobre la
conducta anterior de la variable que va a predecir y sobre
la conducta de otra variable relacionadas con ella.-
Utilizaremos la estadística inferencial para analizar esta
información y sugerir entonces las tendencias futuras
probables.-
POBLACION
Definición: El conjunto de
personas, animales o cosas que
son objeto de nuestro estudio, o
también, es la que esta formada
por la totalidad de las
observaciones en las cuales se
tiene cierto interés.-

Elemento o Unidad
Se Estadística: Son las
simboliza personas, animales o cosas
con N que forman la población.-
Tamaño

Población finita: cuando el número de


elementos que la forman es numerable, se puede
contar, por ejemplo el número de alumnos de la
universidad, cantidad de empleados de una
fábrica, etc.-

Población infinita: cuando el número de


elementos que la forman es incontable o tan
grande que puede considerarse infinito. Como
por ejemplo, si se realizara un estudio estadístico
sobre los productos que hay en el mercado,
producción de un torno, etc.-
Ejemplos de poblaciones son:
• Todos los estudiantes de una universidad.-
• Todos los votantes inscriptos en un paìs.-
•Todas las familias que viven en una ciudad.-
• Todas las acciones que se cotizan en una bolsa de
valores.-
•Todas las reclamaciones que recibe en un año una
compañía de seguros.-
•Todas las cuentas pendientes de cobro de un comercio.-
• Todas las boletas de ventas correspondientes a un año
de un comercio que hay que auditar.-
• Etc……
Los elementos de una población
ELEMENTOS poseen una serie de cualidades,
propiedades o rasgos comunes que se
O UNIDAD denominan en estadística
ESTADISTICA CARACTERES.

Por ejemplo: si tenemos un estudio sobre


personal de la administración pública provincial,
todos los empleados poseen una serie de
características:
Edad.
Estado civil.
Número de hijos.
Nivel de instrucción alcanzado.-
Antigüedad en el trabajo.
Tarea que realiza.-
Remuneración que recibe.-
Etc..............................
Los caracteres de los elemento de la población
pueden ser:

CARACTERES CUALITATIVOS, ATRIBUTOS O


VARIABLES CATEGÓRICAS, son aquellas que por su propia
naturaleza no se pueden medir y se describen mediante palabras. Son
producto de conteo.- Por ejemplo: el sexo, nacionalidad, raza, color de
pelo, estado de ánimo, tipo de trabajo, ………….. etc.-
Las variables categóricas tiene modalidades.-

CARACTERES CUANTITATIVOS O VARIABLES


NUMÉRICAS son aquellos que se pueden describir mediante
número, es decir, que son susceptibles de cuantificación o de
medición. Por ejemplo: puntajes de un test, edad, el peso, la altura,
ingreso de una empresa, salario de una persona, minutos de demora
en recorrer una distancia, tiempo en elaborar una determinada pieza
de producción, etc.-
Dentro de los caracteres cuantitativos o variables
numéricas pueden encontrarse dos clases de variables;
variables discretas y variables continuas.

Una variable estadística es DISCRETA si toma un


número finito o infinito numerable de valores, o
dicho de otra forma, si entre dos valores
consecutivos puede tomar a lo sumo un número
finito de valores.

Por ejemplo: cantidad de hijos, cantidad de alumnos por


grado, cantidad de obreros de una fábrica, cantidad de
errores de ortografía en un dictado, cantidad de niños en
edad escolar por hogares, cantidad de pacientes de un
hospital, cantidad de productos producidos por una
máquina, etc...-
Una variable estadística es CONTINUA si
toma un número infinito de valores en un
intervalo, o dicho de otra manera si entre
dos valores consecutivos puede tomar
cualquier otro.

Por ejemplo: peso de alumnos, altura,


producción de fábrica, salarios de
médicos de un hospital, montos de ventas
de un comercio, tiempo de armado de una
determinada pieza para autos, metros de
tela producidos por un telar, etc.-
DEFINICION
OPERACIONAL

Todas las variables deben tener una definición


operacional, es decir, un significado universal
aceptado que sea claro para todos aquellos
que estén relacionados con el análisis.- La
falta de las definiciones operacionales genera
confusión.-
ESCALAS
ESCALAS
DE
DE
MEDICION
MEDICION

DE LA VARIABLE EN
ESTUDIO
Para el análisis de datos se debe estar
familiarizado con que existen cuatro escalas
numéricas de medida de las variables que
estamos estudiando.- Cuanto más alta sea la
jerarquía o posición que ocupe el tipo de datos en
estas medidas más información contendrán.-

NOMINAL DE INTERVALOS

ORDINAL

DE RAZON, COCIENTE O PROPORCION


Las escalas que se aplican en esta
sección fueron descriptas por S. S.
Stevens.-

VARIABLES VARIABLES
CATEGORICAS NUMERICAS

DE
INTERVALOS
NOMINAL

DE RAZON,
ORDINAL
COCIENTE O
PROPORCION
Nominal o de clasificación
Estas escalas tienen ciertas
propiedades básicas:
La escalas nominales o de •Entre los objetos clasificados
clasificación consisten en existe una relación de
clasificar objetos reales según equivalencia o no equivalencia.-
cierta características, tipologías
o nombres, dándoles una •Si se utilizan números, estos
denominación o símbolo, sin que solo distinguen orden de
implique ninguna relación de posiciones de determinada
orden, distancia o proporción categoría o clase, pero de
entre esos objetos.- ningún modo establecen
relación numérica entre los
objetos numerados.-
•Los objetos están clasificados
u ordenados en relación a una
igualdad o equivalencia de un
aspecto o característica.-
Escala ordinal o de orden jerárquico

Con esta escala se establecen


Las propiedades básicas de
posiciones relativas de objetos
esta escala son:
o individuos en relación a una
característica, sin que se •Entre los objetos ordenados
reflejen distancias entre ellos.- existe la relación mayor,
Hay un sentido de mayor(>) menor o igual y las relaciones
menor (<).- lógicas de transitividad y
asimetría.-
•La ordenación implica
diferentes niveles de posición
de un atributo: la utilización de
números establece relaciones
entre los objetos, pero no
distancia entre los intervalos.-
Escala de intervalos o Podemos señalar las siguientes
de distancias iguales características esenciales de este tipo
de escala:
Representan un nivel de •Entre los objetos y ordenados existe
medición más preciso una relación de mayor, igual o menor.-
que las anteriores; no
solo se establece un •La escala se presenta bajo una forma
orden en las posiciones cuantitativa.-
relativas de los objetos o •La utilización de números indica
individuos sino que se relaciones entre los objetos y distancia
mide también la entre los intervalos, que cuando son
distancia entre los numéricamente iguales representan
intervalos o las distancias también iguales en el atributo
diferentes categorías.- medido: así por ejemplo la distancia
entre 10 y 20 es la misma que entre 82 y
92.-
•El punto cero de la escala es arbitrario
y convencional, por ello no indica
ausencia de lo que estamos midiendo.-
Escala de razones
o de cocientes

La caracterizaremos del siguiente


Esta es una escala que modo:
además de distinción, •Entre los objetos ordenados existe
orden y distancia, permite un orden jerárquico, igualdad de
establecer en que intervalos y por último igualdad de
proporción es mayor una razón, proporción.-
categoría de la escala que
otra.- Tiene un cero •Los número utilizados son
absoluto o natural que números reales.-
representa la nulidad de lo •La serie de números reales tienen
que se estudia.- un origen llamado cero que por ser
natural es inalterable.-
•Si una persona gana 200$ y otra
gana 400$, decimos que la segunda
gana el doble que la primera.-
LA ESTADISTICA EN
LAS DECISIONES EN
EL MUNDO DE LOS
NEGOCIOS
Un aspecto de los negocios en donde la estadística
cumple una función muy especial es en la toma de
decisiones.- Cada año, las empresas del mundo arriesgan
miles de millones de dólares en decisiones importantes
relacionadas con la expansión de la planta productiva, el
desarrollo de productos nuevos, la captación de personal,
el control de la calidad, las técnicas de producción, la
selección de proveedores y muchas más.- Estas
decisiones, casi siempre contiene un elemento de
incertidumbre.- Los competidores, el gobierno, la
tecnología y el ambiente social y económico, junto con
clientes y electores a veces caprichosos, constituyen
factores incontrolables que, en ocasiones, pueden
frustrar los planes mejor trazados.-
Antes de tomar decisiones, a menudo las empresas
recolectan información a través de una serie de pasos,
lo que se denomina, “proceso de investigación”.-
Entre estos pasos están:
1) Definir el problema en términos específicos de forma
que la investigación pueda dar resultados.-
2) Definir tipo de datos requeridos.-
3) Determinar de que forma se obtendrán los datos.-
4) Planificar la recolección de los datos y si es
necesario, la selección de una muestra.-
5) Recolectar y analizar los datos.-
6) Sacar conclusiones y elaborar un informe con los
resultados.-
7) Culminar con la toma de decisiones con base a los
resultados.-
Las investigaciones en los negocios y las encuestas,
sirven tanto a la estadística descriptiva como a la
inferencia estadística para mejorar las decisiones en
los negocios en diversas situaciones, incluyendo las
siguientes:

• Un fabricante de automóviles examina datos


relativos a los vehículos de los fabricantes
locales y encuentra que sus vehículos reciben
una evaluación superior a la de los productos
de los competidores.- Esta información puede
ser útil en la toma de decisiones relacionadas
con técnicas de producción y proveedores de
componentes.-
• Un fabricante de un colonia para hombres piensa
contratar a un atleta profesional para anunciar su
producto en la televisión nacional.- Antes de decidir el
pago de los cuantiosos honorarios del atleta, la
compañía realiza un estudio para determinar el grado
en que el público objetivo reconoce al deportista y
cree en él.-

• Antes de comenzar a negociar un nuevo contrato de


trabajo, los funcionarios de una empresa determinan
que los sueldos y las prestaciones de los empleados
ya son un 10% más altos que los que reciben los
empleados que realizan funciones similares con un
importante competidor.- Tales datos pueden ser útiles
para el resultado final cuando los representantes de la
compañía elijan el “punto de discusión” en su
posición negociadora.-
NECESIDAD DE
DATOS
Los datos pueden concebirse como información
numérica o no, necesaria para ayudarnos a tomar
decisiones con fundamentos, en una situación
particular.-

Un DATO, es el registro (numérico o no)


que se obtiene como resultado de
observar cierta característica de interés
en un individuo (persona, animal, cosa o
entidad de naturaleza abstracta) que
constituye el objeto de estudio.-
Es en extremo importante empezar el
análisis estadístico con la identificación
de las fuentes de datos más adecuadas.-
Si los datos presentan sesgos,
ambigüedades u otro tipo de errores por
más que apliquemos las más sofisticadas
metodologías del análisis estadístico, las
conclusiones a que lleguemos estarán mal
o serán muy deficientes.-
Para el análisis estadístico, es importante
distinguir entre datos transversales y datos
longitudinales.-

Datos
longitudinales.
Datos Son los datos de
transversales. series de tiempo, se
Se reúnen al mismo coleccionan a lo
tiempo y bajo las largo de varios
mismas condiciones.- períodos de
tiempo.-
LOS DATOS SE PUEDEN OBTENER
POR DOS TIPOS DE FUENTES

SECUNDARIAS
SECUNDARIAS
PRIMARIAS
PRIMARIAS
DATOS PRIMARIOS.-
Son aquellos que se encuentran en la forma original en
que fueron registrados (datos brutos), sin haber sufrido
ningún tipo de tratamiento o elaboración posterior.
Ejemplos: una encuesta, un censo.-

DATOS SECUNDARIOS.-
Son aquellos que fueron producidos (diseñados y
recopilados) por terceros con un fin ajeno al de la
investigación y que ya han sido sometidos a alguna
forma de elaboración posterior.- En consecuencia,
estos datos siempre se originan en terceras fuentes.-
Ejemplo; los datos que publican las oficinas de
estadísticas de organismos oficiales, de empresas, etc.-
FUENTES PRIMARIAS.-
Los datos los podemos obtener
mediante dos tipos de estudios
estadísticos:

1.- EXPERIMENTALES

2.- OBSERVACIONALES O NO
EXPERIMENTALES
ESTUDIO EXPERIMENTALES.-
En un estudio experimental, primero se
identifican las variables de interés.- Luego se
identifican o controlan una o más variables, de
modo que se pueda obtener datos de cómo
influyen en la variable de interés.- Por ejemplo,
una empresa farmacéutica.-

ESTUDIO OBSERVACIONALES O NO
EXPERIMENTAL.-
En este tipo de estudios no se trata de controlar
las variables de interés, ni de influir sobre ellas.-
Quizá los tipo más común de estudios
observacionales sean:
a) Realización de un CENSO.

b) Conducción de una encuesta.-


Los administradores, economistas, etc, que deseen emplear datos y
análisis estadístico como un apoyo para la toma de decisiones deben
considerar el tiempo y el costo necesario para obtenerlos.-
Es preferible usar fuentes existentes cuando los datos se deben
recabar en un período relativamente corto.- Si no se dispone de ellos
fácilmente, es necesario tener en cuenta el tiempo y el costo
adicional para conseguirlos.-
En todo caso, quien toma la decisión debe pensar en la contribución
del análisis estadístico al proceso de toma de decisiones.-
El costo de recopilar datos y su análisis estadístico posterior no debe
ser mayor que los ahorros generados al usar la información para
determinar la mejor opción.-
EL MUESTREO.-
Antes de introducir un nuevo producto en el mercado,
su fabricante quiere saber cual será el nivel probable
de demanda y es posible que realice una encuesta de
mercado.- Lo que le interesa, en realidad son todos los
compradores potenciales (la población).- Sin embargo,
las poblaciones a menudo son tan grandes que es
difícil analizarlas; seria imposible o prohibitivo recoger
toda la información de una población.- Incluso en las
circunstancias en las que parece que se dispone de
suficientes recursos, las limitaciones de tiempo
obligan a examinar un subconjunto de ella (muestra).-
Nuestro objetivo final es hacer afirmaciones basadas
en datos muestrales que tengan alguna validez sobre la
población en general.- Necesitamos, pues, una muestra
que sea representativa de la población.-
¿Como podemos lograrlo?.- Uno de los principios
importantes que debemos seguir en el proceso de la
muestra es la aleatoriedad.-
El muestreo aleatorio simple es un método que se
emplea para seleccionar una muestra de n objetos de
una población en el que cada miembro de la población
se elige estrictamente al azar, cada miembro de la
población se elige con la misma probabilidad y todas
las muestras posibles de un tamaño dado n, tienen la
misma probabilidad de ser seleccionadas.- Este
método es tan frecuente que generalmente se
denomina muestra aleatoria.-
El muestreo se utiliza mucho en todas las áreas de los
negocios, así como en otras disciplinas.-
Las auditorias de las cuentas pendientes de cobro
generalmente se basan en una muestra.- Durante los
años de elecciones presidenciales se hacen
estimaciones de las preferencias de los votantes a
partir de muestras de votantes, también puede hacerse
una encuesta a la salida de los colegios electorales
para predecir que candidato obtendrá mas votos.-
Sin embargo, tomar una muestra es meramente un
medio para llegar a un fin.- Necesitamos estudiar
estadística, no para hacer afirmaciones sobre la
muestra sino, mas bien, para extraer conclusiones
sobre la población en general.-
La estadística es el estudio de cómo se toman
decisiones sobre una población cuando la información
procede de una muestra.- Siempre quedara alguna
incertidumbre.-
La selección de una muestra representativa es un
problema importante en la investigación estadística ya
que ésta puede proporcionar una visión útil de la
naturaleza de la población que se estudia, mientras
que una muestra no representativa puede sugerir
conclusiones totalmente erróneas sobre la población.-

El punto esencial en el muestreo es estar seguro de que


los elementos de la muestra representan a la
población tan fielmente como sea posible.- Por lo
general, esta tarea es más difícil de lo que parece.-
Con frecuencia debe dedicarse mucho tiempo y
atención al proceso de selección, ya que una vez
medidos los elementos se supondrá que la muestra es
representativa de la población.-
METODOS DE SELECCIÓN DE LA MUESTRA

Existen dos métodos básicos para seleccionar los


elementos de una población:

Si cada elemento de la población tiene la misma


posibilidad de ser elegido, esto constituye una
muestra aleatoria.-

Si algunos elementos de la población tienen mayores


posibilidades de selección que otros, esto constituye
una muestra no aleatoria.-

Estos dos métodos también se conocen con el nombre


de muestras probabilísticas y muestras no
probabilísticas.-
MUESTRA ALEATORIA SIMPLE.-
Una muestra aleatoria simple, es aquella en la cual cada
individuo o elemento de una población tiene la misma
oportunidad de ser elegido.- Además, cada muestra de
un tamaño fijo tiene la misma probabilidad de ser
elegida, que cualquier otra muestra del mismo tamaño.-
El muestreo aleatorio simple, es la técnica de muestreo
aleatorio más elemental y constituye la base para otras
técnicas.-
En el muestreo aleatorio simple, se usa n para
representar el tamaño de la muestra y N para representar
el tamaño de la población.- Cada persona o elemento en
el marco se enumera de 1 a N.-
La probabilidad de seleccionar a cualquier miembro en
particular de la población la primera vez es igual a 1/N.-
Existen dos métodos básicos para seleccionar muestras:

CON REEMPLAZO

SIN REEMPLAZO
El muestreo con reemplazo, implica que una vez
seleccionada una persona o elemento, se regresa al
marco donde tiene la misma probabilidad de ser elegida
de nuevo.- Imagine que tiene una urna con 500 tarjetas de
presentación.- Suponga que en el primer sorteo sale la
ficha de Juan Llanos.- La información pertinente se
registra y se regresa la tarjeta a la urna.- Después se
mezclan bien las tarjetas y se saca una segunda tarjeta,.
En esta segunda extracción Juan Llanos, tiene la misma
probabilidad de salir 1/N, de ser elegida de nuevo.- Se
repite el procedimiento hasta alcanzar el tamaño muestra
n deseado.- Sin embargo, suele considerarse más
adecuado tener una muestra de personas o elementos
diferentes en lugar de permitir la repetición de
mediciones de la misma persona o elemento.-
En el muestreo sin reemplazo, no se regresa la
persona o elemento al marco una vez seleccionado y por
lo tanto, no puede elegirse otra vez.- Como antes, en el
muestreo sin reemplazo la probabilidad de que algún
miembro específico de la población, por ejemplo Juan
Llanos, sea elegido en el primer intento es 1/N.- La
probabilidad de que, cualquier individuo no
seleccionado, salga elegido en el segundo intento será 1 /
N-1.- Este proceso continua hasta alcanzar el tamaño de
muestra n deseado.-

Sin importar si el muestreo es con o sin reemplazo, los métodos


de urna para elegir una muestra tienen un gran inconveniente: la
habilidad para revolver perfectamente las tarjetas y elegir la
muestra en forma aleatoria.- Como resultado, los métodos de
urna no son muy útiles.- Son preferibles otros métodos de
selección con menos problemas y mejor base científica.-
Uno de estos métodos utiliza una TABLA DE
NUMEROS ALEATORIOS, para obtener la
muestra.- Una tabla de números aleatorios esta
formada por una serie de dígitos que se generan
en forma aleatoria y se colocan en la secuencia
en que se generaron.- Hay muchas tablas de
números aleatorios, como la que veremos en
práctica.- De hecho, lo normal es que los
investigadores antes de usar una tabla de
números aleatorio verifiquen la aleatoriedad de
los dígitos generados antes de emplearlos.-
Debido a que cada dígito o secuencia de dígitos
de la tabla es aleatorio, se puede leer en sentido
horizontal o vertical.-
Para usar una tabla como la que vemos en práctica en
lugar de una urna para seleccionar una muestra,
primero debemos asignar números de códigos a los
miembros individuales de la población.- Entonces se
obtiene la muestra aleatoria leyendo la tabla y
seleccionando los elementos del marco de población
cuyos números de código coinciden con los dígitos
encontrados en la tabla.-
Hoy gracias a los avances de los paquetes estadísticos
de PC, las tablas se usan menos.- Los programas tienen
una secuencia para generar los números aleatorios que
se necesita.-
ESTADISTICOS Y PARAMETROS

Un estadístico es cualquier característica numérica de


una muestra.- Se simbolizan con letras del abecedario
español.-

Un parámetro es cualquier característica numérica de


una población.- Se simbolizan con letras del abecedario
griego.-
Por ejemplo, en un estudio realizado en 2010 por cierta
Consultora sobre la moda de compras en
supermercados, una muestra de respuestas dadas por
los compradores reveló que el promedio de consumo
familiar de alimentos por semanas era de 280 pesos.-
Ese promedio es un ejemplo de estadístico.- Si por
ejemplo del mismo estudio se revelo que la
permanencia de las personas en el recorrido para sus
compras tiene un promedio de 80 minutos, este
también es un ejemplo de estadístico.-
Si en cambio les preguntamos a todos los clientes del
supermercado la cantidad de viajes al supermercado
por mes que realiza y este nos da un promedio de 3
viajes, este valor es un ejemplo de parámetro, ya que la
consulta se hizo a toda la población.-
LA RECOPILACION DE DATOS
Y
LA MATRIZ DE DATOS
Vista las definiciones básica necesaria, supongamos que
ya tenemos los datos relevados, que sabemos que
pueden ser solo una serie de datos que queremos
analizar estadísticamente, o puede ser que surjan de
una matriz de datos de algún cuestionario que
hayamos relevado, o tal vez una base de datos que
tenemos en la computadora de la empresa, etc.,
dependiendo esto de la investigación que nos hayamos
planteado.-
Supongamos que en este aula hay 92
alumnos.- A cada uno de ustedes se les
hizo una pequeña encuesta donde se
pregunto lo siguiente: cada alumno anoto
su altura, peso, sexo, si fuma o no, nivel
de actividad física y pulso en reposo.-
Después todos tiraron una moneda al aire
y aquellos a los que le salio cara corrieron
durante un minuto.- A continuación todos
se volvieron a tomar la pulsación.-
El contenido de la matriz de datos fue:
Pulso 1: pulso inicial de los 92 alumnos
Pulso 2: pulso final
Corrió: 1= Corrió 2= No corrió
Fuma: 1 = Fuma 2= No fuma
Sexo: 1 = Hombre 2= Mujer
Altura de los estudiantes (en centímetros)
Peso de los estudiantes (en gramos)
Actividad: Nivel de actividad física habitual:
1= Baja 2= Media 3 Alta
Nº Pulso1 Pulso2 Corrió Fuma Sexo Alto Peso Actividad
1 64 88 1 2 1 168 64 2
2 58 70 1 2 1 183 66 2
3 62 76 1 1 1 187 73 3
4 66 78 1 1 1 185 86 1
5 64 80 1 2 1 175 70 2
6 74 84 1 2 1 185 75 1
7 84 84 1 2 1 183 68 3
8 68 72 1 2 1 188 86 2
9 62 75 1 2 1 183 88 2
10 76 118 1 2 1 180 63 2
11 90 94 1 1 1 188 73 1
12 80 96 1 2 1 183 70 2
13 92 84 1 1 1 178 69 3
14 68 76 1 2 1 170 66 2
15 60 76 1 2 1 180 77 3
16 62 58 1 2 1 183 79 3
17 66 82 1 1 1 175 79 2
18 70 72 1 1 1 185 77 3
19 68 76 1 1 1 188 82 2
20 72 80 1 2 1 168 61 3
21 70 106 1 2 1 180 77 2
22 74 76 1 2 1 178 71 2
23 66 102 1 2 1 178 59 2
24 70 94 1 1 1 191 84 2
25 96 140 1 2 2 155 64 2
26 62 100 1 2 2 168 54 2
27 78 104 1 1 2 173 59 2
28 82 100 1 2 2 173 63 2
29 100 115 1 1 2 160 55 2
30 68 112 1 2 2 178 57 2
31 96 116 1 2 2 173 53 2
32 78 118 1 2 2 175 66 2
33 88 110 1 1 2 175 68 2
34 62 98 1 1 2 159 51 2
35 80 128 1 2 2 173 57 2
36 62 62 2 2 1 188 86 1
37 60 62 2 2 1 180 70 2
38 72 74 2 1 1 175 77 2
39 62 66 2 2 1 178 70 2
40 76 76 2 2 1 183 98 2
41 68 66 2 1 1 170 68 2
42 54 56 2 1 1 175 66 2
43 74 70 2 2 1 185 70 3
44 74 74 2 2 1 185 68 2
45 68 68 2 2 1 180 70 3
46 72 74 2 1 1 173 70 3
47 68 64 2 2 1 177 68 3
48 82 84 2 1 1 185 82 2
49 64 62 2 2 1 191 73 3
50 58 58 2 2 1 168 61 3
51 54 50 2 2 1 175 73 2
52 70 62 2 1 1 168 59 2
53 62 68 2 1 1 185 70 2
54 48 54 2 1 1 173 68 3
55 76 76 2 2 1 188 67 3
56 88 84 2 2 1 187 70 2
57 70 70 2 2 1 178 68 2
58 90 88 2 1 1 170 64 2
59 78 76 2 2 1 183 82 3
60 70 66 2 1 1 191 86 2
61 90 90 2 2 1 173 66 1
62 92 94 2 1 1 175 68 2
63 60 70 2 1 1 182 74 2
64 72 70 2 2 1 180 64 2
65 68 68 2 2 1 183 64 3
66 84 84 2 2 1 175 62 2
67 74 76 2 2 1 170 56 2
68 68 66 2 2 1 173 70 2
69 84 84 2 2 2 168 59 2
70 61 70 2 2 2 166 54 2
71 64 60 2 2 2 168 59 3
72 94 92 2 1 2 157 59 2
73 60 66 2 2 2 157 54 2
74 72 70 2 2 2 160 54 2
75 58 56 2 2 2 170 57 2
76 88 74 2 1 2 165 61 2
77 66 72 2 2 2 168 57 2
78 84 80 2 2 2 165 54 1
79 62 66 2 2 2 165 55 3
80 66 76 2 2 2 165 52 2

81 80 74 2 2 2 163 46 2

82 78 78 2 2 2 170 52 2

83 68 68 2 2 2 175 68 2

84 72 68 2 2 2 173 50 2

85 82 80 2 2 2 160 53 1

86 76 76 2 1 2 157 49 3

87 87 84 2 2 2 160 43 3

88 90 92 2 1 2 163 57 1

89 78 80 2 2 2 173 60 1

90 68 68 2 2 2 157 50 2

91 86 84 2 2 2 170 68 3

92 76 76 2 2 2 157 49 2
EL ANALISIS DE LA
MATRIZ DE DATOS
Aún cuando la matriz de datos constituye una
organización que facilita el acceso a los
registros, es indudable que nuestra capacidad
cognitiva no nos permite entender el
comportamiento de los datos y obtener
información a partir de ellos.- Por ejemplo, en la
matriz de datos de la encuesta realizada a 92
estudiantes, quizás con una mirada rápida a la
matriz podríamos saber el sexo predominante
entre los estudiantes, pero difícilmente
podríamos dar alguna conclusión sobre las
pulsaciones después de correr, o cual es la
altura promedio de ellos, etc, y además sería
imposible establecer si hay alguna relación entre
el peso y la altura de los estudiantes.-
Esta limitación de procesar
mentalmente tal cantidad de
información, nos obliga a recurrir
a nuevas herramientas que
permitan resumir los datos
haciendo visibles aspectos que
de otra forma permanecerían
ocultos.- Ahora bien, decidir
cuales son las herramientas más
apropiadas depende en primer
lugar de las preguntas que
intentemos responder y que,
como ya dijimos, son las que
guían todo el proceso de
análisis.- Por ejemplo:
1.- ¿Es heterogéneo el grupo en cuanto a su edad?.-
2.- ¿Hay predominio de mujeres?.-
3.- ¿La composición por sexo varía según sea si fuman
o no?
4.- ¿Hay alguna relación entre el peso y la altura de los
alumnos?
5.- ¿El pulso depende de si el alumno corrió o no?
6.- ¿Las diferencia entre el pulso antes de correr y
después son valores más o menos homogéneos?.-
7.- ¿Habrá alguna relación entre el sexo, si corrió o no
y el peso de los alumnos?.-
8.- Se trata de estudiantes que dicen tener que tipo de
actividad física, alta, baja o media?
En este sintético listado de preguntas podemos
distinguir aquellas que involucran a una sola
variable, a dos variables, y a tres o más
variables.- Para la búsqueda de respuesta a
esas preguntas será necesario utilizar
herramientas estadística diferentes según sea el
número de variables consideradas.-
Como se menciono oportunamente:

• Cuando el análisis de los individuos se realiza


a partir de una única variable sin tomar en
cuenta el resto de la matriz, hablamos de un
Análisis Univariado.-

• Si el tratamiento de los datos involucra dos


variables simultáneamente se trata de un
Análisis Bivariado.-

• Cuando trabajamos con tres o más variables


simultáneamente recurrimos al Análisis
Multivariado.-
Recordemos que, otro aspecto a tener en cuenta al
considerar la herramienta apropiada para el análisis es
el tipo de variable con el que se está trabajando:
cualitativa o cuantitativa.-

Además, las herramientas estadísticas para el análisis


de los datos se pueden clasificar en dos grandes
familias: numéricas y gráficas, ambas concurrentes
para hacer visible el comportamiento de los datos y
complementarias en la intención de producir
información.-

Priorizar las herramientas numéricas o las


gráficas o ambas en el trabajo de exploración,
es una decisión del investigador.-
Independientemente de la necesidad de
responder a las preguntas que suponen el
tratamiento de una variable, análisis bivariado o
multivariado, requiere que se haga una
exploración de cada una de las variable de la
matriz de datos.-

Si tenemos variables que están representadas


por códigos, debemos transformar las mismas
en nominales a fin de que cuando empecemos
con la organización y análisis de los datos, no
nos aparezcan los números, sino que
representan; por ejemplo, si en la columna de
Sexo, observamos 1 y 2, esto será Hombre y
Mujer y así sucesivamente con otras.-
Veamos a nuestra Matriz de Referencia.-
Observamos que algunas variables vienen
definidas por códigos y por lo tanto debemos
pensar como hacemos estos cambios usando
un programa por ejemplo, como Minitab.-

Es importante que el alumno


vaya tomando notas de los
distintos procedimiento que
realizamos en PC.-
Pulso1 Pulso2 Corrió Fuma Sexo Alto Peso Actividad
64 88 CORRIO NO FUMA HOMBRE 168 64 MEDIA
58 70 CORRIO NO FUMA HOMBRE 183 66 MEDIA
62 76 CORRIO FUMA HOMBRE 187 73 ALTA
66 78 CORRIO FUMA HOMBRE 185 86 BAJA
64 80 CORRIO NO FUMA HOMBRE 175 70 MEDIA
74 84 CORRIO NO FUMA HOMBRE 185 75 BAJA
84 84 CORRIO NO FUMA HOMBRE 183 68 ALTA
68 72 CORRIO NO FUMA HOMBRE 188 86 MEDIA
62 75 CORRIO NO FUMA HOMBRE 183 88 MEDIA
76 118 CORRIO NO FUMA HOMBRE 180 63 MEDIA
90 94 CORRIO FUMA HOMBRE 188 73 BAJA
80 96 CORRIO NO FUMA HOMBRE 183 70 MEDIA
92 84 CORRIO FUMA HOMBRE 178 69 ALTA
68 76 CORRIO NO FUMA HOMBRE 170 66 MEDIA
60 76 CORRIO NO FUMA HOMBRE 180 77 ALTA
62 58 CORRIO NO FUMA HOMBRE 183 79 ALTA
66 82 CORRIO FUMA HOMBRE 175 79 MEDIA
70 72 CORRIO FUMA HOMBRE 185 77 ALTA
68 76 CORRIO FUMA HOMBRE 188 82 MEDIA
72 80 CORRIO NO FUMA HOMBRE 168 61 ALTA
70 106 CORRIO NO FUMA HOMBRE 180 77 MEDIA
74 76 CORRIO NO FUMA HOMBRE 178 71 MEDIA
66 102 CORRIO NO FUMA HOMBRE 178 59 MEDIA
70 94 CORRIO FUMA HOMBRE 191 84 MEDIA
96 140 CORRIO NO FUMA MUJER 155 64 MEDIA
62 100 CORRIO NO FUMA MUJER 168 54 MEDIA
78 104 CORRIO FUMA MUJER 173 59 MEDIA
82 100 CORRIO NO FUMA MUJER 173 63 MEDIA
100 115 CORRIO FUMA MUJER 160 55 MEDIA
68 112 CORRIO NO FUMA MUJER 178 57 MEDIA
96 116 CORRIO NO FUMA MUJER 173 53 MEDIA
78 118 CORRIO NO FUMA MUJER 175 66 MEDIA
88 110 CORRIO FUMA MUJER 175 68 MEDIA
62 98 CORRIO FUMA MUJER 159 51 MEDIA
80 128 CORRIO NO FUMA MUJER 173 57 MEDIA
62 62 NO CORRIO NO FUMA HOMBRE 188 86 BAJA
60 62 NO CORRIO NO FUMA HOMBRE 180 70 MEDIA
72 74 NO CORRIO FUMA HOMBRE 175 77 MEDIA
62 66 NO CORRIO NO FUMA HOMBRE 178 70 MEDIA
76 76 NO CORRIO NO FUMA HOMBRE 183 98 MEDIA
68 66 NO CORRIO FUMA HOMBRE 170 68 MEDIA
54 56 NO CORRIO FUMA HOMBRE 175 66 MEDIA
74 70 NO CORRIO NO FUMA HOMBRE 185 70 ALTA
74 74 NO CORRIO NO FUMA HOMBRE 185 68 MEDIA
68 68 NO CORRIO NO FUMA HOMBRE 180 70 ALTA
72 74 NO CORRIO FUMA HOMBRE 173 70 ALTA
68 64 NO CORRIO NO FUMA HOMBRE 177 68 ALTA
82 84 NO CORRIO FUMA HOMBRE 185 82 MEDIA
64 62 NO CORRIO NO FUMA HOMBRE 191 73 ALTA
58 58 NO CORRIO NO FUMA HOMBRE 168 61 ALTA
54 50 NO CORRIO NO FUMA HOMBRE 175 73 MEDIA
70 62 NO CORRIO FUMA HOMBRE 168 59 MEDIA
62 68 NO CORRIO FUMA HOMBRE 185 70 MEDIA
48 54 NO CORRIO FUMA HOMBRE 173 68 ALTA
76 76 NO CORRIO NO FUMA HOMBRE 188 67 ALTA
88 84 NO CORRIO NO FUMA HOMBRE 187 70 MEDIA
70 70 NO CORRIO NO FUMA HOMBRE 178 68 MEDIA
90 88 NO CORRIO FUMA HOMBRE 170 64 MEDIA
78 76 NO CORRIO NO FUMA HOMBRE 183 82 ALTA
70 66 NO CORRIO FUMA HOMBRE 191 86 MEDIA
90 90 NO CORRIO NO FUMA HOMBRE 173 66 BAJA
92 94 NO CORRIO FUMA HOMBRE 175 68 MEDIA
60 70 NO CORRIO FUMA HOMBRE 182 74 MEDIA
72 70 NO CORRIO NO FUMA HOMBRE 180 64 MEDIA
68 68 NO CORRIO NO FUMA HOMBRE 183 64 ALTA
84 84 NO CORRIO NO FUMA HOMBRE 175 62 MEDIA
74 76 NO CORRIO NO FUMA HOMBRE 170 56 MEDIA
68 66 NO CORRIO NO FUMA HOMBRE 173 70 MEDIA
84 84 NO CORRIO NO FUMA MUJER 168 59 MEDIA
61 70 NO CORRIO NO FUMA MUJER 166 54 MEDIA
64 60 NO CORRIO NO FUMA MUJER 168 59 ALTA
94 92 NO CORRIO FUMA MUJER 157 59 MEDIA
60 66 NO CORRIO NO FUMA MUJER 157 54 MEDIA
72 70 NO CORRIO NO FUMA MUJER 160 54 MEDIA
58 56 NO CORRIO NO FUMA MUJER 170 57 MEDIA
88 74 NO CORRIO FUMA MUJER 165 61 MEDIA
66 72 NO CORRIO NO FUMA MUJER 168 57 MEDIA
84 80 NO CORRIO NO FUMA MUJER 165 54 BAJA
62 66 NO CORRIO NO FUMA MUJER 165 55 ALTA
66 76 NO CORRIO NO FUMA MUJER 165 52 MEDIA

80 74 NO CORRIO NO FUMA MUJER 163 46 MEDIA

78 78 NO CORRIO NO FUMA MUJER 170 52 MEDIA

68 68 NO CORRIO NO FUMA MUJER 175 68 MEDIA

72 68 NO CORRIO NO FUMA MUJER 173 50 MEDIA

82 80 NO CORRIO NO FUMA MUJER 160 53 BAJA

76 76 NO CORRIO FUMA MUJER 157 49 ALTA

87 84 NO CORRIO NO FUMA MUJER 160 43 ALTA

90 92 NO CORRIO FUMA MUJER 163 57 BAJA

78 80 NO CORRIO NO FUMA MUJER 173 60 BAJA

68 68 NO CORRIO NO FUMA MUJER 157 50 MEDIA

86 84 NO CORRIO NO FUMA MUJER 170 68 ALTA

76 76 NO CORRIO NO FUMA MUJER 157 49 MEDIA


Si tomamos la decisión de seleccionar una
muestra aleatoria por ejemplo, de 40
alumnos y trabajar estadísticamente nuestra
nueva matriz, veamos como
seleccionamos la misma usando el
programa Minitab o también Excel.-

Nuestra nueva
matriz será:
Esta es la matriz muestral para empezar a
trabajar los métodos estadísticos.-

Pulso
Nª 1 Pulso2 Corrió Fuma Sexo Alto Peso Actividad
1 78 80 NO CORRIO NO FUMA MUJER 173 60 BAJA
2 78 78 NO CORRIO NO FUMA MUJER 170 52 MEDIA
3 90 88 NO CORRIO FUMA HOMBRE 170 64 MEDIA
4 80 74 NO CORRIO NO FUMA MUJER 163 46 MEDIA
5 62 58 CORRIO NO FUMA HOMBRE 183 79 ALTA
6 87 84 NO CORRIO NO FUMA MUJER 160 43 ALTA
7 58 70 CORRIO NO FUMA HOMBRE 183 66 MEDIA
8 70 66 NO CORRIO FUMA HOMBRE 191 86 MEDIA
9 66 102 CORRIO NO FUMA HOMBRE 178 59 MEDIA
10 72 68 NO CORRIO NO FUMA MUJER 173 50 MEDIA
11 70 72 CORRIO FUMA HOMBRE 185 77 ALTA
12 88 74 NO CORRIO FUMA MUJER 165 61 MEDIA
13 72 70 NO CORRIO NO FUMA HOMBRE 180 64 MEDIA
14 82 80 NO CORRIO NO FUMA MUJER 160 53 BAJA
15 70 70 NO CORRIO NO FUMA HOMBRE 178 68 MEDIA
16 66 76 NO CORRIO NO FUMA MUJER 165 52 MEDIA
17 76 76 NO CORRIO NO FUMA HOMBRE 183 98 MEDIA
18 68 68 NO CORRIO NO FUMA MUJER 175 68 MEDIA
19 70 94 CORRIO FUMA HOMBRE 191 84 MEDIA
20 68 64 NO CORRIO NO FUMA HOMBRE 177 68 ALTA
21 74 76 CORRIO NO FUMA HOMBRE 178 71 MEDIA
22 92 94 NO CORRIO FUMA HOMBRE 175 68 MEDIA
23 90 94 CORRIO FUMA HOMBRE 188 73 BAJA
24 84 80 NO CORRIO NO FUMA MUJER 165 54 BAJA
25 76 118 CORRIO NO FUMA HOMBRE 180 63 MEDIA
26 100 115 CORRIO FUMA MUJER 160 55 MEDIA
27 64 80 CORRIO NO FUMA HOMBRE 175 70 MEDIA
28 66 82 CORRIO FUMA HOMBRE 175 79 MEDIA
29 61 70 NO CORRIO NO FUMA MUJER 166 54 MEDIA
30 78 76 NO CORRIO NO FUMA HOMBRE 183 82 ALTA
31 68 72 CORRIO NO FUMA HOMBRE 188 86 MEDIA
32 70 106 CORRIO NO FUMA HOMBRE 180 77 MEDIA
33 64 62 NO CORRIO NO FUMA HOMBRE 191 73 ALTA
34 62 68 NO CORRIO FUMA HOMBRE 185 70 MEDIA
35 54 50 NO CORRIO NO FUMA HOMBRE 175 73 MEDIA
36 62 66 NO CORRIO NO FUMA MUJER 165 55 ALTA
37 60 70 NO CORRIO FUMA HOMBRE 182 74 MEDIA
38 84 84 CORRIO NO FUMA HOMBRE 183 68 ALTA
39 72 74 NO CORRIO FUMA HOMBRE 173 70 ALTA
40 74 84 CORRIO NO FUMA HOMBRE 185 75 BAJA
PRESENTACION DE DATOS
ESTADISTICOS

COMO HEMOS DICHO, AL


PLANTEARNOS UN ESTUDIO
ESTADISTICO Y OBTENER LOS
DATOS NECESARIOS, NOS
ENCONTRAMOS QUE PODEMOS
ESTUDIAR VARIABLES
CATEGÓRICAS Y/O
NUMÉRICAS
PRESENTACION
PRESENTACION DEDE
VARIABLE
VARIABLE CATEGORICA
CATEGORICA
EN
EN TABLAS
TABLAS YY GRAFICOS.-
GRAFICOS.-
NOS PREGUNTAMOS CUANTAS
VARIABLES MOSTRAMOS

1 var + 2 var 2 var


TABLA TABLA DE
SUPERTABLA
RESUMEN CONTINGENCIA

CUADRO
ESTADISTICO

PORCENTAJES
DEL TOTAL, DE FILAS
GRAFICOS Y DE COLUMNAS
PARTES DE UN CUADRO ESTADISTICO

TITULO
NOTA DE
CALCE

Encabezado
y
sub.-
encabezado
CUERPO
Columna
Matriz o
concepto
FUENTE

Nota al pie
1.-TITULO.- Se coloca siempre sobre el cuadro, ya que
leemos de arriba hacia abajo.- Si el titulo es muy largo,
se coloca en forma de pirámide truncada.-
Un titulo debe responder a cuatro preguntas básicas:
QUE?, que es lo que queremos mostrar.-
DONDE?, se refiere al lugar donde fueron obtenidos.-
COMO?, se refiere a como queremos mostrar los datos.-
CUANDO?, hace referencia cuando fueron obtenidos los
datos.-

2.-ENCABEZADO Y SUBENCABEZADOS.-
Son las denominaciones de las columnas y
responde al Como del titulo.- Una columna
puede tener subencabezados.-
3.-COLUMNA MATRIZ O CONCEPTO.- Son
las denominaciones de la filas.- Responde
también al Como del titulo.-

4.-CUERPO.- Son las diversas casillas donde


se colocan los datos.-

5.-FUENTE.- Nos indica la institución,


investigación o el texto de donde provienen los
datos.- Nos sirve para saber donde consultar, si
queremos más información o si deseamos
presentar alguna disconformidad o aclaración.-
Las cinco partes mencionadas nunca deben faltar al
elaborarse un cuadro estadístico.- Hay dos partes
restantes que pueden ir o no según el cuadro
estadístico que elaboremos.-

NOTA DE CALCE.- Se coloca entre el titulo y


el cuadro estadístico, hace referencia a como
debemos leer los datos del cuerpo del cuadro.-
Por ejemplo, (en %), (en miles), etc.-

NOTA AL PIE.- Hace referencia a como leer


algunos símbolos que pueden aparecer en el
cuerpo del cuadro, por ejemplo, (-) dato no
relevado, (*) dato estimado, etc.-
PARA
PARA UNA
UNA SOLA
SOLA
VARIABLE
VARIABLE
CATEGORICA
CATEGORICA
EL RECURSO NUMERICO

La distribución de frecuencia
para una sola variable
categórica se la suele llamar
también Tabla Resumen y
esto no es más que un
cuadro estadístico.-
Para elaborar un cuadro
estadístico debemos tener en
cuenta las partes de un
cuadro estadístico, que
hemos visto anteriormente.-
Supongamos que se ha tomado una muestra
aleatoria de 120 alumnos de la UNLAR y se
registro la siguiente información, carrera a la
que esta inscripto y sexo.-
Nº CARR SEX Nº CARR SEX Nº CARR SEX
01 MED V 10 ARQ M 19 PSICO V
02 CDOR V 11 ABOG V 20 ABOG V
03 ABOG V 12 ABOG V 21 CDOR V
04 MED V 13 CDOR V 22 CDOR M
05 CDOR M 14 ABOG V 23 ABOG V
06 CDOR V 15 MED V 24 CDOR V
07 ABOG V 16 CDOR V 25 ABOG V
08 ABOG V 17 ABOG V 26 ABOG V
09 ABOG V 18 MED V 27 CDOR V
Nº CARR SEX Nº CARR SEX Nº CARR SEX
28 MED M 42 PSICO M 56 CDOR M
29 MED V 43 SIST V 57 SIST M
30 CDOR M 44 MED V 58 MED V
31 ARQ M 45 ARQ M 59 CDOR M
32 PSICO V 46 CDOR V 60 SIST V
33 SIST M 47 SIST V 61 ARQ M
34 SIST V 48 PSICO M 62 ABOG M
35 MED V 49 MED V 63 CDOR V
36 CDOR V 50 ARQ M 64 MED M
37 CDOR V 51 ABOG M 65 PSICO M
38 SIST M 52 ABOG V 66 SIST M
39 ABOG M 53 ABOG V 67 CDOR M
40 ARQ M 54 SIST M 68 ARQ M
41 PSICO V 55 MED V 69 CDOR V
Nº CARR SEX Nº CARR SEX Nº CARR SEX
70 SIST M 84 CDOR M 98 SIST V
71 ARQ V 85 SIST V 99 SIST M
72 PSICO M 86 ARQ M 100 CDOR M
73 MED V 87 ABOG M 101 ARQ V
74 ABOG V 88 PSICO M 102 MED M
75 CDOR V 89 SIST V 103 ABOG M
76 SIST M 90 MED V 104 CDOR V
77 ARQ V 91 CDOR V 105 CDOR M
78 ABOG M 92 ABOG V 106 CDOR M
79 CDOR V 93 PSICO M 107 SIST V
80 SIST V 94 ARQ V 108 MED V
81 SIST V 95 SIST M 109 PSICO M
82 MED M 96 MED V 110 SIST M
83 ARQ M 97 CDOR M 111 SIST V
Nº CARR SEX Nº CARR SEX Nº CARR SEX
112 SIST V 115 PSICO M 118 ARQ M
113 CDOR M 116 SIST V 119 ABOG M
114 ARQ V 117 MED V 120 ABOG V

CDOR: CONTADOR PSICO: LIC. EN PSICOPEDAGOIA


SIST: LIC. EN SISTEMA ABOG: ABOGACIA
MED: MEDICINA ARQ: ARQUITECTURA

ELABOREMOS CON ESTA


INFORMACION TABLAS
RESUMEN
Matricula de la UNLAR según carreras.
Marzo 2008

CARRERA TOTAL Frecuencia


Contador 28 absoluta
Psicopedagogía 11
Sistema 23
Medicina 19
Arquitectura 15
Abogacía 24
TOTAL 120
Fuente: Elaboración propia
EXPLICAMOS DE LA SIGUIENTE MANERA

Matricula de la UNLAR según carreras.


Marzo 2008

CARRERA TOTAL % del total


Contador 28 23,3
Psicopedagogía 11 9,2
Frecuencia
Sistema 23 19,2
Medicina 19 15,8 Relativa %
Arquitectura 15 12,5
Abogacía 24 20,0 19 X 100
120
TOTAL 120 100,0

Fuente: Elaboración propia


EL RECURSO GRAFICO

Las dos formas gráficas más utilizadas para presentar un tabla


de frecuencia o cuadro resumen, son el gráfico de barras
horizontales , porque nosotros leemos de izquierda a derecha y
las modalidades quedan en forma horizontal y el gráfico llamado
de sectores.-
En el Gráfico de barras horizontales, en el eje de abscisas
irán los valores de la frecuencia absoluta y en el eje de
ordenada, las modalidades de la variable categórica.-
El Gráfico de sectores, divide una circunferencias en
porciones que corresponden a cada modalidad de la variable
categórica.- Su tamaño es proporcional a la frecuencia absoluta
de esa modalidad y el circulo representa el total de casos.-
Cada porción debe ir acompañada por porcentajes, para su fácil
lectura.-
Matricula de la UNLAR según carreras.
Marzo 2008

Abogacía

Arquitectura
Medicina
Sistema

Psicopedagogía
Contador
0 5 10 15 20 25 30
Matricula de la UNLAR según carreras.
Marzo 2008

20% 23%

13% 9%

16% 19%

Contador Psicopedagogía Sistema


Medicina Arquitectura Abogacía
ACTIVIDAD 1

HACER EN CLASE LO MISMO CON LA


VARIABLE SEXO, DE NUESTRA
MATRIZ ANTERIOR.-
Supongamos que tenemos un cuadro resumen donde
mostramos datos para tres tiempos diferentes, por
ejemplo:

Total de alumnos matriculados en la UNC, en tres


especialidades de Administración de Empresa.- Años
2006, 2007 y 2008

Especialidad 2006 2007 2008


Finanzas 82 120 100
Marketing 114 135 156
Contabilidad 56 100 85
TOTAL 252 355 341

Fuente: UNC
Si queremos explicar el cuadro, podremos mostrar lo
siguiente:

Total de alumnos matriculados en la UNC, en tres


especialidades de Administración de Empresa.- Años
2006, 2007 y 2008

En %

Especialidad 2006 2007 2008


Finanzas 32,5 33,8 29,3
Marketing 45,2 38,1 45,7
Contabilidad 22,2 28,1 25,0
TOTAL 100,0 100,0 100,0

Fuente: UNC
Total de alumnos matriculados en la UNC, en tres
especialidades de Administración de Empresa.-
Años 2006, 2007 y 2008

100%
90%
80%
70%
60% Contabilidad
50% Marketing
40%
Finanzas
30%
20%
10%
0%
2006 2007 2008

Fuente: UNC
Total de alumnos matriculados en la UNC, en tres
especialidades de Administración de Empresa.-
Años 2006, 2007 y 2008

FUENTE: UNC
PARA
PARA DOS
DOS
VARIABLES
VARIABLES
CATEGORICAS
CATEGORICAS
TABLA DE CONTINGENCIA.-

Supongamos que ahora a la muestra de estudiantes se observo el


sexo y se registro la información:

Carrera Sexo TOTAL


Varón Mujer
Contador 16 12 28 Frecuencias
Psicopedagogía 3 8 11 absolutas
Sistemas 13 10 23 conjuntas
Medicina 15 4 19

Arquitectura 5 10 15
Abogacía 17 7 24 Frecuencias
TOTAL 69 51 120 absolutas
marginales
RECURSO GRAFICO

Matricula de la UNLAR por carreras y sexo. Marzo 2008.-

Abogacía

Arquitectura

Medicina Mujeres
Sistemas Varones

Psicopedagogía

Contador

0 5 10 15 20

FUENTE: ELABORACION PROPIA


Analizamos una tabla de contingencia, según lo que queramos
explicar.-

Porcentajes según las carreras que cursan.-

CARRERAS SEXO TOTAL


Varón Mujer
Contador 57,0 43,0 100,0
Psicopedagogía 27,3 72,7 100,0
Sistemas 56,5 43,5 100,0
Medicina 78,9 21,1 100,0
Arquitectura 33,3 66,7 100,0
Abogacía 70,8 29,2 100,0
TOTAL 57,5 42,5 100,0

FUENTE: Elaboración propia


CUADRO QUE SI DEBE PRESENTARSE

Porcentajes según las carreras que cursan.-

CARRERAS SEXO
Varón Mujer
Contador 57,0 43,0
Psicopedagogía 27,3 72,7
Sistemas 56,5 43,5
Medicina 78,9 21,1
Arquitectura 33,3 66,7
Abogacía 70,8 29,2
TOTAL 57,5 42,5

FUENTE: Elaboración propia


MATRICULA DE LA UNLAR SEGÚN CARRERA YSEXO
AÑO 2008
(EN %)

FUENTE: Elaboración propia


MATRICULA DE LA UNLAR SEGÚN CARRERA YSEXO
AÑO 2008
(EN %)

FUENTE: Elaboración propia


Porcentajes según el sexo del alumnado

CARRERAS SEXO
Varón Mujer
Contador 23,4 23,5
Psicopedagogía 4,3 15,7
Sistemas 18,8 19,6
Medicina 21,7 7,8
Arquitectura 7,2 19,6
Abogacía 24,6 13,7
TOTAL 100.0 100.0

FUENTE: Elaboración propia


CUADRO QUE SI DEBE PRESENTARSE

Porcentajes según el sexo del alumnado

CARRERAS SEXO
Varón Mujer
Contador 23,4 23,5
Psicopedagogía 4,3 15,7
Sistemas 18,8 19,6
Medicina 21,7 7,8
Arquitectura 7,2 19,6
Abogacía 24,6 13,7

FUENTE: Elaboración propia


MATRICULA DE LA UNLAR SEGÚN SEXO Y CARRERA
AÑO 2008
(EN %)

Cuando se tienen muchas modalidades para cada sexo, este gráfico no


conviene hacerlo
Porcentajes según el total general

CARRERAS SEXO TOTAL


Varón Mujer
Contador 13,3 10,0 23.3
Psicopedagogía 2,5 6,7 9.2
Sistemas 10,8 8,3 19.2
Medicina 12,5 3,3 15.8
Arquitectura 4,2 8,3 12.5
Abogacía 14,2 5,8 20.0
TOTAL 57.5 42.5 100.0

FUENTE: Elaboración propia


MATRICULA DE LA UNLAR SEGÚN TOTAL GENERAL
POR CARRERA Y SEXO
AÑO 2008
(EN %)

FUENTE: Elaboración propia


PRINCIPIOS DE
EXCELENCIA
GRAFICA
Hasta ahora hemos analizado como presentar un conjunto de
datos en forma de tablas y gráficos cuando las variables que se
observan son variables categóricas.- Entre los métodos para
describir y comunicar información estadística, las presentaciones
gráficas bien diseñadas por lo general son más sencillas y
poderosas.- Las buenas exposiciones gráficas revelan lo que
transmiten los datos.-
Para que el análisis mejore con la presentación visual de los datos,
es esencial que las tablas y los gráficos tengan una presentación
cuidadosa y clara.- Todo lo innecesario debe eliminarse para no
ocultar el mensaje que contienen los datos.-
El amplio uso de las hojas de cálculo y de software gráfico ha
llevado a una proliferación de gráficas en los últimos años.-
Aunque muchas de las gráficas presentadas sirven como
representaciones útiles de los datos, por desgracia la naturaleza
impropia e inadecuada de muchas presentaciones ha perjudicado
la comprensión y el análisis de las mismas.-
El profesor Edward R. Tufte, es quien escribió una serie de libros que
describen los métodos adecuados de diseños de gráficos
estadísticos.- El considera que las características básicas
esenciales de una representación gráfica adecuada
incluyen:

1.- Mostrar los datos.-


2.- Hacer que el observador se concentre en lo
sustancial de la gráfica y no en como se desarrollo.-
3.- Evitar distorsiones.-
4.- Facilitar la comparación de los datos.-
5.- Cumplir con un objetivo claro.-
6.- Que esté integrada con las descripciones
estadísticas y verbales de la gráfica.-
Tufte establece cinco principios de excelencia
gráfica que son:

1.- La excelencia gráfica es una presentación bien


diseñada de los datos que proporciona sustancia,
estadística y diseño.-
2.- La excelencia gráfica comunica ideas complejas con
claridad, precisión y eficiencia.-
3.- La excelencia gráfica proporciona al observador el
mayor número de ideas en el menor tiempo y con el
mínimo de tinta.-
4.- La excelencia gráfica casi siempre involucra varias
dimensiones.-
5.- La excelencia gráfica requiere decir la verdad acerca
de los datos.-
Una característica principal de la excelencia gráfica es la
importancia que tiene el evitar usar una gráfica para distorsionar
los datos que representa.-
Una gráfica no distorsiona si su presentación visual es consistente
con su representación numérica.- La cantidad de distorsión puede
medirse con el factor mentira.- El factor mentira, es la razón del
tamaño del efecto que muestra la gráfica con respecto al tamaño de
los efectos que muestran los datos.-
Un principio incluido aquí es que cualquier variación en el diseño
de una gráfica debe ser consistente con las variaciones que
presentan los datos.- Con frecuencia, los cambios en la gráfica no
son consistentes con las variaciones en los datos y se produce una
distorsión entre lo que representan los datos y lo que muestra la
gráfica.- Esto se da en general cuando usamos gráficas de
pictogramas.-
En resumen:
Somos consumidores activos de la información
que escuchamos o vemos cada día en los
distintos medios de comunicación.- Debido a
que mucho de lo que se escucha o se lee no es
correcto, necesitamos aprender a evaluar en
forma crítica y desechar lo que no tiene un
valor real.- También es imperativo tener en
cuenta que a veces la información que se
presenta está fundamentada en la ignorancia;
otra veces; es planteada y maliciosa.- Lo
importante es analizar y dudar de la
información proporcionada.-
VEAMOS TODO LO QUE
HEMOS VISTO HASTA
AHORA USANDO UN
PAQUETE ESTADISTICO
COMO MINITAB Y EXCEL
PARA LOS GRAFICOS.-
PARA VER APLICACIÓN
USAREMOS LA MATRIZ
MUESTRAL DE LOS 40 ALUMNOS
QUE HEMOS OBTENIDO
ANTERIORMENTE.-
Esta es la matriz muestral para empezar a
trabajar los métodos estadísticos.-

Pulso1 Pulso2 Corrió Fuma Sexo Alto Peso Actividad


78 80 NO CORRIO NO FUMA MUJER 173 60 BAJA
78 78 NO CORRIO NO FUMA MUJER 170 52 MEDIA
90 88 NO CORRIO FUMA HOMBRE 170 64 MEDIA
80 74 NO CORRIO NO FUMA MUJER 163 46 MEDIA
62 58 CORRIO NO FUMA HOMBRE 183 79 ALTA
87 84 NO CORRIO NO FUMA MUJER 160 43 ALTA
58 70 CORRIO NO FUMA HOMBRE 183 66 MEDIA
70 66 NO CORRIO FUMA HOMBRE 191 86 MEDIA
66 102 CORRIO NO FUMA HOMBRE 178 59 MEDIA
72 68 NO CORRIO NO FUMA MUJER 173 50 MEDIA
70 72 CORRIO FUMA HOMBRE 185 77 ALTA
88 74 NO CORRIO FUMA MUJER 165 61 MEDIA
72 70 NO CORRIO NO FUMA HOMBRE 180 64 MEDIA
82 80 NO CORRIO NO FUMA MUJER 160 53 BAJA
70 70 NO CORRIO NO FUMA HOMBRE 178 68 MEDIA
66 76 NO CORRIO NO FUMA MUJER 165 52 MEDIA
76 76 NO CORRIO NO FUMA HOMBRE 183 98 MEDIA
68 68 NO CORRIO NO FUMA MUJER 175 68 MEDIA
70 94 CORRIO FUMA HOMBRE 191 84 MEDIA
68 64 NO CORRIO NO FUMA HOMBRE 177 68 ALTA
74 76 CORRIO NO FUMA HOMBRE 178 71 MEDIA
92 94 NO CORRIO FUMA HOMBRE 175 68 MEDIA
90 94 CORRIO FUMA HOMBRE 188 73 BAJA
84 80 NO CORRIO NO FUMA MUJER 165 54 BAJA
76 118 CORRIO NO FUMA HOMBRE 180 63 MEDIA
100 115 CORRIO FUMA MUJER 160 55 MEDIA
64 80 CORRIO NO FUMA HOMBRE 175 70 MEDIA
66 82 CORRIO FUMA HOMBRE 175 79 MEDIA
61 70 NO CORRIO NO FUMA MUJER 166 54 MEDIA
78 76 NO CORRIO NO FUMA HOMBRE 183 82 ALTA
68 72 CORRIO NO FUMA HOMBRE 188 86 MEDIA
70 106 CORRIO NO FUMA HOMBRE 180 77 MEDIA
64 62 NO CORRIO NO FUMA HOMBRE 191 73 ALTA
62 68 NO CORRIO FUMA HOMBRE 185 70 MEDIA
54 50 NO CORRIO NO FUMA HOMBRE 175 73 MEDIA
62 66 NO CORRIO NO FUMA MUJER 165 55 ALTA
60 70 NO CORRIO FUMA HOMBRE 182 74 MEDIA
84 84 CORRIO NO FUMA HOMBRE 183 68 ALTA
72 74 NO CORRIO FUMA HOMBRE 173 70 ALTA
74 84 CORRIO NO FUMA HOMBRE 185 75 BAJA
Total de alumnos según si corrió o no

Situación Total Alumnos % del Total


Corrió 15 37,5
No Corrió 25 62,5
TOTAL 40 100.0
Fuente: Elaboración propia

Total de alumnos según si corrió o no

Fuente: Elaboración propia


Total de alumnos según fuman

Total % del
Situación Alumnos Total
Fuma 12 30
No Fuma 28 70
TOTAL 40 100.0

Fuente: Elaboración propia


Total de alumnos según sexo

Sexo Total alumnos % del Total


Hombre 27 67,5
Mujer 13 32,5
Total 40 100.0
Fuente: elaboración propia
Total de alumnos según actividad

ACTIVIDAD TOTAL ALUMNOS % DEL TOTAL


ALTA 9 22,5
MEDIA 26 65,0

BAJA 5 12,5
TOTAL 40 100.0

Fuente: elaboración propia.-


TOTAL ALUMNOS SEGÚN SI CORRIO Y SEXO

Hombre Mujer Total

Corrió 14 1 15

No Corrió 13 12 25

Total 27 13 40

FUENTE: ELABORACIÓN PROPIA


TOTAL ALUMNOS SEGÚN SI CORRIO O NO Y SEXO

Hombre Mujer Total

Corrió 93,33 6,67 100,00

No corrió 52,00 48,00 100,00

Total 67,50 32,50 100,00


FUENTE: ELABORACIÓN PROPIA

DEL TOTAL QUE CORRIO EL 93% FUERON HOMBRES

DEL TOTAL QUE NO CORRIO EL 48% FUERON MUJERES


TOTAL ALUMNOS SEGÚN SI CORRIO O NO Y SEXO

FUENTE: ELABORACIÓN PROPIA


TOTAL ALUMNOS SEGÚN SEXO Y SI CORRIO

(en %)

Hombre Mujer
Corrió 51,85 7,69
No Corrió 48,15 92,31
Total 100,00 100,00

FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE HOMBRES EL 48% NO CORRIO

DEL TOTAL DE MUJERES EL 8% CORRIO


TOTAL ALUMNOS SEGÚN SEXO Y SI CORRIO

FUENTE: ELABORACIÓN PROPIA


TOTAL ALUMNOS SEGÚN SI CORRIO Y SEXO

(en %)

Hombre Mujer Total


Corrió 35,00 2,50 37,50
No Corrió 32,50 30,00 62,50
Total 67,50 32,50 100,00

FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE ALUMNOS EL 35% CORRIO Y SON HOMBRES

DEL TOTAL DE ALUMNOS EL 30% SON MUJERES QUE NO CORRIO


TOTAL ALUMNOS SEGÚN SI FUMAY SEXO

HOMBRE MUJER TOTAL


FUMA 10 2 12
NO FUMA 17 11 28
TOTAL 27 13 40

FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE ALUMNOS 10 SON HOMBRE Y FUMAN

DEL TOTAL DE ALUMNOS 28 NO FUMAN


TOTAL ALUMNOS FUMAN O NO Y SEXO

(en %)

HOMBRE MUJER TOTAL


FUMA 83,33 16,67 100,00
NO FUMA 60,71 39,29 100,00
TOTAL 67,50 32,50 100,00

FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE ALUMNOS QUE FUMAN EL 83% SON HOMBRES

DEL TOTAL DE ALUMNOS QUE NO FUMAN EL 39% SON MUJERES


TOTAL ALUMNOS FUMAN O NO Y SEXO

FUENTE: ELABORACIÓN PROPIA


TOTAL ALUMNOS POR SEXO SEGÚN FUMAN
O NO

(en %)
HOMBRE MUJER TOTAL
FUMA 37,04 15,38 30,00
NO FUMA 62,96 84,62 70,00
TOTAL 100,00 100,00 100,00
FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE ALUMNOS HOMBRES EL 37% FUMAN

DEL TOTAL DE ALUMNOS MUJER EL 85% NO FUMAN


TOTAL ALUMNOS POR SEXO SEGÚN FUMAN
O NO

FUENTE: ELABORACIÓN PROPIA


TOTAL ALUMNOS SEGÚN SI FUMAN Y SEXO

(EN %)

HOMBRE MUJER TOTAL


FUMA 25,00 5,00 30,00
NO FUMA 42,50 27,50 70,00
TOTAL 67,50 32,50 100,00

FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE ALUMNOS EL 28% SON MUJERES QUE NO


FUMAN

DEL TOTAL DE ALUMNOS EL 25% SON HOMBRES QUE FUMAN


TOTAL DE ALUMNOS SEGÚN SEXO Y TIPO DE
ACTIVIDAD

ACTIVIDAD

ALTA MEDIA BAJA TOTAL


HOMBRE 7 2 18 27
MUJER 2 3 8 13
TOTAL 9 5 26 40
FUENTE: ELABORACIÓN PROPIA

TENEMOS 18 ALUMNOS QUE SON HOMBRE Y TIENEN BAJA


ACTIVIDAD

CINCO ALUMNOS TIENEN ACTIVIDAD MEDIA

13 ALUMNOS SON MUJERES


TOTAL DE ALUMNOS SEGÚN SEXO Y TIPO DE
ACTIVIDAD
(EN %)

ACTIVIDAD

ALTA MEDIA BAJA TOTAL


HOMBRE 25,93 7,41 66,67 100,00
MUJER 15,38 23,08 61,54 100,00
TOTAL 22,50 12,50 65,00 100,00
FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE HOMBRES EL 26% TIENEN ACTIVIDAD ALTA

DEL TOTAL DE MUJERES EL 23% TIENE ACTIVIDAD MEDIA

DEL TOTAL DE ALUMNOS EL 65% TIENEN ACTIVIDAD BAJA


TOTAL DE ALUMNOS SEGÚN SEXO Y TIPO DE
ACTIVIDAD

FUENTE: ELABORACIÓN PROPIA


TOTAL DE ALUMNOS SEGÚN TIPO DE
ACTIVIDAD Y SEXO

(EN %)
ACTIVIDAD

ALTA MEDIA BAJA TOTAL


HOMBRE 77,78 40 69,23 67,5
MUJER 22,22 60 30,77 32,5
TOTAL 100 100 100 100
FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE ALUMNOS CON ACTIVIDAD ALTA EL 22% SON


MUJERES

DEL TOTAL DE ALUMNOS CON BAJA ACTIVIDAD EL 69% SON


HOMBRES
TOTAL DE ALUMNOS SEGÚN TIPO DE
ACTIVIDAD Y SEXO

FUENTE: ELABORACIÓN PROPIA


TOTAL DE ALUMNOS SEGÚN SEXO Y TIPO DE
ACTIVIDAD
(EN %)
ACTIVIDAD

ALTA MEDIA BAJA TOTAL


HOMBRE 17,50 5,00 45,00 67,50
MUJER 5,00 7,50 20,00 32,50
TOTAL 22,50 12,50 65,00 100,00
FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE ALUMNOS EL 18% SON HOMBRES CON


ACTIVIDAD ALTA

DEL TOTAL DE ALUMNOS EL 8% SON MUJERES CON ACTIVIDAD


MEDIA
TOTAL DE ALUMNOS SEGÚN FUMAN Y TIPO
DE ACTIVIDAD

ACTIVIDAD

ALTA BAJA MEDIA TOTAL


FUMA 2 1 9 12
NO FUMA 7 4 17 28
TOTAL 9 5 26 40
FUENTE: ELABORACIÓN PROPIA

TENEMOS 12 ALUMNOS QUE FUMAN

TENEMOS 7 ALUMNOS QUE NO FUMAN Y TIENEN ALTA ACTIVIDAD


TOTAL DE ALUMNOS SEGÚN FUMAN Y TIPO DE
ACTIVIDAD

(EN %)

ACTIVIDAD

ALTA BAJA MEDIA TOTAL


FUMA 16,67 8,33 75,00 100,00
NO FUMA 25,00 14,29 60,71 100,00
TOTAL 22,50 12,50 65,00 100,00
FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE ALUMNOS QUE FUMAN EL 17% TIENE ACTIVIDAD


ALTA

DEL TOTAL DE ALUMNOS QUE NO FUMAN EL 61% TIENEN


ACTIVIDAD MEDIA
TOTAL DE ALUMNOS SEGÚN FUMAN Y TIPO DE
ACTIVIDAD

FUENTE: ELABORACIÓN PROPIA


TOTAL DE ALUMNOS SEGÚN TIPO DE ACTIVIDAD Y SI
FUMAN
(EN %)

ACTIVIDAD

ALTA BAJA MEDIA TOTAL


FUMA 22,22 20,00 34,62 30,00
NO FUMA 77,78 80,00 65,38 70,00
TOTAL 100,00 100,00 100,00 100,00
FUENTE: ELABORACIÓN PROPIA

DEL TOTAL DE ALUMNOS CON BAJA ACTIVIDAD EL 20% FUMAN

DEL TOTAL DE ALUMNOS CON ACTIVIDAD MEDIA EL 65% NO


FUMAN
TOTAL DE ALUMNOS SEGÚN FUMAN Y TIPO DE
ACTIVIDAD

FUENTE: ELABORACIÓN PROPIA


TOTAL DE ALUMNOS SEGÚN FUMAN Y TIPO DE
ACTIVIDAD
(EN %)

ACTIVIDAD

ALTA BAJA MEDIA TOTAL


FUMA 5,00 2,50 22,50 30,00
NO FUMA 17,50 10,00 42,50 70,00
TOTAL 22,50 12,50
FUENTE: ELABORACIÓN PROPIA
65,00 100,00

DEL TOTAL DE ALUMNOS EL 5% FUMAN Y TIENEN ALTA


ACTIVIDAD

DEL TOTAL DE ALUMNOS EL 43% NO FUMAN Y TIENEN ACTIVIDAD


MEDIA
DIAGRAMA
DE
PARETO
Los directivos que necesitan identificar las principales
causas de los problemas e intentar corregirlas
rápidamente con un costo mínimo a menudo utilizan un
grafico de barras especial llamado “diagrama de Pareto
El economista italiano Wilfredo Pareto (1848-1923)
señalo que en la mayoría de los casos un pequeño
numero de factores es responsable de la mayoría de los
problemas.- Ordenamos las barras de un diagrama de
Pareto de izquierda a derecha para poner énfasis en las
causas mas frecuentes de los defectos.-

Un diagrama de Pareto es un grafico de barras de las


causas de los defectos.- La barra de la izquierda indica
la causa mas frecuente y las de la derecha indican las
causas con frecuencias decreciente.- Los diagramas de
Pareto se utilizan para separar lo “poco vital” de lo
“mucho trivial”.-
El resultado de Pareto se aplica a una amplia variedad
de conductas en muchos sistemas.- A veces se
denomina regla de 80-20, por ejemplo un fabricante de
cereales puede observar que la mayoría de los errores
de empaquetado se deben únicamente a unas cuantas
causas.- Un estudiante podría pensar que el 80 por
ciento del trabajo de un proyecto de grupo ha sido
realizado únicamente por el 20 por ciento de los
miembros del equipo.-
La utilización de Pareto también puede mejorar la
comunicación con los empleados o con la dirección y
dentro de los equipos de producción.-

Veamos el uso de Pareto aplicado a un problema


de una compañía de seguros médicos.-
Errores de tramitación de las reclamaciones a un seguro.-

El análisis y pago de las reclamaciones a un seguro es


un complejo proceso que puede llevar a tramitar
incorrectamente algunas reclamaciones.- Estos errores
provocan un aumento del tiempo que dedica el personal
a obtener información correcta y posiblemente a pagar
indemnizaciones indebidas.- El beneficiario
normalmente detecta los errores cuando cobra una
indemnización menor a la debida y a menudo puede
pasar por alto indemnizaciones superiores a las
debidas.- Estos errores pueden incrementar
considerablemente los costos, además de afectar
negativamente a las relaciones con los clientes.- Se
realizan considerables esfuerzos para analizar la
actividad de presentación y de tramitación de las
reclamaciones con el fin de poder desarrollar métodos
para reducir lo mas posibles los errores.-
Una importante compañía de seguros médicos se fijo el
objetivo de reducir un 50 por ciento los errores.-
Muestre como utilizaría el análisis de Pareto para ayudar
a averiguar los factores importantes que contribuyen a
eliminar los errores.-
Solución

La compañía de seguros médicos realizo una intensa


investigación de todo el proceso de presentación de
reclamaciones y pago de indemnizaciones.- Se
selecciono un equipo de personas clave de los
departamentos encargados de tramitar reclamaciones,
de relaciones con los proveedores y de marketing, de
auditoria interna, de procesamiento de datos y de
revisiones medicas.-
Basándose en su experiencia y en una revisión del
proceso, los miembros del equipo llegaron finalmente a
un acuerdo sobre una lista de posibles errores.- tres de
ellos (códigos de procesamiento y diagnostico,
información de los proveedores e información de los
pacientes) están relacionados con el proceso de
presentación de reclamaciones y deben comprobarse
revisando los historiales médicos de los pacientes en
las clínicas y los hospitales.- Tres posibles errores
(tablas de precios, solicitudes de contratos y ajuste de
los proveedores) están relacionados con la tramitación
de las reclamaciones de indemnización dentro de la
oficina en la compañía de seguros.- Los errores de los
programas y de los sistemas están incluidos en la
categoría “Otros”.-
Se puso en marcha una auditoria completa de una
muestra aleatoria de 120 reclamaciones contrastando
cada reclamación con los historiales médicos de las
clínicas y los hospitales hasta llegar a la fase final del
pago de la indemnización.- Se separaron las
reclamaciones que contenían errores y se anoto el
numero de errores de cada tipo.- Si una reclamación
tenia múltiples errores, se anotaron todas.- En este
proceso se tomaron muchas decisiones sobre la
definición de error.-
Si se había dado a un niño un tratamiento que se daba
normalmente a los adultos y el sistema informático de
procesamiento no lo detecto, este error debía registrase
como un error 7 (errores de los programas y de los
sistemas) y también como un error 3 (información de los
pacientes).-
Si el tratamiento de un esguince estaba codificado como
una fractura, debía registrarse un error 1 (código de
procedimiento y diagnostico).- A continuación se
elaboro una tabla de distribución de frecuencia de las
categorías y el numero de errores cometidos en cada
categoría:

Categorías Tipos de errores Frecuencia


1 Código de procedimiento y 40
diagnostico
2 Información del proveedor 9
3 Información del paciente 6
4 Tabla de precios 17
5 Solicitudes de contratos 37
6 Ajuste de los proveedores 7
7 Otros 4
Vemos en la figura anterior, que cuando se van
sumando los porcentajes de defectos correspondientes a
los tipos de error (de izquierda a derecha), el ascenso de
la línea de frecuencias acumuladas indica la mejora
relativa que se obtendría corrigiendo cada uno de los
problemas mas frecuentes.-
En el diagrama de Pareto, los analistas vieron que el
error 1 (código de procedimiento y diagnostico) y el error
5 (solicitudes de contratos) eran las principales causas
de errores.- La combinación de los errores 1, 5 y 4 (tablas
de precios) provocaba casi un 80 por ciento de los
errores.- Examinando el diagrama de Pareto de la figura
anterior, los analistas pueden averiguar rápidamente a
que causas debe dedicarse la mayor parte de los
esfuerzos para corregir los problemas.- El análisis de
Pareto separo las “pocas causas vitales” de las “muchas
triviales”.-
Con esta información, el equipo hizo una serie
de recomendaciones para reducir los errores
y controlar el proceso.-
1) Se harían sesiones especiales de formación
para los encargados de tramitar las
reclamaciones de los hospitales y clínicas.-
2) Se harían auditorias aleatorias por sorpresa
para verificar los errores de codificación.-
3) Se evaluaría la posibilidad de imponer
sanciones monetarias a las organizaciones
que cometieran excesivos errores.-
4) Dos personas prepararían cada una por
separado el conjunto completo de tablas de
solicitud de contrato.- A continuación, se
compararían todas las entradas de las tablas
utilizando un programa informático y se
resolverían las diferencias que hubiera.-
5) Se prepararía unos modelos tipo de
reclamación que se utilizarían para verificar las
solicitudes correctas de contrato.-

El diagrama de Pareto, y las recomendaciones ayudaron


a reducir los errores.- Se redujeron los casos en los que
se pagaban indemnizaciones de mas, así como la
burocracia necesaria para corregir los errores.-
GRAFICOS PARA
DESCRIBIR
DATOS DE
SERIES TEMPORALES
Supongamos que tomamos una muestra aleatoria de
100 cajas de una nueva variedad de galletitas.- Si
recogemos nuestra muestra en un momento del tiempo
y ponderamos cada caja, las mediciones obtenidas se
conocen como vimos, con el nombre de datos
transversales.- Sin embargo, podríamos recoger y
medir una muestra aleatoria de 5 cajas cada 15 minutos
o de 10 cajas cada 20 minutos.- Los datos medidos en
sucesivos momentos de tiempo se denominan con
sabemos, datos de series temporales.-
El estudio de Series de Tiempos, esta fuera del alcance
de esta cátedra, por lo tanto solo veremos los gráficos
de las series temporales.-
Un grafico de series temporales representa una serie de
datos en varios intervalos de tiempo.- Midiendo el tiempo
en el eje de abscisa y la cantidad numérica que interesa
en el eje de la ordenada, se obtiene un punto en el grafico
por cada observación.- Uniendo los puntos contiguos en
el tiempo por medio de líneas rectas se obtiene un grafico
de series temporales.-

La tecnología del siglo XXI permite acceder


rápidamente a datos que pueden ayudar a tomar
decisiones y muchos de estos datos son de series
temporales.-
El comercio electrónico es importante para todos
nosotros.- Se puede comprar casi todo; boletos de
avión, automóviles, electrónica. libros, flores,
acciones, comestibles, etc.-
Los minoristas del país notifican a las autoridades
cuanto negocio hacen en línea y esta información se
utiliza en los informes oficiales mensuales sobre la
situación de la economía.- Estos datos se recogen a
intervalos sucesivos de tiempo.-
Numerosas empresas analizan y venden encuestas y
datos estadísticos por Internet.- Para desarrollar planes
de marketing, muchas empresas necesitan las
características demográficas de los compradores por
Internet, así como del resto de los compradores.- Muchas
veces las observaciones se miden a sucesivos intervalos
de tiempo (anual, mensual, semanal, por día, por horas,
etc).- Las universidades estudian la evolución de las
cifras de matriculados para comprender mejor sus
tendencias.- Un Contador estudia la evolución de las
ventas diarias de un comercio que asesora, etc.-
Un medico controla semanalmente o mensualmente los
análisis de sangre de pacientes con cierta patología.-
Para describir gráficamente todos estos ejemplos, se
utiliza un grafico de series temporales.-

Veamos ejemplos de gráficos de series


temporales.-

Un empresario del rubro Supermercado, tiene un


Comercio A ubicado en un zona céntrica de cierta
ciudad y otra Comercio B más chico ubicado en
una zona periférica de la misma ciudad.- Se
tomaron las ventas anuales del período 1995 al
2005 en miles de pesos.-Los datos fueron:
AÑO Comercio A Comercio B
1995 460 145
1996 475 165
1997 485 150
1998 460 150
1999 486 162
2000 478 147
2001 557 190
2002 545 160
2003 560 140
2004 588 185
2005 575 200
Gráfica de series de tiempo de COMERCIO A; COMERCIO B
600 Variable
COMERCIO A
COMERCIO B

500

400
Datos

300

200

100
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
Año
Solución
En la figura de arriba, podemos ver que el monto
de ventas del Comercio A ha aumentado desde
2000 y que el máximo que alcanzo el Comercio B
en 2001 fue seguido de un continuo descenso.- El
personal de administración debe averiguar cuales
son los factores que explican ambas tendencias.-
La tabla siguiente muestra las ventas trimestrales
realizadas por una empresa durante un periodo de 6 años,
desde el 2001 al 2006.- Describa gráficamente los datos:

AÑOS TRIMESTRE
1 2 3 4
2001 271 199 240 255
2002 341 246 245 275
2003 351 283 353 292
2004 401 282 306 291
2005 370 242 281 274
2006 356 245 304 279
La figura anterior es un grafico de serie
temporales de los 24 intervalos de tiempo.-
Observamos que las ventas del primer trimestre
van seguidas sistemáticamente de una
disminución de las ventas en el segundo.- Tal vez
la estación del año sea una explicación.- En el
estudio de Series de Tiempo se ven modelos para
ajustar los datos de las series temporales con el
fin de tener en cuenta la estacionalidad, las
tendencias, la conducta cíclica o algún otro
componente irregular.-
Si solo nos interesa comparar las ventas del primer
trimestre con las del segundo, puede hacerse un grafico
de series temporales como el de la figura siguiente:
Supongamos tener los montos de ventas mensuales de un comercio durante
el año 2011

MONTO VENTAS
Enero 10500
Febrero 8300
Marzo 17500
Abril 15200
Mayo 13000
Junio 8000
Julio 10300
Agosto 12000
Septiembre 11000
Octubre 16000
Noviembre 15000
Diciembre 19000
Scatterplot of Montos de Ventas vs Meses
20000

18000
Montos de Ventas

16000

14000

12000

10000

8000

Enero Marzo Mayo Julio Septiembre Noviembre


Meses
Scatterplot of año 2006. año 2007 vs Meses
20000 Variable
año 2006
año 2007
18000

16000
Y-Data

14000

12000

10000

8000

Enero Marzo Mayo Julio Septiembre Noviembre


Meses
PRESENTACION
PRESENTACION DE
DE
VARIABLE
VARIABLE NUMERICA
NUMERICA EN
EN
TABLAS
TABLAS Y
Y GRAFICOS
GRAFICOS
Hemos dicho que cuando la variable en estudio es numérica
debemos distinguir entre variable discreta y continua.-
Además debemos tener en cuenta que en este caso vamos a
estudiar una sola variable numérica por vez, es decir
distribuciones unidimensionales.-

Otra cosa que debemos tener en claro es que según la cantidad de


datos que forman nuestra población o muestra según con lo que
hayamos decidido trabajar, a estos los podemos tratar como:

a) Datos sin agrupar


(pocos)
b1) Sin intervalos
(discreta)

b) Datos agrupados
(muchos) b2) Con intervalos
(continua)
a) DATOS SIN AGRUPAR.-

Vamos a verlo mediante un ejemplo.- Supongamos que


estamos estudiando los ingresos de 16 familias de un
barrio seleccionados al azar de la ciudad de La Rioja.-
Los resultados fueron:

2850 4560 3895 2850 3750 4200 4320 7650


3750 7520 5425 3860 6100 5535 5425 6820

Cuando se trabaja con datos sin agrupar lo primero


que debemos hacer siempre es ordenarlos en forma
creciente y algo podemos decir:

2850 2850 3750 3750 3860 3895 4200 4320


4560 5425 5425 5535 6100 6820 7520 7650
RECURSO GRAFICO

Un gráfico que se suele hacer cuando los datos no


son muchos es el “gráfico de puntos” o Dotplot.-

Gráfica de puntos de Montos

2800 3500 4200 4900 5600 6300 7000 7700


Montos
EJEMPLO 1

Se seleccionaron 30 meses en forma aleatoria para


hacer un estudio de las ventas de un comercio de
juguetes en cierta localidad importante.- Los
resultados fueron los siguientes (miles de pesos):

25 36 28 30 42 45
60 29 30 28 42 40
38 18 22 40 28 36
42 29 45 40 54 80
52 45 56 45 40 32
VENTAS DE UN COMERCIO EN MILES DE PESOS

18 27 36 45 54 63 72 81
VENTAS

INTERPRETE EL GRÁFICO.- COMENTE


EJEMPLO 2 PARA HACER
COMPARACIONES

Se tienen las notas de dos parciales que se les tomo


a un determinado curso de la cátedra de estadística.-
Los valores fueron los siguiente.- Comente lo que
observa en las dos gráficas siguiente.-

Gráfica de puntos de Curso A; Curso B

Curso A

Curso B
30 40 50 60 70 80 90
Datos
EJEMPLO 3

Supongamos que el Gerente de un Supermercado esta interesado


en saber que cantidad de gente entra a el durante la siesta (13 a 16
horas).- Tomamos una muestra de 80 días y contamos la gente
que entró en ese horario al Supermercado.- Resultaron los
siguientes valores:

4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Podemos ordenarlos en forma creciente y algo podemos decir:

2 2 2 3 3 3 3 3 3 3
3 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 5 5 5 5
5 5 5 5 5 5 5 5 5 5
5 5 5 5 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 7 7 7 7
7 7 7 7 7 8 8 8 8 8

¿Qué comentario puede hacer el alumnos?


Podemos pedir hacer un gráfico de puntos o Dotplot,
que será:

Gráfica de puntos de C1

2 3 4 5 6 7 8
C1
EJEMPLO 4

Considere el siguiente diagrama:


a) ¿Qué nombre recibe este diagrama?.-
b) ¿Cuántas observaciones hay en el estudio?.-
c) ¿Cuáles son los valores mínimo y máximo?.-
d) ¿En torno a que valores tienden a acumularse las
observaciones?.-

Gráfica de puntos de C1

1 2 3 4 5 6 7 8
C1
b1) Datos
agrupados sin
intervalos.-
Variable discreta.-
Vamos a verlo mediante un ejemplo.- Supongamos que
el Gerente de un Supermercado esta interesado en
saber que cantidad de gente entra a el durante la siesta
(13 a 16 horas).- Tomamos una muestra de 80 días y
contamos la gente que entró en ese horario al
Supermercado.- Resultaron los siguientes valores:

4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Xi = cantidad de personas que entraron en ese horario.-
Xi variable discreta.-
Agrupamos en una tabla que llamamos DISTRIBUCIÓN DE
FRECUENCIA.-

Xi Conteo fi hi Fi Hi Hi%
2 III 3 0,0375 3 0.0375 3,75
3 IIIIIIII 8 0,1000 11 0.1375 13.75
4 IIIIIIIIIIIIIII 15 0,1875 26 0.3250 32,50
5 IIIIIIIIIIIIIIIIII 18 0,2250 44 0.5500 55,00
6 IIIIIIIIIIIIIIIIIIIIII 22 0,2750 66 0.8250 82,50
7 IIIIIIIII 9 0,1125 75 0.9375 93,75
8 IIIII 5 0,0625 80 1.0000 100,0
TOTAL --------- 80 1,0000 ------ --------- -------------

En el analizamos toda la cuarta fila.-


Xi = es la variable en estudio, me indica cantidad de personas, 5.-
fi = hay 18 días que entraron 5 personas.-
hi = el 22,5 % de los días entraron 5 personas.-
Fi = hay 44 días que entraron entre 2 y 5 personas.-
Hi % = el 55,0% de los días entraron entre 2 y 5 personas.-

Si decidimos mostrar gráficamente esta distribución será por medio


de un GRAFICO DE BASTONES.-

Días
25
20
15
10
5
0 1 2 3 4 5 6 7 8 Cantidad personas
b2) Datos
agrupados con
intervalos.-
Variable continua.-
Para agrupar los datos en una distribución de
frecuencia con intervalos, debemos pensar varias
cosas, como cuantos intervalos vamos a hacer, que
amplitud usamos, etc.- Se recomienda no usar menos
de 5 ni más de 15 intervalos.- Cuando agrupamos los
datos en intervalos, perdemos la individualidad del
dato.-

a) Sacamos la cantidad de Intervalos ( I ) haciendo:

2 ≥ n
k
Donde k nos indica la cantidad de intervalos a realizar.-
b) Amplitud a utilizar:
Rx = rango o recorrido de la variable.
Rx =Xi máximo --- Xi mínimo
Ci = amplitud Ci = Rx / I

Debemos ahora determinar con que valor de variable


empezamos los intervalos, para ello definimos el
siguiente criterio:
Li ≤ Xi < Ls
Tomamos el dato donde es límite inferior.-
Veamos esto con un ejemplo.- Supongamos tener las
ventas (en $ por 100) de cierto comercio.- Se observo una
muestra de 30 días.- Estas fueron:

61 88 70 76 66 79 64 75 78 76

80 61 75 79 76 60 74 68 76 78

70 65 52 78 72 76 58 86 94 78

I = 5
Rx = 94 - 52 = 42
Ci = 42 / 5 = 8,4 ≈ 9
La distribución de frecuencia será:

Li - Ls Conteo fi hi Fi Hi Fi %

52 61 III 3 0,100 3 0.1000 10,0

61 70 IIIIII 6 0,200 9 0.3000 30,0

70 79 IIIIIIIIIIIII 15 0,500 24 0.8000 80,0


II
79 88 IIII 4 0,133 28 0.9300 93,0

88 97 II 2 0,067 30 1.0000 100,0

TOTAL ---------- 30 1,000 ---- --------- -----------


fi = 15 Significa que durante 15 días vendió entre 70 y
79 pesos.-
hi = 0,500 .- El 50% de los días vendió entre 70 y 79
pesos.-
Fi = 24 días vendió entre 52 y 79 pesos.-
Fi % = 80.0 %.- El 80% de los días vendió entre 52 y 79
pesos.-
Representación gráfica de una
distribución de frecuencia con intervalos

POLIGONO DE OJIVA O GRAFICO


HISTOGRAMA
FRECUENCIA DE Hi %
Comentarios sobre los
gráficos de una
distribución de
frecuencia con
intervalos.-
HISTOGRAMA
HISTOGRAMA

Es un gráfico de barras verticales adyacentes y


me muestra la forma en que se distribuyen los
datos que estamos estudiando.- Todas las
barras tienen el mismo ancho y se diferencia en
la altura que corresponde a cada frecuencia
absoluta o frecuencia relativa del intervalo.- El
histograma nos muestra como están repartidos
los datos.- Por ejemplo si estamos analizando
ventas de un comercio y nos encontramos con
Histogramas de las siguientes formas:
Histogram of X1
20

15
Frequency

10

0
-4 -2 0 2 4 6 8 10
X1

DISTRIBUCION SIMETRICA
Histogram of X3
18

16

14

12
Frequency

10

0
0 10 20 30 40
X3

DISTRIBUCION ASIMETRICA A
DERECHA
Histogram of HSPct
30

25

20
Frequency

15

10

0
30 40 50 60 70 80 90 100
HSPct

DISTRIBUCION ASIMETRICA A
IZQUIERDA
POLIGONO
POLIGONO DE
DE
FRECUENCIA
FRECUENCIA

Es un gráfico lineal.- Los puntos medios


de los intervalos representa los datos de
ese intervalo.- Me cuenta lo mismo que el
histograma, como se distribuyen mis
datos.- Es apropiado cuando se quieren
comparar distribuciones, ya que pueden
encimarse dos polígonos con distintas
tramas.-
Notas de un parcial según sexo
Intervalos Xi Varones Mujeres

30-40 35 3 5
40-50 45 5 8
50-60 55 9 6
60-70 65 15 20
70-80 75 18 16
80-90 85 10 8
90-100 95 6 5
-------- ----- 66 68

Tanto el histograma como el polígono de frecuencia son


recursos fundamentales para explorar y presentar un
conjunto de datos numéricos en los que tenga sentido
realizar agrupamientos en intervalos de clase.-
Gráfica de series de tiempo de Varones; Mujeres
Variable
20
Varones
Mujeres

15
Datos

10

35 45 55 65 75 85 95
Índice
OJIVA O GRÁFICO DE FRECUENCIA
ACUMULADA PORCENTUAL: con este gráfico
podemos calcular alguna medidas descriptivas,
además, podemos decir que porcentaje de
observaciones son menores a cierto valor de
variable.- En el eje de abscisa se colocan los
valores de la variable, o sea los intervalos de
clase, y en la ordenada los valores de Fi %.- Se
desecha el límite inferior del primer intervalo y se
toma para cada valor de los límites superiores de
los intervalos el valor de la frecuencia absoluta
acumulada porcentual.- Se lo suele llamar grafico
en S, por su forma.- Es útil para comparar
distribuciones.- Por ejemplo:
Frecuencias absolutas acumuladas porcentuales

Intervalos Varones Mujeres

30-40 4,5 7,4


40-50 12,1 19,1
50-60 25,8 27,9
60-70 48,5 57,4
70-80 75,8 80,9
80-90 90,9 92,6
90-100 100,0 100,0
-------- ------- -------
Gráfica de series de tiempo de Varones; Mujeres
Variable
100
Varones
Mujeres

80

60
Datos

40

20

0
35 45 55 65 75 85 95
Índice
Veamos estos tres
gráficos en el ejemplo
que venimos viendo sobre
las ventas de un
comercio.
HISTOGRAMA

V entas del comercio


fr e c u e n c i a a b s o l u ta

16

12

0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA CON EL HISTOGRAMA

Ventas del comercio

16
fre cu e n cia a b so lu ta

12

0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA SIN EL HISTOGRAMA

Ventas del comercio

16
fre cu e n cia a b so lu ta

12

0
43 52 61 70 79 88 97 106
Montos de ventas
OJIVA O GRÁFICO DE FRECUENCIA ACUMULADA

Ventas del comercio

32
frec. abs. a cum ula da

24

16

0
43 52 61 70 79 88 97 106
Montos de ventas
ANALISIS
EXPLORATORIO
DE DATOS.-
Las técnicas del análisis exploratorio de datos consisten
en operaciones aritméticas sencillas y gráficas fáciles de
trazar, que pueden emplearse para resumir con rapidez los
datos.-
Una técnica de explorar los datos que son objeto de
nuestro estudio y que hoy trae casi todos los paquetes
estadísticos de computación es el llamado DIAGRAMA
DE TALLO Y HOJA.- La importancia de este diagrama es
que no perdemos el dato original, cosa que nos sucede
con las distribución de frecuencia con intervalos.-
El diagrama es una herramienta valiosa y versátil para
organizar un conjunto de datos y entender la distribución y
agrupación de los valores dentro del intervalo de
observaciones en el conjunto.- Generalmente el primer
dígito forma el tallo y el resto las hojas.- Veamos un
ejemplo sencillo.-
Suponga que las calificaciones en un parcial de ESTADÍSTICA de
40 alumnos fueron las siguientes:

42 46 87 34 81
2 1 9
64 87 69 75 73
3 4 7
91 70 86 67 49 4 2 6 7 9
55 74 81 75 37 5 5 7 9
21 69 29 59 69 6 9 4 0 9 5 7 9 8 6 8
60 81 77 47 68 7 5 7 3 4 0 4 5
74 65 87 97 57 8 7 1 7 1 2 6 7 1
68 66 90 82 94
9 7 1 0 4
2 1 9
3 4 7
4 2 6 7 9
5 5 7 9
6 9 4 0 9 5 7 9 8 6 8
7 5 7 3 4 0 4 5
8 7 1 7 1 2 6 7 1
9 7 1 0 4
MEDIDAS
DESCRIPTIVAS
QUE RESUMEN A LOS
DATOS
Hasta este punto, hemos analizado la
presentación de datos categóricos y
numéricos en forma tabular y gráfica.-
Aunque la presentación de datos es una
componente esencial de la estadística
descriptiva, la tarea no termina ahí.- Dentro
del manejo de la información numérica, un
buen análisis de los datos no se limita a la
presentación de datos y la observación de
lo que estos tratan de transmitir, también
abarca los cálculos y el resumen de las
características importante y el análisis de
lo que contienen.-
LAS MEDIDAS DESCRIPTIVAS ESTADISTICAS QUE
CARACTERIZAN A UNA MUESTRA O A UNA POBLACION SON:

MEDIDAS DE
TENDENCIA MEDIDAS DE
CENTRAL ORDEN

MEDIDAS DE
MEDIDAS DE FORMA
DISPERSION O DE
VARIABILIDAD
MEDIDAS
DE TENDENCIA
CENTRAL
MEDIA ARITMETICA , también llamada Media:

Es el promedio y es la medida de tendencia central que


se utiliza con mayor frecuencia.- Se calcula con la suma
de todas las observaciones en un conjunto de datos,
dividida entre el número de elementos involucrados.- Si
estamos trabajando con una muestra aleatoria de la
población en estudio estamos calculando un
ESTADISTICO, que será:

∑ xi

x =
n
Si estamos trabajando con la población y nos piden la
media, calculamos un PARAMETRO, por ejemplo:
Si tenemos un Comercio con seis empleados, cuyos sueldos
mensuales son 1800, 1760, 1780, 2100, 1980, 2350 y queremos
observar el sueldo promedio será:

∑ xi 1800 + 1760 + 1780 + 2100 + 1980 + 2350


μ= = = 1961,7 $
N 6

El sueldo mensual promedio de los empleados es de 1962 $.-

a) Media aritmética para datos sin agrupar.


Cuando es muy pequeño el número de elementos de la serie u
observaciones recogidas, puede hacerse innecesario la
agrupación de los datos por frecuencia e intervalos.
Por ejemplo: Se tienen los montos de ventas de un comercio
durante 14 meses seleccionados al azar- Los datos resultantes
fueron: (por 100 $)

87- 99- 160- 180- 135- 145- 105- 138- 153- 129- 119- 99- 165- 172
Observamos que, la media aritmética será:

∑ xi 1886
 x = ---------- = ----------- = 134,71  135 $.-
n 14

Significa que el promedio de ventas en los 14 meses fue de 135


pesos.-

b) Media aritmética para datos agrupados sin y


con intervalos.-

La fórmula es la misma.- La diferencia va estar dada en el valor de la


variable xi.- En la distribución sin intervalos esta será los valores
originales de la variable, en cambio en datos agrupados con
intervalos, los valores de la variable serán los puntos medios de los
intervalos.-
∑ xi * fi
x =
n
Veamos un ejemplo.-
Supongamos que tenemos los tiempos en minutos que demora un
Contador Bancario en auditar una muestra de 50 créditos
solicitados- Presentamos los datos ordenados en una distribución de
frecuencia,
Li Ls fi xi xi * fi
∑ XI * fi
20 22 3 21 63
X = =
22 24 5 23 115
n
24 26 12 25 300
1324
26 28 17 27 459
= = 26,48
28 30 8 29 232
50
30 32 5 31 155
 26 minutos
TOTAL 50 - 1324

El promedio que demora el Contador en auditar un Crédito es de 26


minutos.-
PRINCIPALES PROPIEDADES DE LA MEDIA

La media aritmética tiene ciertas propiedades que es


importante conocer para utilizarla correctamente como
resumen de un conjunto de datos, o bien para resolver
algunos problemas que pueden surgir en su aplicación
práctica.-

Primera propiedad:
Esta definida en la misma unidad de medida que la
variable en estudio.-
Si estamos estudiando sueldos en $, la media me dara
un valor también en pesos.-
Por ejemplo, el sueldo promedio es 1800$.-
Segunda propiedad:
Siguiendo con la variable en estudio sueldos en pesos,
la media me dará un valor promedio que estará incluida
dentro del recorrido de la variable, por ejemplo: si los
sueldos en estudio varían entre un monto de 800 a
2500$, la media me deberá dar un valor comprendido
dentro de ese recorrido de la variable.- No me puede
dar un valor menor a 800$ ni tampoco un valor superior
a 2500$.-

Tercera propiedad: xi


Si dos términos de la expresión  x = n son
conocidos, se puede determinar el tercero de ellos
mediante un simple pasaje de términos.-
Cuando se conoce  x y n, la suma de la variable se podrá
determinar haciendo el producto de n *  x.-
Esta propiedad matemática nos permitiría saber, por
ejemplo, que si estamos estudiando viviendas de 30
barrios, el total de viviendas de los 30 barrios es de 16500
viviendas, ya que cada uno de ellos tiene una media de
550 viviendas.- Esto es así porque:
 xi = 30 * 550 = 16500

Cuarta propiedad:
El promedio es una medida calculada a partir de todos y
cada uno de los datos de una serie, en consecuencia
resume apropiadamente la información del conjunto.- Sin
embargo, por esta propiedad, en ciertas situaciones de
trabajo puede perder eficacia como “representativa” del
conjunto de datos.-
Cuando en la serie de observaciones existen valores
extremos o “atípicos”, estos influirán en el valor de la
 x, pudiendo llegar a distorsionarlo de tal modo que no
represente al común de los datos del conjunto.- Veamos
el siguiente ejemplo:
Si tenemos las siguientes edades 14 18 26 30 34 su
media es igual a 24,4 años.- En cambio, si el conjunto de
datos fuera 14 18 26 30 75 su media sería
igual a 37,5 años.- El valor atípico de 75 afecta a la
media alejándola de la tendencia central del conjunto
resultando esta en un valor muy diferente al de los datos
normales de la serie.- Evidentemente la media  x = 38
años no es muy representativa de nuestros datos y el
valor atípico desplaza a la media a un valor cercano a el.-
Resumiendo; en un conjunto de datos en el cual los
valores atípicos tienen un peso significativo (difieren
mucho de los valores regulares), el promedio aritmético
por ser una medida que intervienen todos los datos, debe
ser analizada con cuidado.- Esto es así porque, (como en
el ejemplo anterior) puede resultar fuertemente
desplazado de la tendencia central e inducir a
interpretaciones erróneas acerca del conjunto de datos
que resume.-

Importante:
La presencia de valores extremos en una distribución se
manifiesta por formas (histogramas y polígono de
frecuencias) marcadamente asimétricas.- De ahí la
importancia de realizar una cuidadosa exploración previa
(gráfica y numérica) de los datos.-
Quinta propiedad:
Se denomina desvío o residual de un dato cualquiera de
la serie con respecto a la media aritmética de todo el
conjunto, a la diferencia entre el valor de ese dato y el
valor de la media.-
Por ejemplo, supongamos que tenemos las edades de 9
individuos; calculamos su edad promedio y nos da  x =
32 años:
Datos di = xi - 32
18 -14
20 -12
25 -7
30 -2
32 0
36 4
40 8
40 8
47 15
Los residuos de un conjunto de datos, con respecto a su
media, tienen la propiedad de que la suma de todos los
desvíos o residuales es siempre igual a cero.- Es decir:

 (xi - x) =  di = 0

Sexta propiedad:
En ciertas ocasiones de trabajo disponemos de dos o
más promedios aritméticos, que resumen a diferentes
conjuntos de datos de una misma variable.-
Por ejemplo; por datos recogidos se sabe que el salario
mensual promedio de n1 = 200 agentes de la
administración pública varones es  x1 = $1560,30,
mientras que el salario promedio de n2 = 120 empleadas
mujeres es de  x2 = $1480,25.-
En estas condiciones podría resultar útil conocer el
promedio que resume a los salarios de todos los agentes
públicos, considerados como un solo conjunto de
observaciones ( n = 200 + 120 = 320).-
La media de medias o media ponderada es la medida que
resuelve situaciones como la planteada:

n1 x1 + n2 x2
n1 + n2

En consecuencia, el salario promedio de todos los


empleados de la administración pública es de:

200 * 1560,30 + 120 * 1480,25


 xp = = $1530.28
200 + 120
Ejemplo de media ponderada.-
Supongamos que el Supermercado Alfa vende cinco tipos de
detergentes.- En la tabla siguiente se muestra cada tipo junto
con la utilidad por pote y el número de potes vendidos.-

Detergente Utilidad por Volumen de


pote (X) en ventas en Xi * Wi
$ potes (W)
A 2,00 3 6,00
B 3,50 7 24,50
C 5,00 15 75,00
D 7,50 12 90,00
E 6,00 15 90,00
TOTAL 24,00 52 285,50
Se puede calcular la media simple de la utilidad del Supermercado
como 24,00/ 5 = 4,80 $ por pote.-
Sin embargo, probablemente este no sea un buen estimado de la
utilidad promedio del Supermercado respecto a detergentes, debido
a que vende más de algunos tipos de detergentes que de otros.- Para
obtener un estado financiero más representativo del desempeño real
de su negocio, el Gerente del Supermercado debe dar más peso a
los tipos más populares de detergentes.- Por lo tanto el calculo más
apropiado sea el de la media ponderada:

∑ xi Wi 285,50
Xp = ---------------- = -------------- = $ 5,49
∑ Wi 52

La media ponderada es mayor que la media simple porque el


Supermercado vende más detergentes de los tipos que tienen un
margen de utilidad mayor.-
MEDIANA.-

Se la simboliza con Me .-
La mediana me divide mis observaciones en dos partes
iguales.- La mediana es aquel valor de la variable que
un 50% de los datos es igual a ella o menor.-

Nº IMPAR DE DATOS
a) PARA DATOS
SIN AGRUPAR
Nº PAR DE DATOS

Lo primero que debemos hacer es


ordenar los datos en forma
crecientes.-
a1) Nº IMPAR DE DATOS.-
Supongamos tener las notas de un parcial de una
muestra aleatoria de 15 alumnos de la Cátedra
Estadística, que son:

48 52 57 57 60 64 64 68
72 75 80 80 86 86 88 -----

Calculamos primero la posición del valor de la variable


que será la Mediana.-
Mºe = (n + 1) / 2 = (15 +1)/2 = 8va posición
Me = 68 puntos
El 50% de los alumnos sacaron 68 puntos o menos
a2) Nº PAR DE DATOS.-
Supongamos tener las notas de un parcial de una
muestra aleatoria de 16 alumnos de la Cátedra
Estadística, que son:

48 52 57 57 60 64 64 68
72 75 80 80 86 86 88 94

Calculamos primero la posición del valor de la variable


que será la Mediana.-
Mºe = (n + 1) / 2 = (16 +1)/2 = 8,5va posición
Me = (68 +72) /2 = 70 puntos
El 50% de los alumnos sacaron 70 puntos o menos
CALCULO GRÁFICO DE LA MEDIANA

Si tenemos una distribución de frecuencias con


intervalos podemos calcular gráficamente la mediana
usando la distribución de frecuencia acumulada
porcentual u ojiva, de la siguiente manera:

Fi %
100.0

Valor de la
variable
50.0
que es la Me

xi
MODO

Se lo simboliza con Mo.- Es el valor de la variable que


más veces se repite.-
Es la única medida descriptiva que podemos calcular en
una variable cuya medición esta en escala nominal.-
MODO PARA DATOS SIN AGRUPAR
Por ejemplo si tenemos los montos de ingresos quincenales de
una muestra aleatoria de 15 empleados de una empresa,

890 1100 980 1100 900 950 1105 1200


1100 985 875 1100 970 1185 1100 988

Mo = $ 1100
El monto por quincena que más se repite en mis empleados es $1100.-
CALCULO GRAFICO DEL MODO

Histograma de C1
25

20
Frecuencia

15

10

0
80 120 160 200 240
C1

VALOR DEL MODO


Puede ocurrir que en un conjunto de datos nos
encontremos con dos o más valores que reúnen
la misma frecuencia absoluta, en ese caso
estamos en distribuciones bimodales, lo mismo
si nos encontramos con tres frecuencias
absolutas iguales máximas y estamos en
distribuciones multimodales.- Como en estos
casos es imposible determinar un valor máximo,
es decir el Modo, decimos que no tenemos
Modo.-

Por otro lado habíamos dicho que el Modo era la


única medida descriptiva de Tendencia Central
que podíamos calcular cuando tenemos
variables categóricas.- Por ejemplo:
Supongamos que en determinado barrio
seleccionamos una muestra aleatoria de Jefes
de Hogares y les preguntamos tipo de trabajo.-
Resulta la siguiente tabla:

Tipo de Trabajo Total


Administración Pública Provincial 80
Administración Pública Nacional 21
Industria 16
Comercio 24
Jubilados 4
Desocupados 10
Total 155
MODO
USO DE LAS
DISTINTAS MEDIDAS
DE TENDENCIA CENTRAL
Cuando se tiene datos de escalas intervalares o proporcionales, en
general se utiliza la media porque, es una medida que atiende en
forma exhaustiva toda la información disponible: los valores, las
distancias y proporcionalidad entre ellos y la frecuencia de cada
uno.

Hemos visto que el modo solo atiende a las frecuencias y la


mediana solo utiliza el orden expresado por los valores
numéricos y no atiende el valor de las observaciones extremas.

La media tiene importantes propiedades matemáticas, lo que no la


mediana y el modo, y esto se irá observando a medida que
avancemos en el estudio de la estadística.

El modo en escala intervalar, se utiliza para una primera


estimación rápida de la tendencia central, puesto que se
determina fácilmente, sin necesidad de cálculo alguno, con solo
observar la tabla de distribución de frecuencia.
Cuando se tiene datos de escalas intervalares o proporcionales, en
general se utiliza la media porque, es una medida que atiende en
forma exhaustiva toda la información disponible: los valores, las
distancias y proporcionalidad entre ellos y la frecuencia de cada
uno.

Hemos visto que el modo solo atiende a las frecuencias y la


mediana solo utiliza el orden expresado por los valores
numéricos y no atiende el valor de las observaciones extremas.

La media tiene importantes propiedades matemáticas, lo que no la


mediana y el modo, y esto se irá observando a medida que
avancemos en el estudio de la estadística.

El modo en escala intervalar, se utiliza para una primera


estimación rápida de la tendencia central, puesto que se
determina fácilmente, sin necesidad de cálculo alguno, con solo
observar la tabla de distribución de frecuencia.
El modo interviene en él cálculo de algunas medidas de asimetría.-

La mediana en escalas intervalares es recomendada cuando en un


conjunto de dato, existen uno o unos pocos datos extremos que
son incomparables con el resto de los datos.

La mediana no se ve afectada por los valores extremos, mientras


que la media es muy sensible a estos valores y por lo tanto en
estos casos la mediana es el valor que mejor me representa los
datos.-

Las medidas de tendencia central como ya hemos dicho, son


índices que permiten resumir un conjunto de datos en una sola
expresión, de modo que se pueda apreciar mejor el significado de
los datos.

Las medidas de tendencia central como cualquier estadística,


cobran sentido cuando las empleamos para hacer comparaciones
u otras operaciones.
Cuando se tiene una distribución de frecuencias con intervalos
abiertos, no puede calcularse la media y en estos casos se elige
como mejor medida la mediana ya que en su cálculo solo participa
el intervalo mediano.

Cuando la forma de la distribución de frecuencia es asimétrica ya


sea a izquierda o derecha, la mejor medida de tendencia central es
la mediana ya que se encuentra entre las otras dos, media y modo.-

Si es simétrica, como las tres medidas son iguales, se puede elegir


cualquiera y en esos casos se prefiere la media, dependiendo esto
del tipo de investigación que se haya planificado.-

Mucho se podría seguir profundizando sobre estas medidas y los


procedimientos para su cálculo, pero se considera que hoy en día
no tiene mucho sentido.

Hoy hay sistemas de computación estándar preparados para el


análisis estadístico de datos y es muy importante que el alumno
vaya tratando de conocerlas y usarlas.-
ELECCION DE UNA MEDIDA DE
TENDENCIA CENTRAL
ADECUADA
La elección de una medida de tendencia central
adecuada depende del tipo de variable que se esta
utilizando y de la forma que adopte la
correspondiente distribución de frecuencia.-
Trataremos de ver mediante ejemplos, la elección de
una medida de tendencia central de acuerdo al tipo de
variable utilizada y a la forma que adopte la
distribución de frecuencia.-
Suponga que una cadena de supermercado tiene
catalogadas a sus sucursales de acuerdo a las zonas
que están instalada; un cierto índice de tamaño
(considerando la superficie ocupada y la cantidad de
empleados que tienen) y su volumen de ventas
semanales en pesos.-
El registro de estos datos según zona, tamaño y
volumen de venta son:

SUCURSAL ZONA INDICE DE VENTAS


TAMAÑO SEMANALES
A 1 3 620
B 2 5 720
C 3 2 270
D 2 1 340
E 2 1 350
F 1 4 660
G 2 5 1120
H 3 4 720
I 4 4 840
J 4 3 580
A simple vista, no habría ninguna objeción para calcular
la media, mediana y el modo para las tres variables en
estudio.- Pero, aplicando un razonamiento lógico en
dos de tales variables, zona y tamaño, algunas de estas
medidas de tendencia central no dan información que
tenga significado útil.-
Así, ¿Qué significado tiene decir que la media de las
zonas es 2?, ninguno y ello se debe a que la variable
categórica zona no esta medida en una escala numérica
sino que en una escala nominal.-
Cuando se tiene este tipo de variable, la única medida
de tendencia central que se puede calcular es el modo.-
En el ejemplo planteado, decir que la zona 2 es la que
concentra mayor cantidad de sucursales, es una
afirmación correcta.-
Consideremos ahora la variable “tamaño de la sucursal”.-
En esta situación, también el modo es una medida que la
podemos interpretar.- En el ejemplo, el modo es 4, es
decir que hay más sucursales de tamaño 4.- La variable
tamaño definida como un índice, es una variable
categórica ordinal pero no numérica, pues no indica que
tan grande en tamaño es una sucursal de tamaño 4 en
comparación de una sucursal de tamaño 2.-
En estos casos, también se puede calcular la mediana
que es 3,5.- Su única interpretación seria que la mitad de
las sucursales tienen un valor índice de mas 3,5 y que la
otra mitad tienen un valor menor d e3,5.-
En el casos de la variables “ventas semanales”;
numérica continua, tiene sentido calcular las tres
medidas de tendencia central.-
Una recomendación importante que debe hacerse al
calcular la media es tener mucho cuidado la variable
presenta valores atípicos, pues todos ellos intervienen
en el cálculo.-
En el caso de la variable ventas semanales; la media es
de 624 $.-
Ahora bien, si por alguna razón, la sucursal 1 hubiera
interrumpido sus ventas durante una semana por
problemas gremiales, el valor registrado para la variable
ventas hubiera sido 0.- En este caso, la media de ventas
semanales sería de 540 $, lo cual no reflejaría una
situación normal.-
En cambio, si hubiéramos elegido a la mediana como
medida de tendencia central, en las dos situaciones
hubiéramos obtenido Me = 650 $.-
Con este ejemplo, queremos demostrar que cuando la
variable presenta valores atípicos, es más conveniente
usar la mediana como medida de tendencia central.-

Cuando tenemos distribuciones bimodales, ninguna


medida de tendencia central provee información útil.- En
esos caso nos conviene calcular medidas de tendencia
central en cada una de las poblaciones
independientemente.-

Otras situaciones en la cual la media suele ser no


representativa es cuando la distribución es asimétrica,
esto es cuando hay pocos valores muy bajos o pocos
valores muy alto.- (lo veremos más en la Unidad cuando
hablemos de medidas de forma)
ANEXO 1
b1) MEDIANA PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos tener la cantidad de accidentes automovilísticos por
mes en cierta localidad.- Se registraron datos correspondientes a 60
meses.-

xi fi Fi Hi%
0 10 10 16,7 Buscamos la menor Hi % que
me contiene al 50 %.-
1 12 22 36,7
Observamos ahora que valor
2 16 38 63,3
de variable le corresponde:
3 8 46 76,7
4 7 53 88,3 Me = 2 accidentes
5 5 58 96,7
6 2 60 100,0
Total 60 ----- -----
b2) MEDIANA PARA DATOS AGRUPADOS EN INTERVALOS.-

Calculamos la Mediana mediante la siguiente formula:

 n 
 
2 Fi - 1  *
Me  Li   
ci
 fi 
 

Li: límite inferior del intervalo que contiene la mediana.-


Determinamos el intervalo mediano observando la menor Fi %
que contiene el 50% de los datos.-
n/2 : posición de la mediana
Fi-1: frecuencia absoluta acumulada anterior a la del intervalo
mediano.-
fi : frecuencia absoluta del intervalo mediano.-
Ci : amplitud del intervalo mediano
Supongamos tener las notas de un parcial del
Estadística de una muestra de 50 alumnos.- Los datos
agrupados en una tabla de frecuencia con intervalo
fueron:

Li Ls fi Fi Hi % n 
  Fi - 1 
   2 *
36 44 2 2 4,0 Me Li  ci
 f i 
44 52 12 14 28,0
 

52 60 15 29 58,0 25 - 14
Me = 52 + * 8 =
60 68 18 47 94,0
15
68 76 3 50 100,0
Me = 57,87 ≈ 58 puntos.-
Total 50 ----- ------ El 50% de los alumnos sacaron en el
parcial 58 puntos o menos.-
MODO PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos que en el relevamiento de 50 empleados de una
empresa, se les pregunto la cantidad de niños en edad escolar que
tienen.- Resulto la siguiente tabla:

xi fi

2 5 Observamos la mayor frecuencia


absoluta.- El valor de variable que le
3 12 corresponde es el modo.-

4 18

5 9 Mo = 4 niños en edad escolar

6 6

TOTAL 50
MODO PARA DATOS AGRUPADOS CON INTERVALOS.-
Supongamos que tenemos una muestra aleatoria de 72 notas de
un parcial de Estadística que se les tomo a un curso integrado por
200 alumnos.- Estas fueron las siguientes:

Li Ls fi  d1 
  *c
Mo Li    i
 
 d1 d2 
36 46 4
46 56 9
d1 = fi - fi-1 = 23 - 18 = 5
56 66 18
d2 = fi - fi+1 = 23 - 11 = 12
66 76 23
5
76 86 11
Mo = 66 + ---------------- * 10 =
86 96 7
5 + 12
TOTAL 72 = 68,94 ≈ 69 puntos.-
MEDIDAS
DE
ORDEN
CUARTILES
Y

PERCENTILES

Supongamos que seleccionamos una muestra


aleatoria de personas adultas de un determinado
barrio de La Rioja.- Una de las características
que se desea estudiar son los Ingresos, variable
continua.- Con las medidas de tendencia central
hemos podido calcular y entender a ciertas
preguntas de la investigación, como por
ejemplo:
• el ingreso promedio es de 4000$, el 50% de las
personas adultas tienen ingresos de 3500$ o
menos e incluso poder decir que el ingreso que
más se da es 2900$.-
• los ingresos del barrio no son tan homogéneos
lo que nos muestra una distribución asimétrica a
derecha y una dispersión considerable.-

Esta descripción permite una buena compresión


global de los datos elaborados y por ende, de
los individuos analizados; pero muy poco o nada
nos informa sobre aspectos más específicos del
fenómeno en estudio.- Por ejemplo:
• el 25 % de los adultos del barrio tienen
ingresos por debajo de que valor.-
• el 25% superior tienen ingresos por encima de
que monto.-
• el 62 % de los adultos ganan por debajo de que
monto, y así sucesivamente podríamos
plantearnos otras situaciones.-

Las medidas de orden nos van a responder


estas preguntas, y son medidas como los
deciles, cuartiles y percentiles.-
CUARTILES

Se lo simboliza con Qr., donde con “r”


indicamos el orden del cuartil que queremos
calcular.-
Los cuartiles dividen mi distribución de datos
u observaciones en cuatro partes iguales o sea
que tenemos tres cuartiles el cuartil de orden
1, de orden 2 y el de orden 3, y en cada uno se
encuentra el 25 % del total de casos
observados.
Entonces si tenemos una recta imaginaria
donde se ubican el 100% de mis datos:
Q1 Q2 Q3

25% de los datos son ≤


al valor del Q1 y el 75%
restantes mayores a el

50% de los datos son ≤


al valor del Q2 y el 50%
restantes mayores a el

75% de los datos son ≤


al valor del Q3 y el 25%
restantes mayores a el
Cuando tengo que calcular cuartiles, para pocos
datos , generalmente no más de 20 datos, lo
primero que tenemos que hacer es ordenar los datos en
forma creciente.- Calculamos ahora la posición de valor
que será el cuartil buscado, haciendo:

(n + 1) * r
Qºr =
4

El calculo de la posición me puede dar las


siguiente situaciones:
Si me da un valor entero, el cuartil
buscado será el valor de variable que
ocupe ese lugar.-

Si me da un valor decimal en 5, el
cuartil buscado será el promedio entre
el dato posición del entero y el
siguiente.-

Si me da un valor ni entero, ni decimal


en 5, el cuartil buscado será el dato
que ocupe la posición siguiente al
valor entero.-
Veamos un ejemplo.-
Supongamos tener las edades de una muestra de profesionales en
distintas disciplinas de la UNLAR.- Estos resultaron ser:
22-58-24-50-29-52-57-31-30-41-44-40-46-29-31-37-32-44-49-29
Ordenamos en forma creciente los datos:
22-24-29-29-29-30-31-31-32-37-40-41-44-44-46-49-50-52-57-58

Qº1 = 5,25 posición Q1 = 30 años

El 25 % de los Profesores tienen 30 años o menos

Qº3 = 15,75 posición Q3 = 49 años

El 75 % de los Profesores tienen 49 años o menos


PERCENTILES

Se simbolizan P r % .- Los percentiles me dividen las


observaciones en cien partes iguales.-
Cuando tenemos pocos datos, generalmente menos de 20,
ordenamos las observaciones en forma creciente y
calculamos la posición del valor observado que va a ser
el percentil buscado.-

(n + 1) * r %
Pºr% =
100

El calculo de la posición me puede dar las


siguiente situaciones:
Si me da un valor entero, el percentil
buscado será el valor de variable que ocupe
ese lugar.-

Si me da un valor decimal en 5, el percentil


buscado será el promedio entre el dato
posición del entero y el siguiente.-

Si me da un valor ni entero, ni decimal en 5,


el percentil buscado será el dato que ocupe
la posición siguiente al valor entero.-
Veamos un ejemplo:
Supongamos tener una muestra de 15 alumnos a los cuales se
les pregunto la cantidad de materias aprobadas.- Los datos
fueron ya ordenados:
El 62% de los alumnos tienen 8 materias o menos aprobadas.-

3 5 5 5 6 7 7 7

7 8 8 8 10 13 15 ------

Pº 62% = 9,92 posición P 62% = 8 materias

El 62% de los alumnos tienen 8 materias o


menos aprobadas.-
CALCULO GRÁFICO DE LOS CUARTILES Y
PERCENTILES

Si tenemos una distribución de frecuencias con


intervalos podemos calcular gráficamente los cuartiles y
percentiles usando la distribución de frecuencia
acumulada porcentual u ojiva, de la siguiente manera:
Fi %
100.0

75.0 Valor de la
variable
50.0 que es el
Q3
25.0
Valor de la
xi variable
que es el
Q2
Valor de la variable que el Q1
ANEXO 2
Supongamos que tenemos una distribución de frecuencia
sin intervalos, en este caso será:

A una muestra aleatoria de familias de un barrio se les pregunto


la cantidad de hijos que tienen en edad escolar.- Resulto la
siguiente distribución:

xi fi Fi Hi%
El cuartil 3 nos implica el
0 4 4 6,7 75%, por lo tanto buscamos
el menor porcentaje que lo
I 9 13 21,7 cubre, y observamos el
2 12 25 41,7 valor de variable que le
corresponde, entonces:
3 18 43 71,7
Q3 = 4 niños
4 10 53 88,3
El 75% de las familias tienen
5 7 60 100,0 4 niños o menos en edad
escolar.-
Total 60 ------ ------
Cuando tenemos una variable continua que la hemos
organizado en una distribución de frecuencia con
intervalo, la fórmula para calcular los cuartiles será:

Li: es el límite inferior del intervalo


cuartílico.- Determino este
buscando en la frecuencias
absolutas acumulada la menor
 n *r 
  Fi - 1  que me contenga ese %.-
Q r  Li   4 * ci n*r/4 : la posición del cuartil
 fi 
  buscado.-
 
Fi-1 : frecuencia absoluta
acumulada anterior a la que
corresponde al intervalo
cuartílico.-
Donde:
fi : frecuencia absoluta del
intervalo cuartílico.
Ci : amplitud del intervalo
Veamos un ejemplo: Supongamos tener los tiempos en minutos
que demoran una muestra aleatoria de alumnos de la UNLAR en
resolver un cuestionario.- Los valores fueron:

 n *r 
  Fi - 1 
Li Ls fi Fi Hi%
Q r  Li   4 * ci
 fi 
12 16 3 3 5,8  
 
16 20 7 10 19,2
13 - 10
20 24 12 22 42,3
Q1 = 20 + ----------------- 4 =
24 28 15 37 71,2
12
28 32 10 47 90,4
= 21 minutos
32 36 5 52 100,0
El 25% de los alumnos
TOTAL 52 ------ ----- demoran 21 minutos o menos
en responder el
cuestionario.-
Se tengo una distribución de frecuencia sin intervalos,
por ejemplo, supongamos que a una muestra de
familias se les pregunto la cantidad de hijos que tienen
en edad escolar.- Resulto la siguiente distribución:

xi fi Fi Hi% El PERCENTIL 82%, nos


implica el 82%, por lo tanto
0 4 4 6,7 buscamos el menor
I 9 13 21,7 porcentaje que lo cubre, y
observamos el valor de
2 12 25 41,7 variable que le corresponde,
entonces:
3 18 43 71,7
4 10 53 88,3 P82% = 4 hijos.-
El 82% de las familias tienen
5 7 60 100,0 4 hijos o menos en edad
Total 60 ------ ------ escolar.-
Cuando tenemos una variable continua que la hemos
organizado en una distribución de frecuencia con
intervalo, la fórmula para calcular los percentiles será:

Li: es el límite inferior del intervalo


cuartílico.- Determino este
buscando en la frecuencias
absolutas acumulada la menor
 n *r  que me contenga ese %.-
  Fi - 1 
P r%  Li   100 
* ci n*r %/100 : la posición del
 fi  percentil buscado.-
 
Fi-1 : frecuencia absoluta
acumulada anterior a la que
corresponde al intervalo
percentilico.-
Donde:
fi : frecuencia absoluta del
intervalo percentilico.-
Ci : amplitud del intervalo
Veamos un ejemplo: supongamos tener los tiempos en minutos
que demoran los alumnos de un curso en responder un
cuestionario de 50 preguntas.-.- Los valores fueron:

 n *r 
  Fi - 1 
Li Ls fi Fi Hi%
 
P 70% Li  100 *
 ci
12 16 3 3 5,8  fi 
 
16 20 7 10 19,2

20 24 12 22 42,3 36,4 - 22

24 28 15 37 71,2 P70% = 24 + ----------------- 4 =

28 32 10 47 90,4 15

32 36 5 52 100,0 = 27,84 ≈ 28 minutos


El 70% de los alumnos
TOTAL 52 ------ -----
demoran 28 minutos o menos
en realizar la tarea.-
RANGO DEL PERCENTIL.-
Nos encontramos con muchas situaciones en las que tenemos
una serie de datos ordenados en un tabla de frecuencia y nos
preguntan que porcentaje de datos están por debajo de un
determinado valor de variable, y esto es lo que nos dice el Rango
del Percentil.- Veamos esto en el ejemplo anterior.-

Calculamos el Rango mediante la siguiente formula:


Fi-1 + ( xi - Li) fi/ci

Rp(xi) = -------------------------------------- x 100


n
Supongamos tener los tiempos en minutos que demoran los
empleados de una empresa en realizar una tarea.- Los valores
fueron:
Calculamos el Rango mediante la
Li Ls fi Fi Hi% siguiente formula:
12 16 3 3 5,8 Fi -1 + ( xi - Li) fi /ci

16 20 7 10 19,2 Rp(22) = ------------------------------ 100


20 24 12 22 42,3 n
24 28 15 37 71,2

28 32 10 47 90,4 10 + 6

32 36 5 52 100,0 = --------------- 100 = 30,77

TOTAL 52 ----- ----- 52


- ≈ 31 %
El 31% de los empleados demoran en realizar la tarea 22 minutos o
menos.-
MEDIDAS
DE
DISPERSION
Podemos preguntarnos ¿Por qué estudiar la
dispersión?.- Un promedio como la media o la mediana
solamente localiza el centro de los datos y esto es
importante desde ese punto de vista, pero un promedio
no dice nada acerca de la diseminación de los datos.-

Por ejemplo, usted es el Administrador o Contador de


un gran comercio y una sucursal.- Le solicitan analizar
las ventas del ultimo año.- Saca una muestra de datos en
ambos, la describe y determina que el monto de venta
promedio en ambos comercio es el mismo.- ¿usted se
conformaría solo con ese dato? y le diría al Gerente que
ambos comercio andan bien.- Seguramente no, trataría
además de buscar alguna medida que le pueda indicar
que paso con todas las ventas respecto a su promedio.-
Las medidas que le indicarían esto, son las llamadas
Medidas de Variabilidad o de Dispersión.-
Un valor pequeño para una medida de
dispersión indica que los datos se encuentran
acumulados cercanamente, por ejemplo
alrededor de la media.- Por lo tanto la media se
considera bastante representativa de los datos.-
Por lo contrario, , una medida de dispersión
grande indica que la media no es confiable, es
decir, que no es representativa de los datos.-
Una segunda razón para estudiar la dispersión
en un conjunto de datos es poder comparar
cuán dispersa están dos o más distribuciones.-
Dos distribuciones pueden tener iguales
medidas de tendencia central y sin embargo
mostrar grados de dispersión diferentes.
fr e c u e n c i a r e l a ti v a

0,00
0,09
0,18
0,27
0,36
fr e c u e n c i a r e l a ti v a

0,00
0,09
0,18
0,27
0,36

Media
RANGO O RECORRIDO DE LA VARIABLE.-
Se simboliza Rx .- Se la calcula haciendo la diferencia entre el
máximo valor de la variable y el mínimo que toma.-
Como medida de dispersión se la toma poco en cuenta ya que nada
me dice de los valores intermedio de la variable.-
Un uso importante del Rango lo encontramos cuando vemos la
Estadística Descriptiva en el Control de Calidad de Procesos.-

RANGO INTERCUARTÍLICO.-

Se simboliza con Rint.-


RIC = Q3 - Q1
Esta medida considera la dispersión de la mitad (parte
central) de los datos; por lo tanto, los valores extremos
no influyen en ella.- Es una buena medida de dispersión
cuando los datos están mejor representados por la
mediana.-
VARIANCIA O VARIANZA.-
Aunque el rango es una medida de la dispersión total y el rango
intercuartílico es una medida de la dispersión media, ninguna de
estas medidas de variación toman en cuenta como se distribuyen o
agrupan las observaciones.- Por lo tanto se pensó en una medida
estadística que me tuviera en cuenta todos los datos y esa medida
es la VARIANCIA.-
Simbolizamos a la variancia:

S²x si trabajamos con la muestra


σ² si trabajamos con la población
Como no conocemos la población vamos a calcular la variancia de la
muestra.-

A igual que las otras medidas descriptivas las podemos


calcular para datos sin agrupar, par datos agrupados sin
y con intervalos.-
VARIANCIA DE LA MUESTRA.-
La variancia de la muestra es la suma de los cuadrados de las
diferencias con relación a la media aritmética dividida entre el
tamaño de la muestra menos uno.-

∑ ( xi -  x)²
S²x =
n - 1
Si el denominador fuera n en lugar de (n – 1), se obtendría el
promedio de los cuadrados de las diferencias con respecto a la
media.- Si embargo, se utiliza (n – 1) debido a ciertas propiedades
matemáticas deseadas que tiene el estadístico S², lo cual lo hacen
muy apropiadas para hacer inferencias estadísticas.- A medida
que se aumenta el tamaño de la muestra, la diferencia entre n y (n
– 1) disminuye cada vez más.-
• La variancia como esta definida como un valor
cuadrado nunca puede ser negativa.-
• No tiene explicación por estar definida como un
valor cuadrado y nos da un resultado con unidad
de medida al cuadrado.- Por ejemplo, si estamos
trabajando datos en $, la variancia nos va dar un
resultado en $², si trabajamos empleados nos
dará empleados al cuadrado, etc.-
• Será igual a cero cuando no exista diferencia
entre los datos, es decir, todas las observaciones
en la muestra deberían ser exactamente iguales.-
En este improbable caso, el rango y rango
intercuartílico también sería igual a cero.-
Como su calculo es bastante complicado,
surge la llamada Formula de Calculo de la
Variancia, que abrevia mucho el calculo de
la misma.-

∑ x² - n  x²
S ²x = para datos sin agrupar

n - 1
∑ x² fi - n  x²
S²x = para datos agrupados
n - 1
Esta fórmula será para datos agrupados sin y con
intervalos.- La diferencia se da en el valor de las
observaciones xi, ya que en datos agrupados sin intervalo
serán los datos originales, y en datos agrupados con
intervalos serán los puntos medios de los intervalos.-
Como dijimos, la variancia me da un resultado en unidades
de medida de la variable al cuadrado, entonces aparece
otra medida que llamamos Desvío Estándar.-
DESVIACION ESTANDAR

La simbolizamos con sx en la muestra y con σx en la población.-


La desviación estándar mide la dispersión promedio alrededor de
la media: como fluctúan las observaciones mayores arriba de ella
y las observaciones menores debajo de ella.-
El desvío estándar es la verdadera medida de dispersión ya
que se expresa en las mismas unidades de medida que los datos
originales.-
Calculamos la desviación estándar como:

sx = variancia

Observamos que la media y el desvío estándar ayudan a definir


en donde se agrupan la mayor parte de los datos.-
Veamos un ejemplo de calculo del Desvío Estándar.-
Supongamos que se ha tomado un Parcial de la cátedra de
Estadística y se calificó al mismo de 0 a 10.- Las notas de una
muestra aleatoria de alumnos fueron resumidas en una tabla de
frecuencia y son:

Notas fi xi Xi * fi x ²i X²i * fi

0 2 5 1 5 1 5

2 4 9 3 27 9 81

4 6 14 5 70 25 350

6 8 20 7 140 49 980

8 10 2 9 18 81 162

TOTAL 50 ------- 260 ----- 1578


∑ XI * fi ∑ x² fi - n  x²
S²x = ----------------------- =
 X = ---------------- = n - 1
n
1578 - 1352
260 = ---------------------- =
49
= ----------- = 5,2
50 226
= -------- = 4,61 ptos²
 5 puntos
49

sx = variancia = 4,61 ptos.² = 2,15 puntos

En promedio cada nota se diferencia de la media en 2 puntos.-


VARIANCIA DE LA POBLACION

La variancia de la POBLACION es la suma de los cuadrados de


las diferencias con relación a la media aritmética poblacional
dividida entre el tamaño de la población.-

∑ ( xi - μ)²
σ²x =
N

Esta variancia poblacional, nunca la calculamos porque


sostenemos que las poblaciones son muy grandes, es un
parámetro, y a estos aprenderemos a estimarlos en la Unidad de
Estimaciones.-
EJERCICIOS PARA FIJAR
LAS MEDIDAS DESCRIPTIVAS
En los siguientes tres ejercicios calcular la media,
mediana, modo, los cuartiles y los percentiles 62% y
90%., y el rango, rango intercuartilico, la variancia y el
desvío estándar.- Dar conclusiones.-

1- En una muestra aleatoria de 15 viviendas de un barrio


se pregunto cuantas personas habitaban la misma.-
Resultaron los siguientes datos:
4 2 6 3 3 5 7 5 3 2 5 6 7 8
5
2.- En una muestra aleatoria de 54 viviendas de un
barrio A, se les pregunto la cantidad de niños en edad
escolar que había en la misma.- Se obtuvo los siguientes
resultados:

Cantidad de niños 0 1 2 3 4 5 6
Cantidad de viviendas 6 10 18 8 6 4 2
3.- A una muestra aleatoria de 90 familias de un barrio se
pregunto los ingresos mensuales de los Jefes de
Hogares, (se tomo valores enteros, por comodidad) y
resulto la siguiente tabla:

Li Ls Jefes de Hogares

1800 2200 5

2200 2600 9

2600 3000 22

3000 3400 28

3400 3800 17

3800 4200 9
USOS DEL
DESVIO
ESTANDAR.-
Un Desvío Estándar pequeño nos indica que los datos
están o se encuentran localizados muy cerca de la media,
caso inverso significa que los datos están muy lejos de
su media.- Por supuesto más chico sea el Desvió
Estándar mejor serán nuestros datos.-

El matemático ruso Chebycheff (1821 – 1894) desarrollo


un teorema que permite determinar la proporción mínima
de valores que se encuentran dentro de un número
específico de desviaciones estándar con respecto a su
media.-
Para este matemático no importa la forma de la
distribución es decir puede ser simétrica o asimétrica y
dice:
Para un conjunto cualquiera de
observaciones (muestra o población)
la proporción mínima de valores que
se encuentran dentro de k
observaciones estándares desde la
media es al menos (1 - 1/ k²) %, donde
k es una constante mayor que uno.-
Por ejemplo si suponemos K = 3, será:
1 - 1 / 3² = 1 - 1/ 9 = 8 /9 = 88,89 %
Esto me está diciendo que entre la media ± 3 desvío
estándar se encuentra el 89 % de los datos.-
Si estoy estudiando sueldos, y se que su  X = 580$ y el
s = 24,10$, será:
507,70$

 X ± 3 * s = 580 ± 3 * 24,10 = 580 ± 72,3


652,30$

Podemos decir, que del total de empleados a los cuales


estudiamos el sueldo, el 89 % de ellos cobran entre 508$
REGLA EMPIRICA.-

Esta regla se aplica solo a distribuciones que son simétricas, es


decir aquellas que las medidas de tendencia central son iguales, o
sea, la media, la mediana y el modo.-
Esta regla sostiene:

Que el 68,0% de los datos se encuentran entre la


media más menos un desvío estándar.-
Que el 95,0% de los datos se encuentran entre la
media más menos dos desvío estándar.-
Que el 99,0% de los datos se encuentran entre la
media más menos 3 desvío estándar.-

En una clase práctica veremos aplicación del uso del Desvío


Estándar.-
COEFICIENTE DE VARIACIÓN.-

A diferencia de las medidas que hemos estudiado hasta ahora, el


Coeficiente de Variación es una indicación relativa de la variación.-
Siempre se expresa como porcentaje, y lo simbolizamos con CVx.-
El hecho de no tener unidad de medida hace que pueda usarse para
comparar distribuciones en diferentes unidades de medidas, y
poder decir de ellas cual es más homogénea en sus datos respecto
a la media.-
Se calcula como:

El coeficiente de variación es igual a la desviación estándar


dividida entre la media, multiplicada por 100 por ciento.-

S
CVx = * 100
x
Cuando comparamos dos distribuciones de
datos en diferentes unidades de medida, y
queremos saber cual es más homogénea en sus
datos referentes a su media, no tenemos más
opción que comparar los CV, a menor CV más
homogéneos son los datos.- Por ejemplo, si
tenemos una distribución donde estudiamos
sueldos de la empresa y en la otra la antigüedad
en la empresa de esos mismos empleados, y
nos preguntamos en que son más homogéneos
esos empleados, en sueldos o en antigüedad.-
Cuando comparamos dos distribuciones de
datos en igual unidad de medida podemos
preguntarnos en cual distribución son más
homogéneos los datos respecto a su media.- En
este caso podemos comparar los desvíos
estándar solo si las medias son iguales, y el
menor desvío estándar más homogéneos son
los datos.-

Cuando las medias son diferentes no es objetivo


comparar las desviaciones, y en esos casos
recurrimos a comparar los Coeficientes de
Variación.- A menor CV más homogéneos son
los datos respecto a su media.-
Ejemplo para calcular

Los siguientes datos representa los montos de ventas diarias, de


una muestra aleatoria de 15 días de dos comercios de artículos
del hogar, durante el año 2008.- (en miles de pesos).-
COMERCIO A

10.5 10.1 10.0 11.0 9.8 8.9 9.3 9.7


10.4 10.0 9.6 9.1 11.2 10.5 9.9

COMERCIO B

7.9 8.2 9.1 9.3 8.8 10.6 10.1 8.5


7.5 9.3 8.4 9.2 10.7 9.8 9.5

Indique que Comercio tiene ventas más homogéneas.-


MEDIDAS
DE
FORMA.-
Las medidas de forma hacen referencia a la forma de la
distribución de datos.- Ya hemos comentado que pueden ser
simétricas, o asimétrica o segadas.-

Para describir la forma, solamente se deben comparar


la media y la mediana.- Si ambas medidas son iguales,
por lo general se considera que los datos son
simétricos o con sesgo cero.- Por el contrario, si la
media excede a la mediana, los datos se describen
como sesgados a derecha o con sesgo positivo.- Si la
mediana excede a la media, los datos suelen llamarse
sesgados a izquierda o con sesgo negativo.- Es decir:

Media > Mediana : sesgo positivo a la derecha


Media = Mediana; simetría o sesgo cero
Media < Mediana: sesgo negativo o a la izquierda.-
El sesgo positivo surge cuando la media aumenta debido a algunos
valores grandes y poco usuales; el sesgo negativo ocurre cuando la
media se reduce debido a algunos valores muy pequeños.- Los datos
son simétricos cuando en realidad no hay valores extremos en
ninguna dirección, de tal manera que los valores grandes y pequeños
se equilibra.-

Asimétrica a izquierda o negativa

Simétrica Asimetría a derecha o positiva


COMO
COMO MEDIR
MEDIR
LA
LA
ASIMETRIA
ASIMETRIA
Como señaláramos oportunamente la silueta de la forma
de la distribución (polígono de frecuencias) nos da una
idea acerca de la simetría del conjunto de datos.- Así
teníamos que, en la situación de simetría, cada mitad de
la curva es una imagen espejada de la otra mitad y la
recta que hace de espejo (eje de simetría) es la que pasa
por las medidas de tendencia central media, mediana y
modo, que coinciden en el mismo valor.-

Eje de simetría

Variable

 X = Me = Mo
A medida que la distribución se hace más asimétrica
hacia uno u otro lado (derecha e izquierda), las medidas
de tendencia central tienden a alejarse una de otra,
siendo la media por estar afectada por los valores
extremos la que más se desplaza hacia la cola de la
distribución.-

X Me Mo Mo Me  X

 X < Me < Mo  X > Me > Mo


Vemos en los Gráficos que, en el caso de una asimetría a
la izquierda, la media es menor que la mediana y esta a
su vez menor que el modo.- Inversamente en la asimetría
hacia la derecha, la media es mayor que la mediana y a
su vez esta mayor que el modo.-
Se puede ver además que la mediana toma un valor
intermedio entre las otras dos medidas, ubicándose más
próxima a la media.-
A medida que la asimetría crece en una u otra dirección,
también las distancias entre la media, mediana y modo
crecen.- En consecuencia, podemos usar estas
diferencias ( X – Mo) o ( X - Me) como medidas absoluta
de la asimetría de una distribución.- Además, se puede
ver que si la asimetría es a la izquierda, (  X – Mo) dará un
valor negativo, en tanto que si la asimetría es a la
derecha dará un valor positivo.-
EN SINTESIS:
x - MO = 0 SIMÉTRICA

X - MO < 0 ASIMETRIA NEGATIVA


X - MO > 0 ASIMETRIA POSITIVA

Además, cuanto mayor sea el valor absoluto de la


diferencia, mayor será el grado de asimetría de la
distribución:

a mayor | X - Mo| mayor asimetría


Para poder comparar asimetría de distribuciones de
variables medidas en distintas escalas o para valores
de distintas magnitudes, la solución es construir
medidas relativas de asimetría.-

COEFICIENTE DE ASIMETRIA DE PEARSON.-


(CAP)

Una de las medidas de asimetría más difundida es este


Coeficiente, que se calcula esa diferencia en términos
del desvío estándar.-

 X - Mo 3( X - Me)
CAP = o CAP =
s
s
Comentarios
• La magnitud absoluta del coeficiente indica la
“cantidad de desvío estándar” a los que se encuentra
la media del modo.-
• Se lo puede expresar en porcentaje, multiplicando
por cien el resultado de la expresión anterior.-
• Si el coeficiente es igual a cero, estamos en una
situación de simetría perfecta.-
• En situaciones de asimetría el coeficiente puede
tomar una asimetría a derecha o a izquierda.-
Recordemos que una es positiva y la otra negativa.-
•En términos teóricos, este Coeficiente puede tomar
valores que varían entre - 3 y +3.-
CURTOSIS.-

Una medida de que tan elevada o plana es la curva de


la distribución de unos datos, se obtiene a través del
estadístico llamado curtosis.-
Si el signo de la curtosis es positivo indicará que la
curva de la distribución de los datos es más empinada
o alta en el centro y con colas relativamente largas;
ambos aspectos respecto a la distribución normal, que
veremos más adelante en la Unidad 4.-
Si el signo es negativo, se tendrá una curva más
aplanada y con colas más corta respecto a la
distribución normal.
Los límites de aceptación de la curtosis están entre
0,263 y 0,363.-
Entre las muchas formulas que hay para calcular la
curtosis, tomaremos la siguiente:
Q3 - Q1
Cu =
2 ( P90 - P10 )

Platicurtica Mesocurtica

Leptocurtica
COMO
INTEGRAR
LAS
MEDIDA QUE
HEMOS
VISTO
Hasta aquí he presentado una serie de valores
característico de una distribución que nos
permite señalar diferentes aspectos del
conjunto de datos que se analiza.-
Cada una de estas medidas dirige nuestra mirada
hacia algún rasgo de interés de ese conjunto
de datos y ahora buscamos como integrarlas
de tal manera que podamos dar un idea de
imagen de la distribución.-

CONSISTE EN UN RESUMEN DE
PRESENTAR: CINCO DATOS
En un resumen de cinco números se emplean
los siguientes datos
1.- Valor mínimo.-
2.- Primer cuartil.-
3.- Mediana.-
4.- Tercer cuartil.-
5.- Valor máximo.-

Observe que estos cinco valores numéricos dividen al


conjunto de datos en cuatro subconjuntos, con una
cuarta parte de los datos en cada subconjunto y es
posible observar cuán dispersos están los datos en
cada cuartos.-
Supongamos que seleccionamos una muestra
de Jefes de hogares de un determinado barrio
para y les preguntamos cual es el ingreso
total, los datos fueron:

2500 2750 3100 3270 3420 3500 3750 3800


3850 3840 4150 4200 4200 5500 5800 6200

Calculamos los cinco número como ya sabemos


y resulta:

Mínimo Q1 Mediana Q3 Máximo RIC


2500 3308 3820 4200 6200 893
Podemos decir que:
• El ingreso mínimo es de 2500$.-
• El 25% de los Jefes de Hogares tienen
ingresos de $3308 o menos.-
• El 50% de los Jefes de Hogares tienen
ingresos de $3820 o menos.-
• El 75% de los Jefes de Hogares tienen un
ingreso de $4200 o menos.-
• El Jefe de Hogar que tiene ingreso más alto es
de $6200.-
• El monto de diferencia de ingresos entre el
50% central de los datos es de $893.-
RECURSO GRAFICO

El recurso gráfico asociado al resumen de cinco


números es lo que se conoce como
“Diagrama de caja y bigotes” también se
lo conoce con su nombre en inglés
“boxplot”.-

Un diagrama de caja es un resumen gráfico de


los datos basado en un resumen de cinco
números y nos da una idea de forma de la
distribución del conjunto de los datos, además
de poder determinar si tenemos valores atípicos
(outliers) que son los que están más allá de los
límites de los bigotes.-
Los pasos para trazar un diagrama de caja y
bigotes son:

1.- Se traza un rectángulo con los extremos en el primer


cuartil y tercer cuartil.- Este rectángulo contiene el 50%
de los datos centrales.-
2.- En la caja se traza una recta horizontal en el lugar de
la mediana, así, la línea de la mediana divide los datos en
dos partes iguales.-
3.- Se calcula el rango intercuartil RIC = Q3 – Q1 .-
4.- Se aplica la regla de Tukey haciendo RIC * 1,5.- Los
límites de los bigotes estarán dados haciendo:
Q1 - 1,5 * RIC y Q3 + 1,5 * RIC.-
Todos los valores que nos queden fuera de esos límites
son considerados valores atípicos.-
4.- Las líneas punteadas a los costados de la
caja se llaman bigotes de la caja y se trazan de
acuerdo a la regla anterior.-
5.- Por último, se vuelcan los valores mínimo y
máximo, si estos quedan fuera de los bigotes se
marcan con asterisco y nos indica los valores
atípicos, es decir los valores que urgente hay
que observar, nunca dejarlos pasar o no tenerlos
en cuenta.-

En nuestro caso, con los datos de ingresos de


los Jefes de Hogares de un determinado
barrio, el diagrama de caja será el siguiente:
Gráfica de caja de C2

6000 VALORES ATIPICOS

5000
C2

4000 50% DE LOS


DATOS
CENTRALES

3000

2000

UBICAMOS EL UBICAMOS EL UBICAMOS LA


CUARTIL 1 CUARTIL 3 MEDIANA
Analicemos un poco nuestro diagrama de caja:

• Rápidamente observamos un distribución


asimétrica a derecha.- El bigote superior es más
largo que el inferior.-
• En el bigote superior se observan dos valores
atípicos, valores a observar.-
• El bigote inferior 25% de los ingresos esta
indicando una mayor concentración es decir que
ese grupo de jefes de hogares tienen ingresos
bastantes similares y además observamos que
no tiene valores atípicos.-
• El 50% de los jefes de hogares con ingresos
centrales son bastantes simétricos es decir que
la mediana está casi en el medio, aunque vemos
una pequeña dispersión en el 25% de los
ingresos que están entre el cuartil 1 y la
mediana.-

Este tipo de gráfico resulta muy ilustrativo,


hasta podríamos decir el único, respecto a su
explicación y entendimiento cuando se desea
comparar distribuciones.-
Veamos un ejemplo:
1º 2º 3º
75 90 38
64 45 45 Suponga que tiene las
82 86 68 notas de los tres
93 70 92 parciales que se le tomo
46 35 85
este cuatrimestre a la
38 64 70
asignatura Estadística
45 68 76
68 58 90
de cierta carrera.-
62 60 26 Decide comparar la
54 72 38 situación de los tres
50 70 45 parciales mediante la
85 85 48 elaboración de gráficos
92 90 72
caja y bigotes.- Resulta
98 65 70
63 68 60
entonces:
72 70 45
80 95 64
Gráfica de caja de 1º; 2º; 3º
100

90

80

70
Datos

60

50

40

30

20
1º 2º 3º
VEAMOS OTRO EJEMPLO.-

La tabla siguiente muestra las puntuaciones obtenidas


en el examen final de Estadística para quince
estudiantes de Economía, quince de Administración y
quince de Contador.-

ECONOMIA ADMINISTRACION CONTADOR


47 72 56 76 43 80
52 72 59 80 48 80
52 78 59 83 50 83
57 81 61 83 55 85
63 81 67 84 61 89
64 86 69 90 67 91
69 91 73 94 72 97
71 76 78
Boxplot of 1º; 2º; 3º
100

90

80
Data

70

60

50

40
1º 2º 3º
La figura anterior contiene los diagramas de caja
de las puntuaciones de cada uno de estos tres
grupos.- En este ejemplo concreto, puede
apreciarse que no hay observaciones
excesivamente atípicas en ninguno de los tres
grupos.- Por eso, los bigotes de las cajas
corresponden a la menor y mayor puntuación de
cada grupo.- En el diagrama se observa que los
estudiantes de Contador consiguieron la mejor
mediana, pero sus puntuaciones tienen una
variabilidad considerablemente mayor que la de
los otros grupos.- Otro hecho que llama la
atención es la gran cantidad de puntuaciones
bajas obtenidas por los estudiantes de
Economía.-
EJERCICIO DE
MEDIDAS DESCRIPTIVAS
Y
DIAGRAMA DE CAJA
(para hacer y discutir en clase)
Con Infostat y Minitab
Supongamos que tenemos las ventas diarias de un
comercio chico durante el año 2011.- .- Se selecciona
una muestra aleatoria de 50 días y se obtuvo los
siguientes montos (por 100), fueron redondeados por
comodidad.-

60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 68 97 70 64 70 70
58 78 89 44 55 85 82 83 72 77
72 86 50 94 92 80 91 75 76 78

REALICE UN ANÁLISIS ESTADISTICO


COMPLETO.

Вам также может понравиться