Вы находитесь на странице: 1из 59

Universidad Central de Venezuela

Facultad de Agronomía
Cátedra de Estadística

mparrap@gmail.com

1
Definición de Estadística. Importancia de la Estadística en el
campo agronómico. Conceptos básicos.
Escalas de medición.
Análisis Exploratorio de datos: Recolección, Tabulación y
Representación Gráficas de datos univariados.
Métodos de agrupación de datos: Diagramas de Tallo y Hoja.
Distribución de Frecuencias para datos numéricos continuos y
discretos. Histogramas y Polígonos de frecuencias.
Formas, Simetría y Curtosis.
Interpretación de las representaciones gráficas.

2
 Es una rama de la matemática aplicada, que tiene
por objeto la recolección, organización,
interpretación, análisis y presentación de datos
numéricos sujetos a variación.
 La Estadística se ocupa de los métodos y
procedimientos para recoger, clasificar, resumir,
hallar regularidades y analizar los datos, siempre y
cuando la variabilidad e incertidumbre sea una
causa intrínseca de los mismos; así como de realizar
inferencias a partir de ellos, con la finalidad de
ayudar a la toma de decisiones y en su caso
formular predicciones.

3
4
Podríamos por tanto clasificar la Estadística en:

, cuando los resultados del análisis no


pretenden ir más allá del conjunto de datos, e

cuando el objetivo del estudio es


derivar las conclusiones obtenidas a un conjunto de
datos más amplio,

5
Es decir que,

: Describe, analiza y
representa un grupo de datos utilizando métodos
numéricos y gráficos que resumen y presentan la
información contenida en ellos.

: Apoyándose en el cálculo
de probabilidades y a partir de datos muestrales, efectúa
estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos.

6
 Conjunto de elementos con características similares
presentes en un espacio definido y en un tiempo
determinado.

 Conjunto de numéricos que corresponden a


la medición o conteo de alguna característica de los
elementos de una población en un espacio definido
y en un tiempo determinado.

7
 Subconjunto representativo de una población.

 Si el valor de una variable toma igual valor para


todos los elementos de una población, este se
denomina constante.

8
 Características que le son comunes a los elementos de
una población y que varían de uno a otro.

Por ejemplo: el peso de cada uno de nosotros, el promedio


de calificaciones de los integrantes de esta sección de
clase, el número de horas que le dedicamos a leer la
prensa semanalmente, el número de horas que le
dedicamos a navegar en internet.

 El valor que toma la variable en un momento


determinado.

9
 Función definida sobre los valores numéricos de
características medibles de una población. Valor
que caracteriza a una población como un todo.

 Función definida sobre los valores numéricos de una


muestra. Valor que caracteriza a una muestra.

Los son constantes y los


son variables.

10
11
: Cuando se estudia TODA la
población.

: cuando se estudian porciones


representativas de una población .

12
 Es aquella que se selecciona cuando a cada
elemento de la población se le asigna la misma
probabilidad de formar parte de la muestra.

 En un galpón de conejos para engorde se desea de


un lote de 50 animales tomar el 16% para estudiar
su peso. Se procede dándole a cada una de los
animales la misma probabilidad de ser parte de la
muestra.

13
14
15
16
 Es aquella que se selecciona cuando los elementos
de la población se clasifican en función de los
objetivos mismos del muestreo y luego de cada
estrato se selecciona una muestra al azar simple.

Es importante señalar que no considerar el o los


criterios de estratificación podría afectar el
comportamiento de la variable bajo estudio.

17
 Se desea estudiar la producción de leche de un
rebaño compuesto por varias razas.

Supongamos que de un rebaño de 200 animales


debemos extraer una muestra de 20 animales.

18
POBLACIÓN
30

3 4
2
1 6 5 10 11
9 12 16 23
7
8 13 1527 17
29
23 2414 18 19
21 25 22 28 20
30
14 5 7 15 13 1 26 9 7 11
2 3 8 1 15
16 2 12 19
1 12 17
4 2 9
6 5 4
16
8 6
8 9 10 1 5 20 4 13
3 7
10 11 13 12 11 718 6 3 14 10
14 15 19
16 18 20
17
22 21
23 23

33
19
# DE ANIMALES
11 8
RAZA POBLACION MUESTRA
12
33 3
9
17 2 20 6
27 22
30 3
30 1
23 2 7 23 17
27 3 5
13
13 15
20 2 8
27 3
15 8
23 2

20
21
22
Color de las flores

Estado del tiempo

Dirección del viento


Estado de ánimo

23
Tiempo (Duración)

Concentraciones

Temperatura
Caudal

24
Sin embargo a un nivel de abstracción más elevado
podemos decir que cualquier medición puede
clasificarse como medida en cuatro tipos de escalas,
a saber:

25
En este tipo de escala, sólo se le asigna un nombre a
cada una de las posibles categorías de medición que
se realiza.

cuando se evalúa el color de las flores de una


especie, rojo, rosado, moteado y blanco, en este caso no
existe ningún tipo de relación de jerarquía entre las
distintas categorías.

Podríamos decir que con este tipo de escala lo que hacemos es


los asignar valores de la respuesta en clases o categorías.

26
En este tipo de escala también se le asigna un
nombre a cada una de las posibles categorías de
medición que se realiza, pero en este caso existe
una relación de jerarquía, un cierto orden, entre las
distintas categorías. Razón por la cual hay una
relación de importancia entre categorías.

El grado de recuperación de un paciente al


aplicarle un tratamiento, en el que podemos tener como
respuesta Nada, Poco, Moderado, Bueno, Muy Bueno.
A veces se representan este tipo de variables en escalas
numéricas, por ejemplo, puntuar el dolor en una escala de 1 a
5. Debemos evitar sin embargo realizar operaciones algebraicas
con estas cantidades, ¡Un dolor de intensidad 4 no duele el
doble que otro de intensidad 2!

27
En este tipo de escala las respuestas no sólo pueden
ser ordenadas según una relación de importancia
entre categorías, sino también se pueden establecer
entre clases medidas de distancia, sin embargo para
este tipo de medición tanto el cero como las
medidas de distancia son arbitrarios.

El caso de la variable temperatura, donde


según la escala que se utilice el cero grados tiene diferente
significado.

28
En este tipo de escala las respuestas corresponden a
los números reales. Entre los valores observados de
este tipo de mediciones no sólo pueden establecer
relaciones de igualdad, orden o jerarquía, distancia
y razón; en este caso el cero es real.

El caso del área, el rendimiento y el peso.

29
Variables

Tipo de respuesta Cualitativa Cuantitativa

Escala de Medición Nominal Ordinal Discreta Continua

Proporción o
Intervalo
Razón

11:18:40 30
31
32
33
Clase fi
Tigres 55
Magallanes 35
Leones 45
Caribes 25
Cardenales 25
Tiburones 20
Aguilas 30

34
Clase LI LS MC FA FR FAA FRA
1 [ 19,00 20,10 ) 19,55 5 13,00 5 13,00
2 [ 20,10 21,20 ) 20,65 9 23,00 14 35,00
3 [ 21,20 22,30 ) 21,75 6 15,00 20 50,00
4 [ 22,30 23,40 ) 22,85 5 13,00 25 63,00
5 [ 23,40 24,50 ) 23,95 11 28,00 36 90,00
6 [ 24,50 25,60 ] 25,05 4 10,00 40 100,00

35
36
AV=VMax-Vmin

K=(5,20)

IC=AV/K

37
Clase LI LS CC fA fR FAA FRA
1
2
3
4
5
6

38
39
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil TítuloVersión Estudiantil
Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
12
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
10
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
frecuencia absoluta

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
8
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
6
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
4
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
2
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0
Versión Estudiantil Versión Estudiantil
17,9 19,0 Versión
20,1 Estudiantil
21,2 22,3 Versión
23,4 Estudiantil
24,5 25,6 Versión
26,7 Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
minutos
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

40
41
42
43
44
45
46
47
48
VARIABLES CUALITATIVAS

NOMINAL ORDINAL

Nivel de
Variable Frec. (%) estudios Frec. % % válido % acum.
RAZA 1 5 6,3 Sin estudios 217 36,0 36,2 36,2
RAZA 2 15 18,8 Bachiller 200 33,2 33,4 69,6
Técnico
RAZA 3 14 17,5 105 17,4 17,5 87,1
medio
RAZA 4 27 33,8 Técnico
37 6,1 6,2 93,3
RAZA 5 19 23,8 superior
Universitario 40 6,6 6,7 100,0
RAZA 1 Total 599 99,5 100,0
6% Perdidos 3 0,5
Total 602 100,0
40.0
RAZA 5 35.0
24% RAZA 2 30.0
Frec. rel. (%)

19% 25.0
20.0
15.0
RAZA 3 10.0
RAZA 4 17% 5.0
34% 0.0

11:18:40 Nivel de49


Estudio
VARIABLES CUANTITATIVAS

DISCRETA CONTINUA

N º de empleados PRECIPITACION
Resumen Resumen 110

fijos ÉPOCA SECA


n 90
n 41 82
Media 24,13
Mediana 3

PRECIPITACION
D.E. 26
Q1 2
Var(n-1) 676,13
55
Q3 4
CV 107,75
Asimetría 0,14
Mín 0 27
Kurtosis 0,13
Máx 104
Mediana 13,55 -1

35.0
Q1 3,2
Q3 39,8
30.0
Asimetría 1,18
0,50

1,00
25.0 Kurtosis 0,43
Frec. rel. (%)

0,38
20.0
frecuencia relativa

0,75

frec. rel. acumulada


15.0
0,25
0,50
10.0

5.0 0,13
0,25

0.0
1 2 3 4 5 6 7 8 0,00
0 11 21 32 42 53 63 74 84 95 105
0,00
0 11 21 32 42 53 63 74 84 95 105
Nº de empleados fijos PRECIPITACION PRECIPITACION
11:18:40 50
Una vez realizado el estudio unidimensional de
cada variable por separado, el siguiente paso
consiste en analizar la existencia de posibles
relaciones entre ellas. Dicho estudio puede
realizarse desde una óptica bidimensional o
multidimensional.

En el caso bidimensional las tres situaciones


generales que pueden presentarse son las
siguientes:
1) Ambas variables son cualitativas.
2) Ambas variables son cuantitativas.
3) Una variable es cuantitativa y la otra
cualitativa.

11:18:40 51
Frec.
Total %
Col %
no si Total

Fila %
Se utiliza una tabla de contingencia que contiene en 42 18
cada casilla la correspondiente frecuencia conjunta que A 10,45 4,48 60
35,90 6,32 14,93
representa el número de datos que pertenecen a la 70,00 30,00
modalidad iésima de la primera variable y a la 16 16
modalidad j-ésima de la segunda. B
3,98 3,98 32
13,68 5,61 7,96
A partir de dicha tabla podemos estudiar si las dos 50,00 50,00
variables son o no independientes. Si no son 10 36
independientes se analiza el tipo y el grado de su 2,49 8,96 46
C
dependencia tanto gráfica como numéricamente. 8,55 12,63 11,44
21,74 78,26
1,00
19 69
4,73 17,16 88
D
Uso de control biol.

16,24 24,21 21,89


0,75
21,59 78,41
si
13 59
0,50 3,23 14,68 72
E 11,11 20,70 17,91
18,06 81,94
0,25
12 44
no
2,99 10,95 56
0,00
F 10,26 15,44 13,93
A B C D E F G
21,43 78,57
Variedad
5 43
1,24 10,70 48
Prob>ChiCuadrad G 4,27 15,09 11,94
Test ChiCuadrado
o 10,42 89,58
Razón de verosimil. 68,956 <,0001* 117 285
Total 402
Pearson 73,004 <,0001* 29,10 70,90
11:18:40 52
La distribución conjunta de dos variables puede
expresarse gráficamente mediante un diagrama de
dispersión que proporciona una buena descripción de la
relación entre las dos variables.
La relación entre las variables también puede
expresarse de forma numérica. Una medida de la
relación entre dos variables que resuma la información
del gráfico de dispersión y que no dependa de las
unidades de medida es el coeficiente de correlación
lineal.
1,4

1,2

1
PESOMAZ

0,8

0,6

0,4

0,2
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
PESOGRAN

Variable Media Desv. Correlación Signif. Prob


Estánd.
PESOGRAN 0,62396 0,186505 0,985403 <,0001*
PESOMAZ 0,854 0,271155 11:18:40 53
Cuando se estudia la relación entre dos variables es
importante asegurarse de que los individuos estudiados
son homogéneos respecto a dichas variables.
A continuación se muestra dos casos frecuentes de
heterogeneidad.

La conclusión fundamental de este análisis es que


conviene asegurarse mirando el gráfico de dispersión
que el coeficiente es un buen resumen del mismo.
Tratar de interpretar un coeficiente de correlación sin
haber visto previamente el gráfico de las variables
puede ser muy peligroso.
11:18:40 54
En este caso el estudio se enfoca como un problema de
comparación del comportamiento de la variable
numérica en las diferentes subpoblaciones que define
la variable cualitativa. Ignorar la heterogeneidad
debida a la presencia de subpoblaciones puede conducir
a conclusiones equivocadas en el análisis.
Una forma de realizar dicho análisis es mediante los
diagramas de cajas y los test de diferencias de medias.
Resumen CRECBACT AMBIENTE NEVERA
n 40 20 20
Media 400,7 454,8 346,6
D.E. 59,88 12,47 32,28
Mín 301 430 301
Máx 469 469 435
Asimetría -0,28 -0,72 0,97
Kurtosis -1,58 -0,63 0,81

pHomVar T p-valor
0,0001 13,98 <0,0001

Media(1)-
Grupo 1 Grupo 2 Media(1) Media(2) Media(2) LI(95) LS(95)
{AMBIENTE
} {NEVERA} 454,8 346,6 108,2 11:18:40
92,26 124,14 55
1,2
1
0,8 PESOMAZ

0,6
0,4
0,2
17
16
15 LONGMAZ
14
13
12
11
0,9
0,8
0,7
PESOGRANO Columna Media Desv. Mínimo Máximo
0,6
0,5 Std.
0,4 PESOMAZ 0,7728 0,2563 0,2500 1,3000
0,3
LONGMAZ 14,7500 1,1585 12,0000 17,1000
0,2
0,2 0,4 0,6 0,8 1 1,2 11 12 13 14 15 16 17 0,2 0,40,5 0,70,8 PESOGRANO 0,6004 0,1756 0,2680 0,9530

Variable Correlació LI 95% LS 95% Signif Prob


n
LONGMAZ PESOMAZ 0,3377 0,0655 0,5631 0,0165*
PESOGRANO PESOMAZ 0,9698 0,9471 0,9828 <,0001*
PESOGRANO LONGMAZ 0,3534 0,0832 0,5752
11:18:40 0,0118* 56
Rcuadrado 0,941284
RCuadrado 0,938785
Ajust.
Raíz CMEE 0,043446
Media de Y 0,60038
Observaciones 50

Fuente GL SC CM F
Modelo 2 1,4221832 0,711092 376,7284
Error 47 0,0887146 0,001888 Prob > F
Total 49 1,5108978 <,0001*

11:18:40 57
300

250

P R E C IP IT A C IO N
200

150

100

50

AGO JUL SEP

MES

Level Std Dev MeanAbsDif to MeanAbsDif to


Mean Median
AGO 63,69770 51,20533 51,07000
JUL 44,30364 32,24933 32,10667
SEP 65,77957 52,03333 51,53000

Test F Ratio Prob > F


O'Brien[.5] 2,5793 0,0816
Brown-Forsythe 2,8043 0,0660
Levene 2,9992 0,0550
Bartlett 2,4923 0,0827
11:18:40 58
59

Вам также может понравиться