Академический Документы
Профессиональный Документы
Культура Документы
La actividad de exploración y descripción de los datos tiene como finalidad examinar las propiedades
gruesas de los datos, los resultados que se pueden obtener son:
1. Resumen estadístico.
2. Visualización de los datos, identificar correlaciones.
3. Valores no disponibles.
4. Influencia de la medición en los datos (precisión, frecuencia)
5. Formato de los datos.
6. Indicar si se trata de series de tiempos o datos seriados.
7. Fuente de los datos y frecuencia de adquisición.
8. Cantidad de datos (atributos y registros).
A. B. C. ESTADÍSTICA
DESCRIPTIVA
DESCRIPCIÓN DE ESTADÍSTICOS. MULTIVARIADA
LA FORMA.
Frecuencia Para organizar datos
Histogramas de dos variables
(variables discretas) 1. Frecuencia categóricas o
absoluta Medidas de Forma o cualitativas se usan
• 2. Frecuencia distribución tablas de doble
relativa (Skewness, Kurtosis) entrada, diagramas
3. Porcentaje de cajas o diagramas
4. Frecuencia de dispersión.
absoluta Tablas de validación
acumulada cruzada:
5. Frecuencia
relativa
acumulada
6. Porcentaje Medidas de
acumulado Localización:
Cuartiles, deciles y
Caja de Puntos (Dot
Persona Númer percentiles.
Plot) (variables s o
continuas) Activas Familia Cuartiles.
s Deciles.
Xi ni Fi Boxplot (Diagrama
Percentiles. de Caja)
1 16 16/5
Ejemplos de cálculo. Cualitativa y
0
2 20 20/5 Algunas medidas de Cuantitativa
Gráfica de tallo y 0 dispersión Es el resumen de una
hojas (Stem & Leaf). 3 9 9/50 asociadas distribución empírica,
Semejante al se representa por una
histograma pero se 4 5 5/50 caja rectangular
puede recuperar la sobre el intervalo
Total 50
data original. inter-cuartil,
prolongada por líneas
Pesos de 15 varones hasta el primer y el
Medidas de tendencia
adultos. noveno decil. Se
central (media,
165 178 185 169 dibuja también la
mediana, moda,
152 180 175 189 mediana y a veces
suma)
195 200 183 191 los valores extremos.
197 208 179
Tallo: 2 primeros dígitos.
Hoja: últimos dígitos.
Medidas de
dispersión (Varianza,
STD, Máximo,
Mínimo, Rango)
Medidas de Posición
(cuartiles)
alguna relación entre
las variables, de qué
tipo, y si es posible
predecir el valor de
una de ellas en
función de la otra.
Diamond Plot
(Diagrama de
Coeficiente de
Diamante)
Correlación
Es similar a un
El coeficiente de
boxplot, pero en lugar
correlación de
de presentar el
Pearson (rr), es una
intervalo intercuartil
medida que
presente un intervalo
representa el grado
de confianza.
de asociación lineal
entre dos variables
Cubre los datos entre
cuantitativas X e Y.
el más y menos una
desviación de
estándar.
Scatterplot
(Diagrama de
Dispersión)
2 Cuantitativas
Se usa para intentar
reconocer si existe