Вы находитесь на странице: 1из 23

ANALISIS EXPLORATORIO DE DATOS

INTRODUCCION
Para poner en prctica lo aprendido en el curso de geoestadstica
especficamente a nuestro tema el anlisis exploratorio de datos se
ha llevado acabo el presente trabajo que es una aplicacin que
revalidara la teora ,se basa en el anlisis de una data real de una
yacimiento de muestras obtenidas del sondaje de sus exploraciones
llamado la data de toromocho en alusin al nombre de la unidad
minera en un campo de estudio real en minera se lleva a cabo los
procedimientos que se detallaran ms adelante aunque de una
manera ms completa y ms minuciosa as este trabajo es una
aproximacin a menor escala del trabajo que se realiza en la minera
en materia del anlisis de sus datos de exploracin y que es un
primordial que se haga lo ms preciso posible una mal anlisis dar
malos resultados y por ende significara el fracaso de las operaciones
de una unidad minera por ello la importancia del muestreo y el
anlisis e interpretaciones que se haga con estos datos que si bien es
un anlisis ms estadstico que geoestadistico ayuda en el propsito
de lograr establecer la manera como estn distribuidas las leyes en el
yacimiento para poder hacer una buena estimacin de los recursos
as el anlisis
exploratorio de datos constituye la
etapa
inicial en el proceso de
estimacin de reservas que
luego seguirn en otros
procedimientos como el
variograma para su
posterior kriging.

Fig. la data analizada proviene de las muestras del sondaje

EJEMPLO APLICATIVO DEL ANALISIS EXPLORATORIO


DE DATOS
Para ello utilizaremos primeramente el Excel para la evaluacin de los datos
del sondaje y posteriormente el spss, este software estadstico Mediante
este programa de anlisis estadstico se busca evaluar la calidad y
consistencia de los datos, determinar la distribucin de las variables en
estudio en nuestro caso la ley del cobre y detectar los valores atpicos para
su posterior modificacin. Nos aclara aun ms el panorama y tener una
mejor visin de nuestra distribucin de nuestros datos para ellos tenemos
LA DATA TOROMOCHO la cual posee la informacin de los sondajes
realizados pero nuestro anlisis estar basado en el archivo ASSAYS para
nuestra evaluacin de leyes.

Fig. Podemos apreciar los datos del sondaje de la DATA TOROMOCHO


Como podemos notar la data toromocho posee informacin ASSAYS,
HEADER, PCF, SURVEY y un archivo de topografa, estos son el resultado de
la exploracin minera y base del proyecto en general se detalla en cinco
planillas de datos:

Puntos de ubicacin espacial de los sondajes (HEADER.csv).

Informacin de las leyes del mineral (ASSAYS.csv).

Informacin geolgica (LITHO.csv).

Datos topogrficos (SURVEY.csv).

Coordenadas de la zona (PUNTOS GPS.csv).

Pero obviamente nosotros lo que vamos a analizar y evaluar son leyes de


mineral y especficamente cobre. Para ello nos centraremos en CU total
adems de ello etas muestras han sido tomadas cada 10 metros y tenemos
un gran cantidad de datos un total de 8009 cada uno con distintas leyes de

cobre.

fig. Apreciamos los 8009 datos que procesaremos para nuestro anlisis
estadstico

Para tener una idea de cmo est distribuido vemos las leyes de cu se hizo
distribuciones agrupando los datos y observndolos en un grfico lo mismo
se hizo pero ordenando las muestras de menor a mayor.
De esta manera podemos notar como estn distribuidas las leyes as como
ya podemos notar la presencia de los outliers valores atpicos que salen al
hacer los anlisis pero que debemos determinar si estos lo son realmente o
si son solo errores de muestreo o mal digitados o mal analizados como
muchas veces puede suceder para ello se debe volver a analizar y
posteriormente eliminarlos o hacer las correcciones del caso.
Adems Podemos apreciar la gran cantidad de datos que vamos a procesar
a continuacin el anlisis estadstico con Excel con la finalidad de calcular
los parmetros para su distribucin.

Ahora haremos el anlisis respectivo para ello contaremos con las


herramientas estadsticas:

Fig. Observamos los datos a partir del cual haremos el anlisis estadstico
Hallamos el rango el dato mximo menos el mnimo, el criterio de stuges
para hallar el numero de intervalos k=1+3.32*logN obtenemos
redondeando 14 clases o intervalos tambin hallamos la amplitud o periodo
de cada clase

Fig. Muestra las dems medidas de dispersin de la estadstica clsica de la


data toromocho

Fig. Muestra la tabla de distribucin de frecuencias de la data toromocho.

histograma- ley CU
4000

3500

3000

2500

Frecuencia

2000

1500

1000

500

10

11

Obtenemos los siguientes resultados sea calculado cada clase con sus
respectiva amplitud hasta completar el dato mximo para las 14 clases se
halla el Xi o promedio de cada clase adems de su frecuencia es decir la
cantidad de datos entre intervalo de clase lo cual al sumar debemos llegar a
los 8009 datos obtenido hallamos tambin el hi y Hi que son frecuencia
relativa simple y frecuencia relativa acumulada respectivamente las cuales
para confirmar que el clculo fue bien hecho debe llegar a la unidad.
Adems de otros datos que se calculan por defecto para los diagramas de
anlisis pero que son de vital importancia para hacer una buena distribucin
de los datos de la data. Adems se calcula la media y la varianza para
calcular tambin el coeficiente de asimetra y el de kurtosis para la
completa interpretacin del histograma
Fig. Histograma de frecuencias de la data toromocho

12

13

14

INTERPRETACIONES
Este grafico nos da los resultado as podemos apreciar la cantidad de cores
con su respectiva ley por lo que podemos apreciar de la clase 1 es decir del
intervalo de 0.002 a 0.321 tenemos 3430 muestras, de la clase 2 de
intervalo de 0.321 a 0.639 tenemos 2883 muestras y la clase 3 de intervalo
de 0.639 a 0.958 tenemos 1153 muestras; podemos decir que existe una
buena cantidad de cores con leyes bajas.
De la clase 4 a la clase 8 la cantidad de cores va a bajando a medida que la
ley va a aumentando y tambin se presenta nula mineralizacin de la clase
9 a la clase 13 y apenas un solo dato con una ley alta de 4.145 a 4.464 es
decir pocos cores con muy buena mineralizacin eso contando a las 5
muestras de la clase 7 y 8 que tienen leyes que varan entre 1.914 a 2.552
pero ese dato se puede tratar como un posible outliers que tenemos que
analizar para descartar errores que se suelen cometer en estos
procedimientos como errores de muestreo, de digitacin entre otros o si
representan una mineralizacin importante existente si encontramos que
son datos propios del fenmeno estaramos frente a un probable recurso
mineral econmicamente explotable luego obviamente del estudio y
planeamiento de minado. Probablemente la existencia de dos
mineralizaciones diferentes con diferencias muy marcadas en cuanto a su
contenido.

Fig. Histograma de la ley de CU muestra la campana de gauss


La mayor cantidad de cores estn en los dos primeros intervalos de clase la
campana de gauss nos da una Leptocrtica tiene un coeficiente de
asimetra As=1,4259 lo que indica que es mayor a cero por lo que es
sesgada a la derecha (tiene sesgo positivo) adems un coeficiente de

kurtosis Ac=7,4425 es decir es mayor a tres lo que hace nos indica que su
distribucin es de mayor altura que la distribucin normal. Adems tenemos
una distribucin log normal.

Fig. Tipos de distribucin de acuerdo a su coeficiente de asimetra,


asimtrica sesgada a la derecha, simtrica y asimtrica sesgada al a
izquierda

Fig. Anlisis de distribucin segn el coeficiente de asimetra


El sesgo a su vez me indica que los datos tienen una simetra positiva.
Adems se muestra claramente que tiene una distribucin log normal para
luego normalizarlo a fin de tener una distribucin normal con un error de
estimacin confiable que puede ser del 95%.

Fig. Tipos de distribucin segn el coeficiente de kurtosis

Tal como de nuestra distribucin se obtuvo una Leptocrtica es decir de un


coeficiente de asimetra mayor a 3 que indica que la distribucin tiene
mayor altura que la distribucin normal.
El otro anlisis consiste en hacer el diagrama de cajas y bigotes o BOX PLOT

Fig. Diagrama de cajas y bigotes grafico representativo

Fig. Ejemplo de grafica de cajas


Este ejemplo cualquiera representativo nos ayudara a comprender lo que se
busca con este diagrama de cajas que nos permite conocer la localizaciones
centro de los datos, su dispersin (el rango intercuartilico), la simetra de la
distribucin y la ms primordial la existencia de datos que se desvan del
patrn general (datos atpicos) los outliers.
Para este anlisis necesitamos los datos siguientes datos mnimo, mximo
el primer y el tercer cuartil as como la mediana con estos datos que se
obtienen con Excel obtenemos la grfica aunque al procesarlo en el Excel no

se logra visualizar los outliers cosa por la que necesitamos de la ayuda del
spss.

Aqu henos considerado usar tambin las otras variables del cu lo que son el
CUS, CUCN Y CUR que son el cobre soluble, cianurado y recuperable
respectivamente para un anlisis ms amplio del diagrama de cajas aunque
nuestro inters se centra en el cu total
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
CU

CUS

CUCN

CUR

Fig. Grafica de cajas y bigotes en Excel de la data toromocho


Aunque quiz la desventaja del procesamiento en Excel es que no se puede
ver los outliers por algn motivo por ello tambin se trabaj con el software

estadstico en el cual se puede apreciar el diagrama de cajas con el objetivo


de visualizar los outliers.

EVALUACIN DE LA MORMALIDAD DE
LOS DATOS
Como obtuvimos una distribucin log normal de leyes de Cu entonces lo
siguiente es normalizar nuestros datos es decir llevarlos a una distribucin
normal para ello se lleva a cabo el estudio de la normalidad existen diversos
mtodos para la evaluacin de la normalidad de un conjunto de datos para
nuestro caso se crey conveniente usar un mtodo sencillo y practico como
es el mtodo grafico es hacer el diagrama de cuantiles(QQ-plot) que
detallaremos pero cabe resaltar que tambin se normaliza con el contraste
de hiptesis o Prueba de normalidad de Kolmogorov que es un poco ms
tediosa pero con el diagrama de cuantiles de forma grfica podremos
normalizar nuestra distribucin.
GRFICO DE CUANTIL (QQ-PLOT) EN EXCEL
La construccin de este grafico de probabilidad normal se realiza a travs
de los cuantiles de la normal estndar, de forma que aceptaremos la
hiptesis de normalidad de nuestros datos siempre que los puntos en el
grafico tengan un comportamiento suficientemente rectilneo
Grfico Q-Q nos permite comparar los cuantiles obtenidos de la muestra
con los de la distribucin terica. Este grfico sirve para determinar si un
conjunto de datos se ajusta a una distribucin normal. La normalidad de los
datos ser perfecta cuando los puntos estn sobre la lnea recta

Fig.
Muestra los tipos de graficas de cuantiles o grficos de probabilidad normal

Los elementos fundamentales de este grafico de probabilidad son los


puntos de posicin grafica (plotting positions) aplicado a nuestra data
toromocho y siguiendo nuestro anlisis exploratorio de datos se sigue los
siguientes pasos:
Primero disponemos de un conjunto de datos las 8009 muestras del sondaje
Xi (i=1, 2,3,8009) es decir tenemos 8009 cuantiles. Enumeramos el i del 1
al 8009, luego:
-Ordenamos loas datos de mayor a menor x (1) x (2) x(n) as de
menor a mayor ordenamos los datos de las leyes de cu.
-ahora asignamos la fraccin fi que representa cada Cuantil emprico bajo
formula:

Normalmente se a=0.5 pero para obtener una mayor precisin otros autores
como Kimbal (Kimbal B., Journal of the American Statistical Association
recomiendan el valor de a =3/8 esta esperanza como medida de localizacin
tiene una mayor aproximacin a la distribucin normal por lo que la formula
seria:

Ahora veamos en el Excel:


Una vez procesados los datos procedemos a obtener la grfica
seleccionamos los fi y la variable o sea las leyes de cu es decir las
fracciones de los cuantiles empricos y las leyes de cu, nos vamos a insertar
grafica modelo de dispersin. Luego se hace la lnea de tendencia o sea
lineal.

Fig. Muestra el diagrama de cuantiles

INTERPRETACION
De acuerdo al estudio de la normalidad vemos que nuestro resultado fue
una distribucin Platicrtica es decir presenta una kurtosis diferente a la
normal en este caso es menor de 3.
Es importante destacar que esta representacin de dispersin de estos
datos es para lograr la normalidad de los datos lo cual se logra cuando los
puntos estn sobre una lnea recta adems de que hay ciertos parmetros
que considera este mtodo de grafica de cuantiles que otros no toman en
cuenta pero que al fin de cuentas buscan la normalidad de los datos.

ANLISIS EN SOFTWARE ESTADISTICO SPSS


El software IBM SPSS el cual utilizaremos para hacer el anlisis de nuestros
datos. Este procesa de una manera sencilla rpida y es muy completa ya
que te calcula todos los parmetros para la evaluacin de la distribucin con
solo cargar la data en el programa. Al dar inicio al spss se nos abrir una
ventana elegimos la opcin introducir datos aceptamos.

Fig. el software spss en win 7 32 bits


Primero hacer el cargado de nuestro datos los 8009 lo cargamos en la
ventana donde se indica variable y ponemos la opcin variable numrica

Fig. Cargado de los 8009 datos en variable numrico spss


Como nuestro caso es univariable solo una variable los datos de las leyes de
CU entramos a la opcin analizar luego explorar seleccionamos la variable
seleccionamos y arrastramos la data y entramos a cargado de resultados y
de forma sencilla nos dar los siguientes resultados:

Fig. Muestra de los resultado con cada parmetro estadstico


La opcin explorar nos da un conjunto de datos sobre las leyes de CU que
suministramos al spss. Este programa nos da de forma inmediata cada uno
de los datos calculados de la tabla de distribucin de frecuencias mostradas
anteriormente con el Excel entre ellos tenemos el rango, la media, el

mnimo, el mximo, la varianza, la desviacin estndar, la asimetra la


kurtosis, la desviacin tpica entre otras medidas de dispersin estadstica
relacionadas a la variable cu.
Adems viene anexado a esto una grfica de tallos y hojas aunque no es
motivo de nuestro estudio pero vale la pena aclarar que el programa da este
grafica por defecto, adems no es muy conocido y utilizado alumnos en la
evaluacin de anlisis exploratorio a nivel de minera en el anlisis de leyes
de mineral, no es sino es otra forma de distribucin de los datos
bsicamente nos permite obtener simultneamente una distribucin de
frecuencias de la variable y su representacin grfica. Para construirlo basta
separar en cada dato el ltimo dgito de la derecha (que constituye la hoja)
del bloque de cifras restantes (que formar el tallo).

Fig. Muestra el diagrama de tallos y hojas herramienta adicional del spss

Fig. Muestra los resultados con sus ubicaciones en el diagrama de cajas con
spss
Antes de analizar a nuestro ejemplo primeramente analicemos que
informacin nos aporta el diagrama de cajas en el spss que es casi similar al
Excel pero que la diferencia est en la manera de analizarlo el spss es ms
completo y permite la observacin de los outliers.
En este software ya se puede observar los outliers el cual era el objetivo
para el anlisis del diagrama de cajas y bigotes, estos valores atpicos que
escapan como datos aislados para luego hacer el anlisis respectivo que se
hacer ante el tratamiento de outliers.

Fig. Muestra el diagrama de cajas y bigotes blox plot en spss de la data


toromocho
De esta manera se puede confirmar los resultados del spss si comparamos
veremos que concuerda con la data toromocho pues si vemos en la clase 14
tenamos un outliers de ley 4.464 que claramente se puede ver en la parte
alta superior del diagrama asimismo de la clase 8 de leyes entre 2.233 a
2.552 tenamos 2 posibles outliers que tambin podemos visualizar justo
entre este intervalos de leyes seguido de la clase 7 de leyes entre 1.914 a
2.233 con 3 visibles outliers esto nos indica que se comprueba los
resultados obtenidos en la distribucin cabe sealar que sean o no outliers
depender del anlisis de su tratamiento para ver si realmente se trata de
valores atpicos o solo son errores de muestreo, mala digitacin o se ha
incurrido en un mal anlisis qumico para ello se deber proceder a la
verificacin de los datos.

CONCLUSIONES

El AED anlisis exploratorio de datos es de vital importancia en la minera


para la estimacin de reservas porque es bsicamente la interpretacin del
muestreo, punto iniciador del xito o fracaso de una operacin minera. Este
anlisis es ms estadstico pero con el s qu hace las inferencias del
tratamiento de estos datos, hacer la distribucin, el organizarlos y
procesarlos de forma correcta es fundamental y nos garantizara el xito de
la secuencia de actividades mineras con eficiencia.

Para eso este anlisis estadstico de las muestras recogidas de los datos de
campo recolectadas de los sondajes, en nuestra ejemplo de aplicacin de la
data toromocho la cual se analiz las muestras se organiz la informacin y
se hizo el anlisis estadstico obtenindose una distribucin de leyes de
cobre log normal como era de esperar pues es normal en ciencias de la
tierra este tipo de distribucin. Pero la cual debemos normalizar pralo que
se utiliz el diagrama de cuantiles esta grafica de probabilidad normal lo
cual estima a una distribucin normal mediante una recta adems de ello
mediante el grafico de cajas y bigotes se pudo observar los datos atpicos
los outliers los cuales sern evaluados para su tratamiento todo el presente
anlisis se realiz en Excel y en el software spss para la aplicacin de
nuestra data de leyes de cu de toromocho.

BIBLIOGRAFIA

www.dmae.upm.es/...distribuciones.../DISTRIBUCI_N
%20LOG.doc
http://www.scielo.cl/scielo.php?pid=S071602081998000100006&script=sci_arttext
http://www.youtube.com/watch?v=LV6lWTHvIk4
http://www.youtube.com/watch?v=yXGKpJEwphE

Вам также может понравиться