Вы находитесь на странице: 1из 8

Características que influyen en el desarrollo de la diabetes en

Indios Pima

Gabriel Astudillo Muñoz

Universidad de Santiago de Chile


gabriel.astudillo.m@usach.cl

Resumen Este artículo analiza los atributos relacionados con diabetes (cantidad de emba-
razos, concentración de glucosa e insulina en la sangre, presión arterial, espesor del pliegue
de la piel del tríceps, índice de masa corporal, antecedentes familiares y edad) de mujeres
que pertenecen a la población de Indios Pima, mediante métodos de agrupamiento basados
en modelos gaussianos, para determinar qué factores son los más relevantes para determi-
nar si una persona tiene o no diabetes mellitus tipo 2. A través del método mencionado,
se crearon seis grupos de personas, las que fueron a su vez clasificados en dos conjuntos:
“Mayoritariamente con diabetes” y “Mayoritariamente sin diabetes”. El análisis de focalizó
en comparar los promedios de los distintos atributos de los grupos de cada conjunto. Los
resultados muestran que los antecedentes familiares permiten determinar si la persona tiene
o no tiene diabetes, en conjunto con las pruebas de tolerancia a la glucosa (concentración de
glucosa e insulina en la sangre). En el caso particular de las mujeres Pima, su Índice de Masa
Corporal y la cantidad de embarazos no influyen en que sean positivos o negativos para la
diabetes.

Keywords: Diabetes · Mujeres Indios Pima · Agrupamiento por modelos.

1. Introducción
La diabetes mellitus, más conocida como “diabetes”, es una enfermedad que altera la tolerancia
a la glucosa, generando una disminución en el metabolismo de los carbohidratos y proteínas [19].
Debido a sus características, se puede clasificar en dos grupos. El primero denominado “Tipo 1”
o “Insulino dependiente”, ataca las células del páncreas que son responsables de la generación de
la insulina (células B). El segundo, “Tipo 2” o “No Insulino dependiente”, se caracteriza por una
resistencia a la insulina. Esto significa que el páncreas no genera la insulina suficiente para convertir
la glucosa en energía. Además, la diabetes genera varias complicaciones, tales como retinopatía,
problemas renales, hipertensión, problemas cardiovasculares e incluso la muerte [6]. Según datos
de la Federación Internacional de Diabetes, se estima que a nivel mundial existen 327 millones de
personas con algún tipo de diabetes, entre 20 y 79 años. De estos, el 50 % aún no está diagnosticado
[8].
Debido a esto, diversos autores han realizado estudios para conocer cuáles son los factores que
más inciden en el desarrollo de la diabetes y generar sistemas que permitan detectarla temprana-
mente o determinar qué características de los pacientes son los más relevantes para generar esta
enfermedad. Debido a que la población de Indios Pima tiene una predisposición genética para
desarrollar la diabetes, se utilizan los datos de estas personas para desarrollar las respectivas in-
vestigaciones, denominada Pima Indians Diabetes Database (PIDD) [10,11]. Uno de los primeros
2 G. Astudillo

trabajos que desarrolló un algoritmo basado en redes neuronales para predecir la aparición de
diabetes en la población Pima fue [17], con un porcentaje de predicción de un 76 %. Utilizando la
misma tecnología, en [5] y [4], los autores lograron una predicción de un 81 % y un 83 %, respecti-
vamente. Utilizando métodos de lógica difusa, [2] logra diagnosticar los casos positivos de diabetes
en un 83 % y [13] en un 79 %. Otros trabajos, como [7], realizan un análisis multidimensional de los
datos de los Indios Pima para determinar qué factores son los que más influyen en la enfermedad,
con el fin de bajar la cantidad de dimensiones que este problema tiene.
Este trabajo emplea la base de datos PPID y mediante un análisis exploratorio estadístico y
método de agrupamiento basados en modelos gaussianos, pretende identificar las características que
influyen en que una persona perteneciente a la población de Indios Pima presenta o no diabetes.

2. Método y datos
La metodología utilizada está compuesta por los siguientes pasos: 1) Descripción de la Base de
datos; 2) Preprocesamiento de la base de datos PIDD; 3) Estadística descriptiva e inferencial; 4)
Realizar agrupamientos de los datos; y 5) Presentación de resultados.

2.1. Descripción de la Base de datos


El conjunto de datos de PIDD pertenece al National Institute of Diabetes and Digestive and
Kidney Diseases, institución que ha estudiado la población de mujeres pertenecientes a los indios
Pima desde 1965, debido a su alta tasa incidencia de diabetes [10],[11]. Esta base de datos provee
un conjunto de datos validados para relizar estudios sobre la predicción de diabetes [17]. Todos
los pacientes son mujeres de más de 21 años que tienen alguna herencia genérica con los indios
Pima. Tiene 768 instancias, de las cuales 268 (34.9 %) están clasificados como diabetes. Cada una
de ellas, tiene ocho atributos numéricos más la clasificación, las que se listan en la Tabla 1. Estos
atributos son considerados factores de riego para la diabetes en Indios Pima y otras poblaciones
[17].

Tabla 1. Información de los atributos de la Base de Datos.

# Atributos
1 Cantidad de embarazos
2 Concentración de glucosa plasmática
a 2 horas en una prueba de tolerancia oral a la glucosa [mg/dl]
3 Presión arterial diastólica [mmHg]
4 Espesor del pliegue de la piel del tríceps [mm]
5 Insulina en suero de 2 horas [muU/ml]
6 Índice de masa corporal (IMC) [kg/m2 ]
7 Función de pedigree de diabetes
(Antecedentes familiares)
8 Edad [años]

La función de pedigree de la diabetes proporciona “una síntesis de la historia de la diabetes


mellitus en los familiares y la relación genética de los relacionados con el tema” [16]. Utiliza in-
Características que influyen en el desarrollo de la diabetes en Indios Pima 3

formación del historial familiar de una persona para predecir cómo la diabetes afectará a una
persona, proporcionando una medida de la influencia genética esperada de los familiares afectados
y no afectados sobre el posible riesgo de diabetes del sujeto.

2.2. Preprocesamiento

Existen instancias cuyo valor es igual a cero y que no corresponde a una medida en una persona
“normal”. En la Tabla 2 se resume la cantidad de instancias cumplen con lo anterior. Para no
eliminar estos registros, se opta por completar dichos valores a través del método kNN (ver Sección
6.1).

Tabla 2. Cantidad de instancias con valor cero.

Atributo Cantidad de Ceros


Glucosa 5
Presión 35
Pliegue 227
Insulina 374
IMC 11

2.3. Estadística descriptiva e inferencias

Del análisis correspondiente a la estadística descriptiva (Sección 6.2), se determina que hay
atributos que tienen una correlación superior a 0.5, pero que no sobrepasan el valor de 0.66.
Debido a esto, se decide no eliminar variables por esta vía. De la estadística inferencial (Sección
6.3), se concluye que todos los atributos pueden ser factibles de utilizar para determinar si una
persona de la población Pima tiene o no tiene diabetes. Pero la idea no es hacer un diagnóstico
con una sola variable, si no que averiguar qué atributos son los más influyentes para la diabetes.

2.4. Agrupamiento de los datos

Para la formación de grupos, se utilizó el paquete “Mclust” [15]. El modelo seleccionado, debido
a su menor BIC, fue el “VVE” con 6 grupos (ver Figura 1).

Figura 1. Valores BIC para los mejores modelos de agrupamiento.


4 G. Astudillo

Tabla 3. Agrupación de los individuos para cada clase.

Nro de Grupo
Clase 1 2 3 4 5 6
0 (sin diabetes) 9 (30.0 %) 148 (95.48 %) 103 (63.58 %) 71 (36.04 %) 97 (70.80 %) 72 (82.76 %)
1 (con diabetes) 21 (70.0 %) 7 (4.52 %) 59 (36.42 %) 126 (63.96 %) 40 (21.20 %) 15 (17.24 %)

3. Resultados

Para el modelo seleccionado, se obtuvo el agrupamiento que se muestra en la Tabla 3. Para tener
una visualización de los grupos obtenidos, se utilizó el paquete “factoextra” [9], el que usa análisis
de componentes principales para reducir la dimensión de los datos, ocupando las dos primeras
componentes para realizar el gráfico de grupos, tal como se ve en la Figura 2. Para describir los
grupos obtenidos, se clasifican en dos tipos: “Mayoritariamente con diabetes” o “Mayoritariamente
sin diabetes”, según los porcentajes calculados en la Tabla 3. Luego, por cada grupo, se calcula
la media de cada atributo, con su respectiva desviación estándar, con las instancias cuya clase
corresponde al tipo de grupo, las que se muestran en la Tabla 4.

Figura 2. Agrupamiento basado en modelo gaussiano de los individuos.

4. Discusión

De los grupos obtenidos (Tabla 3), el 1 y el 4 contienen mayoritariamente individuos que son
positivos para la diabetes, que representan el 70.0 % y e 63.96 % de sus respectivas instancias.
El promedio de la glucosa en ambos grupos es mayor que 140[mg/dl], lo que significa que los
individuos tienen un nivel de glicemia alterada según la Asociación Americana de Diabetes [3]. El
Características que influyen en el desarrollo de la diabetes en Indios Pima 5

Tabla 4. Configuración de los grupos obtenidos. La clase predominante se obtiene de la Tabla 3.

Mayoritariamente con diabetes Mayoritariamente sin diabetes


Atributo Grupo 1 Grupo 4 Grupo 2 Grupo 3 Grupo 5 Grupo 6
embarazos 2.81 ± 2.96 6.34 ± 3.44 1.67 ± 1.20 5.91 ± 3.31 0.97 ± 0.82 3.81 ± 2.42
glucosa[mg/dl] 167.57 ± 25.63 151.90 ± 27.15 95.77 ± 13.89 116.26 ± 26.60 120.52 ± 21.31 98.28 ± 10.69
presión[mmHg] 70.86 ± 14.05 79.2 ± 11.27 64.73 ± 9.50 76.89 ± 9.12 69.36 ± 14.13 69.19 ± 9.05
pliegue[mm] 40.48 ± 16.85 32.4 ± 7.11 22.33 ± 6.80 31.38 ± 7.21 30.45 ± 11.53 23.09 ± 7.36
insulina[muU/ml] 408.78 ± 194.81 214.20 ± 54.45 79.12 ± 26.51 122.30 ± 33.05 161.76 ± 85.14 85.82 ± 25.62
IMC[kg/m2 ] 37.24 ± 7.02 36.1 ± 6.23 28.19 ± 5.11 32.38 ± 5.45 34.11 ± 7.02 27.30 ± 4.57
pedigree 0.98 ± 0.73 0.6 ± 0.32 0.33 ± 0.16 0.26 ± 0.09 0.50 ± 0.28 0.55 ± 0.38
edad 36.76 ± 14.74 41.8 ± 10.34 23.14 ± 1.83 38.84 ± 9.439 24.01 ± 2.95 30.24 ± 4.59

IMC corresponde a individuos obesos (IM C > 30[kg/m2 ]) [14]. La presión arterial en el grupo con
más personas (Grupo 4), está cercana del límite de la prehipertensión, según la definición de [1].
El promedio del grosor del pliegue de la piel del tríceps es mayor que 32.4[mm] en ambos grupos.
En los grupos que son mayoritariamente sin diabetes, los grupos 2 y 6 son los que más tienen
individuos clasificados como negativos para la diabetes, con el 95.48 % y 82.76 % respectivamente.
Lo siguen los grupos 5 y 3, con el 70.80 % y 63.58 % respectivamente. En los grupos 2 y 6, el IMC está
entre 25[kg/m2 ] − 30[kg/m2 ], lo que significa que dichas personas tienen sobrepeso. En los grupos
3 y 5, sus IMC indican que las personas asociadas a estos grupos son obesos (IM C > 30[kg/m2 ]).
Los niveles de glucosa y presión son menores a los encontrados en los grupos 1 y 2, con valores
entre 95.77[mg/dl] − 120.52[mg/dl] y 64.74[mmHg] − 76.89[mmHg], respectivamente. El promedio
del grosor del pliegue de la piel del tríceps es menor al encontrado en los grupos 1 y 2 y sus valores
están entre 22.33[mm] − 31.38[mm]. Es interesante que el factor de los antecedentes familiares en
todos estos grupos es menor que el factor de riesgo de los grupos 1 y 2.

5. Conclusiones

En este trabajo se ha presentado una forma de determinar qué factores son los más relevantes
para la detección de diabetes en mujeres que pertenecen a la población de Indios Pima. Se utilizaron
los datos de la Pima Indians Diabetes Database, perteneciente al National Institute of Diabetes and
Digestive and Kidney Diseases, la que se le imputaron valores a alrededor de 320 instancias, debido
a que algunos atributos (por ejemplo, IMC o Presión Arterial ) tenían valores iguales a cero. Para
obtener los grupos que permitieron el análisis de los datos, se utilizó el método de agrupamiento
basados en modelos gaussianos, implementados en el paquete mclust en el software R [15].
Uno de los atributos relevantes para la diabetes es el IMC, pero debido que las mujeres Pima
tienen una predisposición genética al sobrepeso [10], este factor no es decisivo en ellas, como
también la cantidad de embarazos. Según los datos analizados, la edad inicial a la que es detectada
la diabetes es alrededor de los 36 años, lo que es coherente con estudios recientes que indican que
la prevalencia está aumentando en adultos jóvenes [12]. Junto esto, es importante resaltar que el
factor de antecedentes familiares en los grupos que tienen diabetes es más alto que en los grupos
sin diabetes. Para finalizar, realizar mediciones sobre los atributos glucosa y nivel de insulina (a
través de prueba de tolerancia oral a la glucosa), presión arterial, grosor del pliegue de la piel del
tríceps pueden ayudar a determinar si una persona puede o no tener diabetes.
6 G. Astudillo

Referencias
1. Definition and classification of hypertension: An update (2009). https://doi.org/10.1111/j.1751-
7176.2009.00179.x
2. Clasificador difuso para diagnóstico de enfermedades. TecnoLó-
gicas (25), 201 (2010). https://doi.org/10.22430/22565337.139,
http://revistas.itm.edu.co/ojs/index.php/tecnologicas/article/view/139
3. American Diabetes Association: Diagnosis and classification of diabetes melli-
tus. Diabetes Care 37(SUPPL.1), S81–90 (2014). https://doi.org/10.2337/dc14-S081,
http://www.ncbi.nlm.nih.gov/pubmed/24357215
4. Breault, J.L., Goodall, C.R., Fos, P.J.: Data mining a diabetic data warehouse. Artificial Intelligence
in Medicine 26(1-2), 37–54 (2002). https://doi.org/10.1016/S0933-3657(02)00051-9
5. Carpenter, G.A., Markuzon, N.: ARTMAP-IC and medical diagnosis: Instance counting and inconsis-
tent cases. Neural Networks 11(2), 323–336 (1998). https://doi.org/10.1016/S0893-6080(97)00067-1
6. Centers, D., Control, Prevention: National Center for Chronic Disease Prevention and Health Promo-
tion Division of Population Health. Centers for Disease Control and Prevention US Dept of Health
and Human Services (2013)
7. Cristina Tarrés, M., Moscoloni, N., Navone, H., D’ottavio, A.: Análisis multidimensional de una base
de datos de mujeres pima multidimensional. BIOtecnia 18, 14–19 (12 2016)
8. International Diabetes Federation (IDF): IDF Diabetes Atlas 8th edition (2017).
https://doi.org/10.1289/image.ehp.v119.i03, http://www.diabetesatlas.org/
9. Kassambara, A., Mundt, F.: factoextra: Extract and Visualize the Results of Multivariate Data Analy-
ses (2017), https://CRAN.R-project.org/package=factoextra, r package version 1.0.5
10. Knowler, W.C., Pettitt, D.J., Savage, P.J., Bennett, P.H.: Diabetes incidence in Pima indians: contri-
butions of obesity and parental diabetes. American journal of epidemiology 113(2), 144–156 (1981)
11. Knowler, W.C., Bennett, P.H., Hamman, R.F., Miller, M.: Diabetes incidence and prevalence in pima
indians: A 19-fold greater incidence than in rochester, minnesota. American Journal of Epidemiology
108(6), 497–505 (1978). https://doi.org/10.1093/oxfordjournals.aje.a112648
12. Lascar, N., Brown, J., Pattison, H., Barnett, A.H., Bailey, C.J., Bellary, S.: Type 2 diabetes in adoles-
cents and young adults. The Lancet Diabetes & Endocrinology (2017). https://doi.org/10.1016/S2213-
8587(17)30186-9, http://linkinghub.elsevier.com/retrieve/pii/S2213858717301869
13. Lekkas, S., Mikhailov, L.: Evolving fuzzy medical diagnosis of Pima Indians diabetes
and of dermatological diseases. Artificial Intelligence in Medicine 50(2), 117–126 (2010).
https://doi.org/10.1016/j.artmed.2010.05.007
14. Schulz, L.O., Bennett, P.H., Ravussin, E., Kidd, J.R., Kidd, K.K., Esparza, J., Valencia, M.E.: Effects
of traditional and western environments on prevalence of type 2 diabetes in Pima Indians in Mexico
and the U.S. Diabetes Care 29(8), 1866–1871 (2006). https://doi.org/10.2337/dc06-0138
15. Scrucca, L., Fop, M., Murphy, T.B., Raftery, A.E.: mclust 5: clustering, classification and density
estimation using Gaussian finite mixture models. The R Journal 8(1), 205–233 (2016)
16. Shanker, M., Hu, M.Y., Hung, M.S.: Estimating probabilities of diabetes mellitus using
neural networks. SAR and QSAR in environmental research 11(2), 133–147 (2000).
https://doi.org/10.1080/10629360008039119
17. Smith, J.W., Everhart, J., Dickson, W., Knowler, W., Johannes, R.: Using the ADAP Learning Algo-
rithm to Forecast the Onset of Diabetes Mellitus. Proceedings of the Annual Symposium on Computer
Application in Medical Care pp. 261–265 (1988)
18. Torgo, L.L.: Data mining with R: learning with case studies (2010). https://doi.org/10.1201/b10328,
http://dl.acm.org/citation.cfm?id=1951702
19. Williams, G., Pickup, J.C.: Handbook of diabetes. Wiley-Blackwell (2004)
Características que influyen en el desarrollo de la diabetes en Indios Pima 7

6. Anexo

6.1. Preprocesamiento
El conjunto de datos PIDD presenta 768 instancias. Del total, hay varias que tienen atributos
erróneos. Por ejemplo, personas con IMC o presión arterial igual a cero. En particular, el atributo
“Espesor del pliegue de la piel del tríceps” tienen 227 instancias iguales a cero. De forma similar, el
atributo “Insulina” tiene 374 instancias iguales a cero. Para no eliminar dicho registros, se decide
imputar los valores erróneos a través del método “k Nearest Neighbours” [18].

6.2. Estadística descriptiva

Una vez terminada la imputación de valores, se realiza una descripción básica de los atributos
de la base de datos (Figura 3). A través de la prueba de normalidad Shapiro-Wilk, se determinó
que los datos de los atributos son no normales, con p < 0.05 para todos los casos.

Figura 3. Descripción de los atributos de la base de datos.

Según la matriz de correlación (Figura 4), hay una correlación entre la cantidad de glucosa y
la insulina (0.62), entre el pliegue de la piel del tríceps (0.66) y el IMC y la cantidad de embarazos
y la edad de las personas (0.54).

6.3. Estadística Inferencial


Cada atributo se separó en los casos “Sin diabetes” y “Con diabetes”, generando el diagrama
de cajas que se muestra en el Figura 5. A través de la prueba de contraste de Wilcoxon-Mann-
Whitney, se determinó que los datos separados por casos presentan diferencias significativas , las
que no se deben al azar, con p < 0.05 para todos los casos.

6.4. Conclusiones

Si bien el análisis estadístico da indicios a que, efectivamente, todos los atributos influyen en
que las mujeres Pima tengan o no diabetes, se puede observar que los atributos que presentan una
mayor diferencia entre personas sin diabetes y con diabetes, son los resultados de las pruebas de
tolerancia oral a la glucosa (Concentración de glucosa y Concentración de Insulina) y en menor
grado el grosor del pliega de la piel del tríceps, el IMC y la edad. En el caso de los embarazos,
presión arterial y los antecedentes familiares, los diagramas de cajas de la Figura 5 muestran que
las diferencias entre ambos grupos no son muy significativas.
8 G. Astudillo

Figura 4. Matriz de correlación entre los atributos de la base de datos.

Sin diabetes

Con diabetes

Figura 5. Diagramas de cajas para cada atributo, separados en casos “Sin diabetes” y “Con diabetes”.

Вам также может понравиться