Академический Документы
Профессиональный Документы
Культура Документы
En este caso se trata de predecir el tipo de frmaco (drug) que se debe administrar a un paciente afectado de rinitis alrgica segn distintos parmetros/variables. Las variables que se recogen en los historiales clnicos de cada paciente son: Age: Edad Sex: Sexo BP (Blood Pressure): Tensin sangunea. Cholesterol: nivel de colesterol. Na: Nivel de sodio en la sangre. K: Nivel de potasio en la sangre. Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos del medicamento idneo para muchos pacientes en cuatro hospitales. Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar. Despues de cargar el Dataset de 200 instancias y aplicar el algoritmo J48 se obtienen estos datos estadsticos: === Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: Instances: DRUG1n 200
K <= 0.055221 | K <= 0.037124: drugY (56.0) | K > 0.037124 | | Na <= 0.685143 | | | BP = HIGH | | | | Na <= 0.656371: drugA (6.0) | | | | Na > 0.656371: drugY (2.0/1.0) | | | BP = LOW | | | | Sex = F: drugC (3.0) | | | | Sex = M: drugX (4.0/1.0) | | | BP = NORMAL: drugX (11.0/1.0) | | Na > 0.685143: drugY (33.0/2.0) K > 0.055221 | BP = HIGH | | Age <= 50: drugA (17.0) | | Age > 50: drugB (15.0) | BP = LOW | | Cholesterol = HIGH: drugC (14.0/1.0) | | Cholesterol = NORMAL: drugX (13.0)
Number of Leaves :
12
21
Time taken to build model: 0.07 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 185 15 0.8915 0.0396 0.1691 14.2072 % 45.366 % 200 92.5 7.5 % %
=== Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.945 0.938 0.907 0.913 0.875 Weighted Avg. 0.073 0.016 0.014 0.011 0 0.925 1 0.04 0.915 0.833 0.961 0.913 0.945 0.938 0.907 0.913 0.93 0.882 0.933 0.913 0.941 0.959 0.952 0.951 0.932 0.925 drugY drugC drugX drugA
0.875 0.927
0.933 0.925
drugB 0.946
=== Confusion Matrix === a b c d e <-- classified as 86 2 2 1 0 | a = drugY 1 15 0 0 0 | b = drugC 4 1 49 0 0 | c = drugX 2 0 0 21 0 | d = drugA 1 0 0 1 14 | e = drugB Arbol de Desicin Generado:
Al ver las grficas por pares de atributos, podemos observar que el par K-Na (Potasio - Sodio) se ven algunas caractersticas muy significativas. Parece haber una clara separacin lineal entre una relacin K-Na alta y una relacin K-Na baja. De hecho, para las concentraciones K-Na bajas, el frmaco Y es el ms efectivo de una manera clara y parece mostrarse que por encima de un cierto cociente K-Na ese medicamento deja de ser efectivo y se debe recurrir a los otros cuatro.
Al conocer esto podramos crear un nuevo atributo con la unin de estos dos. Al aprender el rbol de decisin J48 de nuevo obtenemos estos datos estadsticos: === Run information ===
| | Age > 50: drugB (16.0) | BP = LOW | | Cholesterol = HIGH: drugC (16.0) | | Cholesterol = NORMAL: drugX (18.0) | BP = NORMAL: drugX (36.0) Na_to_Ka > 14.641961: drugY (91.0)
Number of Leaves :
10
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances
99 1
% %
FP Rate
Recall F-Measure 0.995 1 0.991 0.979 0.968 0.99 0.995 drugC 0.991 0.997 0.969 0.99
ROC Area
drugY
a b c d e <-- classified as 91 0 0 0 0 | a = drugY 0 16 0 0 0 | b = drugC 1 0 53 0 0 | c = drugX 0 0 0 23 0 | d = drugA 0 0 0 1 15 | e = drugB El rbol generado es el siguiente:
Conclusion: Los algoritmos usados son de clasificacin, por el tipo de problema que hay que resolver. Que es dado un estudio con 200 pacientes de determinada enfermedad, se puede saber que medicamento es mas o menos efectivo. Para ello se clasifica los medicamentos contra sus usuarios y asi se puede saber de manera estadstica cual es el medicamento que mas beneficia a la comunidad de pacientes con dicha enfermedad. Este ejercicio en particular muestra como se puede mejorar la respuesta de un algoritmo ante determinado problema si observamos los datos grficos con detenimiento. La experiencia nos dir que algoritmo aplicar a determinada situacin.
Repblica Bolivariana de Venezuela Ministerio del Poder Popular para la Educacin Superior Instituto Universitario de Tecnologa Dr. Federico Rivero Palacio Regin Capital 4 Trayecto Informtica Minera de Datos