Вы находитесь на странице: 1из 9

Caso de Estudio WEKA: Farmacos.

En este caso se trata de predecir el tipo de frmaco (drug) que se debe administrar a un paciente afectado de rinitis alrgica segn distintos parmetros/variables. Las variables que se recogen en los historiales clnicos de cada paciente son: Age: Edad Sex: Sexo BP (Blood Pressure): Tensin sangunea. Cholesterol: nivel de colesterol. Na: Nivel de sodio en la sangre. K: Nivel de potasio en la sangre. Hay cinco frmacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. Se han recogido los datos del medicamento idneo para muchos pacientes en cuatro hospitales. Se pretende, para nuevos pacientes, determinar el mejor medicamento a probar. Despues de cargar el Dataset de 200 instancias y aplicar el algoritmo J48 se obtienen estos datos estadsticos: === Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: Instances: DRUG1n 200

Attributes: 7 Age Sex BP Cholesterol Na K Drug

Test mode:10-fold cross-validation

=== Classifier model (full training set) ===

J48 pruned tree ------------------

K <= 0.055221 | K <= 0.037124: drugY (56.0) | K > 0.037124 | | Na <= 0.685143 | | | BP = HIGH | | | | Na <= 0.656371: drugA (6.0) | | | | Na > 0.656371: drugY (2.0/1.0) | | | BP = LOW | | | | Sex = F: drugC (3.0) | | | | Sex = M: drugX (4.0/1.0) | | | BP = NORMAL: drugX (11.0/1.0) | | Na > 0.685143: drugY (33.0/2.0) K > 0.055221 | BP = HIGH | | Age <= 50: drugA (17.0) | | Age > 50: drugB (15.0) | BP = LOW | | Cholesterol = HIGH: drugC (14.0/1.0) | | Cholesterol = NORMAL: drugX (13.0)

| BP = NORMAL: drugX (26.0)

Number of Leaves :

12

Size of the tree :

21

Time taken to build model: 0.07 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 185 15 0.8915 0.0396 0.1691 14.2072 % 45.366 % 200 92.5 7.5 % %

=== Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.945 0.938 0.907 0.913 0.875 Weighted Avg. 0.073 0.016 0.014 0.011 0 0.925 1 0.04 0.915 0.833 0.961 0.913 0.945 0.938 0.907 0.913 0.93 0.882 0.933 0.913 0.941 0.959 0.952 0.951 0.932 0.925 drugY drugC drugX drugA

0.875 0.927

0.933 0.925

drugB 0.946

=== Confusion Matrix === a b c d e <-- classified as 86 2 2 1 0 | a = drugY 1 15 0 0 0 | b = drugC 4 1 49 0 0 | c = drugX 2 0 0 21 0 | d = drugA 1 0 0 1 14 | e = drugB Arbol de Desicin Generado:

Al ver las grficas por pares de atributos, podemos observar que el par K-Na (Potasio - Sodio) se ven algunas caractersticas muy significativas. Parece haber una clara separacin lineal entre una relacin K-Na alta y una relacin K-Na baja. De hecho, para las concentraciones K-Na bajas, el frmaco Y es el ms efectivo de una manera clara y parece mostrarse que por encima de un cierto cociente K-Na ese medicamento deja de ser efectivo y se debe recurrir a los otros cuatro.

Al conocer esto podramos crear un nuevo atributo con la unin de estos dos. Al aprender el rbol de decisin J48 de nuevo obtenemos estos datos estadsticos: === Run information ===

Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: DRUG1n-weka.filters.unsupervised.attribute.AddExpressionEa5/a6-NNa_to_Ka Instances: 200

Attributes: 8 Age Sex BP Cholesterol Na K Drug Na_to_Ka Test mode:10-fold cross-validation

=== Classifier model (full training set) ===

J48 pruned tree ------------------

Na_to_Ka <= 14.641961 | BP = HIGH | | Age <= 50: drugA (23.0)

| | Age > 50: drugB (16.0) | BP = LOW | | Cholesterol = HIGH: drugC (16.0) | | Cholesterol = NORMAL: drugX (18.0) | BP = NORMAL: drugX (36.0) Na_to_Ka > 14.641961: drugY (91.0)

Number of Leaves :

Size of the tree :

10

Time taken to build model: 0.01 seconds

=== Stratified cross-validation === === Summary ===

Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances

198 2 0.9856 0.004 0.0632 1.4343 % 16.9673 % 200

99 1

% %

=== Detailed Accuracy By Class ===

TP Rate Class 1 1 0.981 1 0.938 Weighted Avg.

FP Rate

Precision 1 1 0.981 1 0.938 0.99

Recall F-Measure 0.995 1 0.991 0.979 0.968 0.99 0.995 drugC 0.991 0.997 0.969 0.99

ROC Area

0.009 0 0 0.006 0 0.99 1

0.989 1 1 0.958 1 0.005

drugY

drugX drugA drugB 0.993

=== Confusion Matrix ===

a b c d e <-- classified as 91 0 0 0 0 | a = drugY 0 16 0 0 0 | b = drugC 1 0 53 0 0 | c = drugX 0 0 0 23 0 | d = drugA 0 0 0 1 15 | e = drugB El rbol generado es el siguiente:

Conclusion: Los algoritmos usados son de clasificacin, por el tipo de problema que hay que resolver. Que es dado un estudio con 200 pacientes de determinada enfermedad, se puede saber que medicamento es mas o menos efectivo. Para ello se clasifica los medicamentos contra sus usuarios y asi se puede saber de manera estadstica cual es el medicamento que mas beneficia a la comunidad de pacientes con dicha enfermedad. Este ejercicio en particular muestra como se puede mejorar la respuesta de un algoritmo ante determinado problema si observamos los datos grficos con detenimiento. La experiencia nos dir que algoritmo aplicar a determinada situacin.

Repblica Bolivariana de Venezuela Ministerio del Poder Popular para la Educacin Superior Instituto Universitario de Tecnologa Dr. Federico Rivero Palacio Regin Capital 4 Trayecto Informtica Minera de Datos

CASO DE ESTUDIO MINERA DE DATOS

Alumno: Jos Toro Seccin A Caracas, 23 de enero de 2012

Вам также может понравиться