You are on page 1of 15

UNIVERSIDAD NACIONAL DE INGENIERA

FACULTAD DE INGENIERA INDUSTRIAL Y DE


SISTEMAS
TOPICOS DE INGENIERA DE SISTEMAS

DATA MINING APLICADO A PHISHING

DOCENTE: TEJADA MALASPINA MIGUEL ANGEL

INTEGRANTES:

CDIGO:

20127024D
20122022C
20120055A
20122062E
20102665F

Espino Cuadros, Cristhian Paul


Huaraca Berrospi, Angelo
Romero Reynaldo, Yajaira Estefani
Surichaqui Aquino, James
Zutta Tuesta, Jheymy Luis
Jueves 21 de abril de 2016

2016 I

DATA MINING APLICADO A PHISHING

1.NDICE
1.

CONCEPTOS....................................................................................................................... 5

2. PAPER 1: ASSESING THE SEVERETY OF PHISHING ATTACKS: A HYBRID DATA MINING


APPROACH................................................................................................................................. 5

3.

2.1.

DATOS GENERALES......................................................................................... 5

2.2.

RESUMEN....................................................................................................... 5

2.3.

OBJETIVOS...................................................................................................... 6

2.4.

EXPLICACIN DE LA PROPUESTA.....................................................................6

2.5.

RESULTADOS................................................................................................... 7

2.6.

CONCLUSIONES............................................................................................... 8

2.7.

APRECIACIN CRTICA.................................................................................... 8

PAPER 2: DATA MINING FOR CREDIT CARD FRAUD. A COMPARATIVE STUDY...............9


3.1.

DATOS GENERALES......................................................................................... 9

3.2.

PROBLEMA..................................................................................................... 9

3.3.

OBJETIVOS...................................................................................................... 9

3.4.

EXPLICACIN DE LA PROPUESTA.....................................................................9

3.5.

RESULTADOS................................................................................................... 9

3.6.

CONCLUSIONES............................................................................................... 9

3.7.

APRECIACIN CRTICA.................................................................................... 9

FUZZY DATA MINING............................................................................................................... 10


4.1.

DATOS GENERALES....................................................................................... 10

4.2.

RESUMEN..................................................................................................... 10

4.3.

PROBLEMA................................................................................................... 10

4.4.

OBJETIVOS.................................................................................................... 11

4.5.

EXPLICACIN DE LA PROPUESTA...................................................................11

4.6.

RESULTADOS................................................................................................. 14

4.7.

CONCLUSIONES............................................................................................. 16

4.8.

APRECIACIN CRTICA.................................................................................. 17

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 2 | 15

DATA MINING APLICADO A PHISHING


2.
3. CONCEPTOS

Data Mining: El Data Mining (minera de datos), es el conjunto de tcnicas y tecnologas que
permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el
objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento
de los datos en un determinado contexto.

Phishing: La palabra phishing de la frase "sitio de phishing" es una variacin de la palabra


"pesca". La idea es que el cebo se lanza hacia fuera con la esperanza de que un usuario va a
agarrar y morder en ella al igual que el pescado. En la mayora de los casos, el cebo es o bien un
correo electrnico o un sitio de mensajera instantnea, que se llevar al usuario a sitios web de
phishing hostiles (James, 2006).

4. PAPER 1: ASSESING THE SEVERETY OF PHISHING ATTACKS: A HYBRID DATA


MINING APPROACH
4.1. DATOS GENERALES

Autores: Xi Chen, Indranil Bose, Alvin Chung Man Leung, Chenhui Guo
Ao de publicacin: 2010
Journal: Research Article

4.2. RESUMEN
El pishing es un crimen en lnea que agobia cada vez ms a las compaas y sus consumidores.
Evaluamos la severidad de los ataques de psishing en trminos de sus niveles de riesgo y la
prdida potencial en el mercado de valores sufrida por empresas potenciales de ser atacadas.
Analizamos 1030 alertas de ataques de pishing publicadas en una base de datos as como datos
financieros relacionados con empresas objetivo haciendo uso de un mtodo hbrido que predice la
severidad del ataque con una precisin de hasta 89% usando extraccin de frases de texto y
clasificacin supervisada. Nuestra investigacin identifica algunas variables textuales y
financieras que afectan la severidad de los ataques y la prdida financiera potencial.

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 3 | 15

DATA MINING APLICADO A PHISHING


4.3. OBJETIVOS
Principal:
Proponer un modelo hbrido de texto y minera de datos, que utiliza la tcnica de
extraccin de frase clave para descubrir importantes categoras semnticas del contenido
textual de las alertas de phishing.
Especficos:
Identificar antecedentes y variables clave que contribuyen a un gran nivel de riesgo o a
una gran generacin de prdida financiera debido a un ataque de pishing.
Hacer uso de herramientas como redes neuronales, rboles de decisin, y mquina de
soporte de vectores para clasificar los niveles de riesgo.
Construir un sistema de alerta recurriendo a la minera de datos que procese texto
obtenido de alertas de pishing as como de datos financieros de compaas.
Cuantificar la prdida financiera indirecta en trminos de la prdida de valor de mercado
de una firma, debido a ataques de pishing.
4.4. EXPLICACIN DE LA PROPUESTA
Se utiliz un diseo experimental 3 3 2 en esta investigacin que incorpora tres
conjuntos de datos de entrada, tres clasificadores y dos datos de clasificacin. El diseo
incluye:

Los datos textuales de alertas de pishing, datos financieros de las empresas objetivo, y
una combinacin de datos textuales y financieros.

Tres clasificadores: rbol de decisin (DT), mquinas de vectores soporte (SVM) y red
neural (NN).

Clasificacin de nivel de riesgo y retorno anormal acumulativo (CAR).

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 4 | 15

DATA MINING APLICADO A PHISHING

Para determinar la gravedad de los ataques de phishing, hemos utilizado dos tipos de
datos de entrada derivadas, es decir, a partir de las alertas de phishing disponibles
Millersmiles base de datos, y los datos financieros disponibles a partir de los estados
financieros de las empresas.

Se calcula CAR en funcin del retorno anormal en precio de las acciones, y este a su vez,
en funcin de la tasa de retorno de ndice de marcado y la tasa de retorno de la empresa.

Se realiz modelos de clasificacin para el nivel de riesgo y CAR; asignando 3 niveles a


cada uno; alto, bajo y medio para el nivel de riesgo; y negativo, positivo y estable para
CAR.

Se calcul la importancia de todas las variables de entrada en funcin de su variabilidad y


esperanza media, para la clasificacin del nivel de riesgo y CAR por separado, para luego
clasificarlas en funcin de su importancia para ambos casos (datos financieros, datos
textuales).

4.5. RESULTADOS
La exactitud de la clasificacin se muestran con ms probabilidades en el 10% superior,
es decir, en el decil ms alto de los datos, en ambas casos (financieros y textuales).
Por parte de los datos textuales, la variable ms importante es el de actualizacin, esto
implicaba que los ataques de phishing eran mensajes que solicitan a los destinatarios
actualizar su informacin personal.
Otras variables con importancia significante fueron 'Seguridad', 'correo electrnico',
'cuenta bancaria', y 'banco', que eran indicativo de que los ataques de phishing se asocian
con mensajes de seguridad relacionados con cuentas bancarias en forma de mensajes de
correo electrnico y dirigida a los clientes de los bancos.
Por parte de los datos financieros, la variable ms importante es Inventarios Totales, que
implica la preferencia de los phishers hacia el lanzamiento de ataques a las grandes
empresas.
Otra variable importante es la de Gasto en Publicidad que significaba que las grandes
empresas son los blancos preferidos de los ataques de phishing porque tenan una slida
base de clientes, y eran ms propensos a ser engaados con correos electrnicos falsos.

4.6. CONCLUSIONES

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 5 | 15

DATA MINING APLICADO A PHISHING


Se han realizado diversas investigaciones en el tema de pishing, pero la mayora enfocada a
una base de datos que evala los incidentes de pishing en trmino de riesgo de las TICs.
Debido al incremento de ataques de pisher, queda demostrado que el tipo de evolucin
anteriormente mencionados no es suficiente, ya que se deja de lado el impacto financiero que
pueda causar un incidente de pishing.
El rendimiento del modelo hbrido fue bastante superior en trminos de precisin, y demostr
la necesidad de considerar tanto los datos de texto, as como datos financieros para una mejor
prediccin acerca de la gravedad de los incidentes pishing.
Los resultados mostraron que el nivel de riesgo y CAR eran diferentes el uno del otro, ya que
son afectados por distintos factores textuales y financieros.
Por ltimo, esta investigacin ayuda a las empresas a evitar preocupaciones innecesarias
frente a incidentes de pishing que impactan financieramente a la empresa.
4.7. APRECIACIN CRTICA
En base a lo ledo en este paper se puede apreciar que se usaron tcnicas para descartar
variables de entradas que no son relevantes y no generan ningn cambio al CAR y el nivel de
riesgo, esto sirve para que no se sature algoritmo de aprendizaje de mquina en cualquier
captura de patrones de comportamiento.
Por otro lado, es muy buena la idea de asociar niveles de riesgo cuando estas tienes ms o
menos la misma tendencia frente a las mismas variables de entrada, es decir, que si la variable
ms importante para hallar un nivel de riesgo alto es actualizacin y en el nivel alto-medio
tambin es actualizacin, entonces es dable que este nivel sea representado solo como
ALTO.
Uno de los puntos que ms llam nuestra atencin en este paper es el mayor rendimiento y la
complementariedad que surge cuando se trabaja de la mano con datos financieros y datos
textuales, mostrndose as que el todo es mayor que la suma de las partes, ya que si se
trabajaran cada uno de ellos en modelos independientes se obtendran resultados con menos
precisin, que el modelo hbrido propuesto.
Por ltimo, se debe tener muy en claro que si el CAR y el nivel de riesgo son afectados por
variables de entradas distintas, entonces quiere decir que un nivel alto de riesgo podra no
ocasionar una disminucin del mercado de la empresa, y a su vez un nivel de riesgo bajo
podra ocasionar serios problemas de imagen de la empresa. Por ello que las empresas no se
deben confiar y dejarse llevar solo por uno de estos dos factores, sino estudiarlos en conjunto,
y mejorar con el tiempo este paper, quizs encontrando un factor oculto que las relacione.

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 6 | 15

DATA MINING APLICADO A PHISHING


5. PAPER 2: DATA MINING FOR CREDIT CARD FRAUD. A COMPARATIVE STUDY
5.1. DATOS GENERALES

Autores:
Ao de publicacin:
Journal:

5.2. PROBLEMA

5.3. OBJETIVOS
5.4. EXPLICACIN DE LA PROPUESTA
5.5. RESULTADOS
5.6. CONCLUSIONES
5.7. APRECIACIN CRTICA

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 7 | 15

DATA MINING APLICADO A PHISHING


6. PAPER 3: INTELLIGENT PHISHING DETECTION SYSTEM FOR E-BANKING USING
FUZZY DATA MINING
6.1. DATOS GENERALES

Autores: Maher Alburrous, M.A. Hossian, Keshav Dahal, Fadi Thabtah


Ao de publicacin: 2010
Journal: ELSEVIER

6.2. RESUMEN
7.
8. La deteccin e identificacin de pginas web con phishing en tiempo real es un problema
muy complejo que involucra muchos factores y criterios. Debido a las consideraciones
subjetivas y las ambigedades que existen en su deteccin, La minera de datos difusos
puede ser una herramienta eficaz en la evaluacin e identificacin de sitios web con
Phishing, ya que ofrece una forma ms natural de hacer frente a los factores de calidad en
lugar de valores exactos.
En el trabajo, el autor propone un modelo flexible y eficaz para la deteccin de Phishing en
pginas web de banca, se basa en una combinacin de algoritmos de Data Mining en donde
se definen seis criterios de ataque de phishing con una estructura de capas. Los resultados
experimentales mostraron la importancia de los criterios de suplantacin de identidad para
detectar Phishing y su influencia en un indicador de riesgo de phishing.
8.1. PROBLEMA
9.
10.Las pginas web con Phishing son creados para imitar las pginas web autnticas de
banca electrnica. Estas pginas web tienen varias similitudes con las pginas web autnticas
para poder estafar a sus vctimas, en algunos casos pueden verse exactamente igual a los
reales. En los ltimos aos se han incrementado de una forma acelerada la creacin de
pginas web con phishing, siendo el Phishing uno de los fraudes ms frecuentes a travs de
Banca Electrnica.
11.
12.Las vctimas de phishing pueden exponer su cuenta bancaria, contrasea, nmero de
tarjeta de crdito, u otra informacin importante, que con la divulgacin de esta informacin
puede sufrir prdidas de dinero o de otros tipos.
Muchos de los productos anti-phishing propusieron utilizar barra de herramientas en los
navegadores, sin embargo muchos investigadores han demostrado que ests herramientas no
impiden eficazmente los ataques de phishing.

12.1.

OBJETIVOS

13. Objetivo Principal:

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 8 | 15

DATA MINING APLICADO A PHISHING


Hacer un modelo flexible y eficaz que utilice algoritmos y tcnicas de Data Mining y
Lgica Difusa para poder detectar pginas web con Phishing de manera automatizada.
14. Objetivos Especficos:
Investigar tcnicas mediante una clasificacin por tipo de Phishing.

Definir las caractersticas y factores que pueden identificar Phishing.

Definir los criterios y agrupar las caractersticas y factores que se definieron para cada
criterio.
Evaluar los resultados de los experimentos realizados.

14.1.

EXPLICACIN DE LA PROPUESTA

15.Debido a las consideraciones subjetivas y ambigedades que existen para la deteccin de


Phishing. El autor propone usar una herramienta de minera de datos difusos, considera que
es eficaz en la evaluacin y la identificacin de sitios web de Phishing para la banca
electrnica, ya que ofrece una forma ms natural para enfrentarse a factores de calidad en
lugar de valores exactos.
La propuesta del autor es realizar un modelo basado en lgica difusa combinando algoritmos
de Data Mining, Hay muchas caractersticas y factores que pueden distinguir las pginas
web originales de la pgina web con phishing este modelo cuenta con 27 caractersticas y
factores de entrada, agrupados en 6 criterios, y estos a su vez agrupados en 3 capas . Los
pesos quedan distribuidos de la siguiente forma:
Capa
Capa 1

Capa 2

Capa 3

Criterio
URL & Identidad de
dominio
Seguridad
y
Encriptacin
Cdigo
Fuente
&
JavaScript
Contenido & Estilo de
pgina
Barra de Direcciones
Web
Factor Humano Social

Peso Criterio

Peso Capa

0.3

0.3

0.2
0.4
0.2
0.1
0.1

0.3

0.1

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 9 | 15

DATA MINING APLICADO A PHISHING


Los componentes de cada criterio quedan distribuidos de la siguiente manera:

16.El modelo cuenta con 27 entradas, en donde su funcin de pertenencia ser en el rango de
[0,1], y los valores de entrada ser de [0,10], los valores lingsticos sern: Bajo, moderado y
Alto, A continuacin se muestra un grfico de la funcin de pertenencia para el tamao de la
longitud de la URL:

17.

Similarmente se realizan las funciones de pertenencia para las dems entradas.

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 10 | 15

DATA MINING APLICADO A PHISHING

Para el indicador de riesgo de la pgina web, las entradas tendrn valores entre [0,10], y las
salidas estarn en el rango de [0,100], sus valores lingsticos sern: muy legtimo, legtimo,
sospechoso, phishy, muy pishy.
18.Despus de haber especificado el riesgo y sus indicadores clave de una pgina web con
phishing, para el siguiente paso, los expertos proporcionan reglas difusas en forma de si ...
entonces en base a sus conocimientos y experiencias proporcionan ciertas reglas que se
encuentran relacionadas a las caractersticas claves de Phishing, para encontrar ciertos
patrones significativos de suplantacin de identidad en los datos de la pgina web.
El autor utiliza diferentes tcnicas de clasificacin de minera de datos aplicados en WEKA
y paquetes CBA, JRip, WEKA implementado en RIPER prisma y C4.5. Se seleccionan los
algoritmos para aprender las relaciones diferentes de las caractersticas de los phishing
seleccionadas.
19.El modelo completo para evaluar el riesgo que pueda tener phishing una pgina web se
muestra a continuacin:
20.

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 11 | 15

DATA MINING APLICADO A PHISHING

20.1.

RESULTADOS

Algunos resultados de los experimentos se enumeran a continuacin:


Los 5 niveles ms altos de la capa 1, y los niveles ms bajos para las dems capas

1
2
3
4

Capa 1
URL
&
Identidad
de
dominio
10
10
10
10

10

Component
e

Capa 2
Fuente de
Estilo de
Seguridad & cdigo &
Pgina &
Encriptacin Java
Contenido
Script
0
0
0
0
0
0
0
0
0
0
0
0
0

CAPA 3

%
de
Phishing
de
un
pgina
web

Barra de Factor
direccione Social
s Web
Humano
0
0
0
0

0
0
0

54

Para este caso el riesgo ser equilibrado (54%) que representa una pgina web sospechosa,
Los 5 niveles intermedios para la capa 1 y 2, y los niveles ms altos para la capa 3.
Component
e
1
2
3
4

Capa 1
URL
&
Identidad
de
dominio
5
5
5
5

Capa 2
Fuente de
Estilo de
Seguridad & cdigo &
Pgina &
Encriptacin Java
Contenido
Script
5
5
10
5
5
10
5
5
10
5
5
10

CAPA 3

%
de
Phishing
de
un
pgina
web

Barra de Factor
direccione Social
s Web
Humano
10
10
10
10

10
10
10

72

5
5
5
10
10
Para este caso los valores de entrada para la capa 1 y 2 es moderada (5), y para la capa 3 es
alta (10), esto resulta como salida un riesgo es del 72% que indica que la pgina web con
phishing tiene un al
Nivel intermedio para la capa 1, y los niveles ms bajos para la capa 3.

Capa 1

Component
e

Capa 2
Fuente
URL & Seguridad
de
Identidad &
cdigo &
de
Encriptaci
Java
dominio n
Script

TPICOS DE INGENIERA DE SISTEMAS

CAPA 3
Estilo de
Barra de Factor
Pgina &
direccione Social
Contenid
s Web
Humano
o

%
de
Phishing
de
un
pgina
web

P g i n a 12 | 15

DATA MINING APLICADO A PHISHING


1
5
0
0
0
0
0
2
5
0
0
0
0
0
3
5
0
0
0
0
0
39
4
5
0
0
0
0
5
5
0
0
0
Los valores de entrada para la capa 1 es moderada (5), y para las dems capas tiene un valor
bajo (0), el riesgo final ser razonablemente baja (39%), que representa un sitio web
legtimo, lo que significa de que hay una garanta de que el sitio web sea legtimo.
En base a las tres entradas, que son la capa 1, capa 2 y capa 3, y una salida, la estructura en
base a reglas para detectar tiene phishing se muestran a continuacin:

Regla

URL y
dominio
de
Identidad

capa 2

capa 3

1
2

Autntico
Autntico

Legal
Legal

Legal
Incierto

Autntico

Legal

FALSO

Autntico

Incierto

Legal

5
6

Autntico
Autntico

Incierto
Incierto

Incierto
FALSO

Autntico

FALSO

Legal

8
9
10

Autntico
Autntico
Dudoso

FALSO
FALSO
Legal

Incierto
FALSO
Legal

11

Dudoso

Legal

Incierto

12

Dudoso

Legal

FALSO

13

Dudoso

Incierto

Legal

14
15
16
17

Dudoso
Dudoso
Dudoso
Dudoso

Incierto
Incierto
FALSO
FALSO

Incierto
FALSO
Legal
Incierto

TPICOS DE INGENIERA DE SISTEMAS

Calificaci
n de
pginas
de
phishing
banca
electrnic
a
muy
legtimo
Legtimo
Sospecho
so
Sospecho
so
Sospecho
so
Phishy
Sospecho
so
Sospecho
so
Phishy
Legtimo
Sospecho
so
Sospecho
so
Sospecho
so
Sospecho
so
Phishy
Phishy
Phishy

P g i n a 13 | 15

DATA MINING APLICADO A PHISHING

20.2.

18

Dudoso

FALSO

FALSO

19

Fraude

Legal

Legal

20
21

Fraude
Fraude

Legal
Legal

Incierto
FALSO

22
23
24
25

Fraude
Fraude
Fraude
Fraude

Incierto
Incierto
Incierto
FALSO

Legal
Incierto
FALSO
Legal

26

Fraude

FALSO

Incierto

27

Fraude

FALSO

FALSO

muy
phishy
Sospecho
so
Sospecho
so
Phishy
Sospecho
so
Phishy
Phishy
Phishy
muy
phishy
muy
phishy

CONCLUSIONES

El modelo de minera de datos difuso de phishing en Banca Electrnica mostr la importancia de


los criterios de Phishing de banca electrnica (URL e Identidad de dominio) representado por la
capa 1. Tambin mostr que, incluso si parte de las caractersticas o criterios de Phishing no son
muy claras o no estn definida, el sitio todava puede ser phishy especialmente cuando otras
caractersticas de phishing o capas son obvias y claras. Por otra parte, incluso si algunos de las
caractersticas de Phishing se observan, esto no significa en absoluto que el sitio web es phishy,
pero puede ser seguras y protegidas especialmente cuando otras caractersticas o capas de
phishing son no perceptible, visible o detectable.

20.3.

APRECIACIN CRTICA

El modelo propuesto es muy importante para poder evaluar en base a caractersticas y factores de
entrada el riesgo de una pgina web, sin embargo el autor solo enfoc en base a 27
caractersticas, estas caractersticas no son las nicas para evaluar si una pgina web tiene
phishing, existen otras caractersticas para poder evaluarlos, este modelo puede ser base para
poder aumentar ms caractersticas a evaluar su riesgo.
El autor describe detalladamente el problema del Phishing en Banca Electrnica, y las tcnicas
realizadas para poder detectar si la pgina web es autntica o no de acuerdo a los rangos
establecidos en el intervalo, sin embargo no detalla los algoritmos que se realizan para poder
detectarlo, solo nos muestra el modelo y qu algoritmos de data Mining se debe usar para poder
detectar si la pgina web tiene Phishing o no contiene.
TPICOS DE INGENIERA DE SISTEMAS

P g i n a 14 | 15

DATA MINING APLICADO A PHISHING

El autor tambin debe hacer una comparacin de su modelo respecto a otros modelos similares, y
demostrar la eficiencia que tiene su modelo, si bien es cierto ha podido demostrar los problemas
que presentar trabajos pasados en la revisin de la literatura, sin embargo en sus resultado
tambin debi realizar una comparacin de su modelo con los dems.

21.

TPICOS DE INGENIERA DE SISTEMAS

P g i n a 15 | 15