Вы находитесь на странице: 1из 64

Las Matematicas de PageRank

y otros metodos de b
usqueda web

Eustasio del Barrio


Universidad de Valladolid. IMUVA.

Marzo, 2013

Eustasio del Barrio

Las Matem
aticas de PageRank

1 / 31

Plan

Plan

B
usqueda de informaci
on

Eustasio del Barrio

Las Matem
aticas de PageRank

2 / 31

Plan

Plan

B
usqueda de informaci
on

Motores de b
usqueda

Eustasio del Barrio

Las Matem
aticas de PageRank

2 / 31

Plan

Plan

B
usqueda de informaci
on

Motores de b
usqueda

Analisis de enlaces

Eustasio del Barrio

Las Matem
aticas de PageRank

2 / 31

Plan

Plan

B
usqueda de informaci
on

Motores de b
usqueda

Analisis de enlaces

Conclusiones

Eustasio del Barrio

Las Matem
aticas de PageRank

2 / 31

Plan

Plan

B
usqueda de informaci
on

Motores de b
usqueda

Analisis de enlaces

Conclusiones

Referencias

Eustasio del Barrio

Las Matem
aticas de PageRank

2 / 31

B
usqueda de informaci
on

B
usqueda de informacion: (pre)historia
B
usqueda de informacion (IR) = b
usqueda en colecci
on de documentos
de informacion particular (consulta)
A.C.:

colecciones peque
nas; etiquetas en rollos de papiro

A.C.:

papiro pergamino; formato libro

Siglo XII: invencion del papel; colecciones en monasterios;


organizacion por secciones; listas de documentos
1450:

Gutemberg, imprenta

Siglo XVIII:
1872:
1900:

clasificacion decimal (Dewey)


Catalogo de tarjetas (por autor, ttulo)

1940-1950:
1989:

primeras bibliotecas p
ublicas; b
usqueda orientada

Ordenador

nacimiento del www (Berner-Lee)


Eustasio del Barrio

Las Matem
aticas de PageRank

3 / 31

Motores de b
usqueda

El metodo SMART
1960s; implementado en IBM 7094 & IBM 360
Basado en metodos matriciales (matrices termino-documento)
Comienza con diccionario de terminos (palabras o expresiones)
Se indexa cada documento
frecuencia fi,j = #veces termino i aparece en documento j
Matriz termino-documento

Eustasio del Barrio

Las Matem
aticas de PageRank

4 / 31

Motores de b
usqueda

Vector de consulta:

q = [q1 , . . . , qm ]


1 si termino i presente en consulta
qi =
0
si no

Es el documento i una buena respuesta a la consulta?


Esta el vector q cerca de la columna Ai ?
Se usa i = cos i =

q T Ai
kqkkAi k

Se ordenan documentos por i creciente


Se sugiere documento i a usuario si i tol
Mejoras posibles comprimiendo matriz A
(Dumais, 1989,1994; Bel Labs)
Eustasio del Barrio

Las Matem
aticas de PageRank

5 / 31

Motores de b
usqueda

B
usqueda de informacion: metodos antiguos
Ventajas
Encuentran conexiones ocultas
Pueden usarse para identificar clusters de documentos (text
mining)
Funcionan bien en colecciones peque
nas + homogeneas +
estaticas
Inconvenientes
Ranking dependiente de consulta (recalculado para cada consulta)
Solo usa contenido semantico (vctima facil de spam, estructura
de enlaces ignorada)
Dficil a
nadir/borrar documentos
Compresion optima no sencilla

Eustasio del Barrio

Las Matem
aticas de PageRank

6 / 31

Motores de b
usqueda

B
usqueda indexada en web

Eustasio del Barrio

Las Matem
aticas de PageRank

7 / 31

Motores de b
usqueda

B
usqueda indexada en web (pre 1998)
patrulla fronteriza:
Hezbollah:

4; 567; 809; 1103; . . . (8,700,000 en total)

9; 12; 339; 942; 15158; . . . (15,100,000 en total)

calentamiento global:

178; 12980; 445532; . . . (33,200,000 en total)

demasiados enlaces por b


usqueda
facil spam
Yahoo: jerarquas de sitios web, organizaci
on humana

Eustasio del Barrio

Las Matem
aticas de PageRank

8 / 31

Motores de b
usqueda

Cuando se proclamo que la Biblioteca abarcaba todos los


libros, la primera impresi
on fue de extravagante felicidad.
Todos los hombres se sintieron se
nores de un tesoro intacto y
secreto. No haba problema personal o mundial cuya
elocuente solucion no existiera: en alg
un hexagono.
. . . A la desaforada esperanza, sucedi
o, como es natural, una
depresi
on excesiva. La certidumbre de que alg
un anaquel en
alg
un hexagono encerraba libros preciosos y de que esos libros
preciosos eran inaccesibles, pareci
o casi intolerable. Una secta
blasfema sugirio que cesaran las buscas. . .
Eustasio del Barrio

Las Matem
aticas de PageRank

9 / 31

An
alisis de enlaces

1998: hiperenlaces en acci


on
Nuevos metodos combinan ranking IR con nuevo ranking de
popularidad
La web es diferente de otras colecciones de documentos
es enorme
es dinamica
carece de organizacion centralizada
tiene hiperenlaces

Eustasio del Barrio

Las Matem
aticas de PageRank

10 / 31

An
alisis de enlaces

Elementos de un motor de b
usqueda web

Eustasio del Barrio

Las Matem
aticas de PageRank

11 / 31

An
alisis de enlaces

Modulo de ranking: genera ranking de popularidad


mide importancia de cada pagina
medida independiente de consulta, basada en estructura de enlaces
calculado offline, antes de atender consultas de usuarios
algoritmo PageRank de Google se impuso a competidores
Google PageRank = Google $$$

Eustasio del Barrio

Las Matem
aticas de PageRank

12 / 31

An
alisis de enlaces

Eustasio del Barrio

Las Matem
aticas de PageRank

13 / 31

An
alisis de enlaces

Google PageRank: Lawrence Page & Sergey Brin, 1998


Idea
Crear ranking r(P ) independiente de consulta
Calculos off-line; ahorro computaci
on en consultas
La web vota con in-links; in-links de sitios importantes pesan mas
in-links de sitio con muchos out-links pesan menos

Eustasio del Barrio

Las Matem
aticas de PageRank

14 / 31

An
alisis de enlaces

El algoritmo PageRank

r(P ) =

X r(Q)
|Q|

QBP

BP paginas con enlaces a P ; |Q| n


umero de paginas enlazadas desde Q

Eustasio del Barrio

Las Matem
aticas de PageRank

15 / 31

An
alisis de enlaces

El algoritmo PageRank

r(P ) =

X r(Q)
|Q|

QBP

BP paginas con enlaces a P ; |Q| n


umero de paginas enlazadas desde Q
Metodo iterativo: inicialmente r0 (P ) = n1 para todas paginas
P1 , . . . , P n
X r0 (Q)
r1 (P ) =
|Q|
QBP

r2 (P ) =

X r1 (Q)
|Q|

QBP

..
.

Eustasio del Barrio

Las Matem
aticas de PageRank

15 / 31

An
alisis de enlaces

Tras iteracion k,

kT

T
k+1

= [rk (P1 ), . . . , rk (Pn )],



1/|Pi | si i j
T
= k H, hi,j =
0
si no

Vector PageRank T = lmk kT = T H (autovector de H)


si el lmite existe

Eustasio del Barrio

Las Matem
aticas de PageRank

16 / 31

An
alisis de enlaces

Tras iteracion k,

kT

T
k+1

= [rk (P1 ), . . . , rk (Pn )],



1/|Pi | si i j
T
= k H, hi,j =
0
si no

Vector PageRank T = lmk kT = T H (autovector de H)


si el lmite existe
se estabilizan los iterantes?

Eustasio del Barrio

Las Matem
aticas de PageRank

16 / 31

An
alisis de enlaces

Tras iteracion k,

kT

T
k+1

= [rk (P1 ), . . . , rk (Pn )],



1/|Pi | si i j
T
= k H, hi,j =
0
si no

Vector PageRank T = lmk kT = T H (autovector de H)


si el lmite existe
se estabilizan los iterantes?
mide realmente la importancia de las paginas?

Eustasio del Barrio

Las Matem
aticas de PageRank

16 / 31

An
alisis de enlaces

Tras iteracion k,

kT

T
k+1

= [rk (P1 ), . . . , rk (Pn )],



1/|Pi | si i j
T
= k H, hi,j =
0
si no

Vector PageRank T = lmk kT = T H (autovector de H)


si el lmite existe
se estabilizan los iterantes?
mide realmente la importancia de las paginas?

Eustasio del Barrio

Las Matem
aticas de PageRank

16 / 31

An
alisis de enlaces

El modelo del internauta aleatorio


Internauta parte de pagina web. Aleatoriamente elige enlace a otra
pagina
Xn = pagina visitada en instante n

Eustasio del Barrio

Las Matem
aticas de PageRank

17 / 31

An
alisis de enlaces

El modelo del internauta aleatorio


Internauta parte de pagina web. Aleatoriamente elige enlace a otra
pagina
Xn = pagina visitada en instante n

Eustasio del Barrio

Las Matem
aticas de PageRank

17 / 31

An
alisis de enlaces

El modelo del internauta aleatorio


Internauta parte de pagina web. Aleatoriamente elige enlace a otra
pagina
Xn = pagina visitada en instante n

Eustasio del Barrio

Las Matem
aticas de PageRank

17 / 31

An
alisis de enlaces

El modelo del internauta aleatorio


Internauta parte de pagina web. Aleatoriamente elige enlace a otra
pagina
Xn = pagina visitada en instante n

Eustasio del Barrio

Las Matem
aticas de PageRank

17 / 31

An
alisis de enlaces

El modelo del internauta aleatorio


Internauta parte de pagina web. Aleatoriamente elige enlace a otra
pagina
Xn = pagina visitada en instante n

Eustasio del Barrio

Las Matem
aticas de PageRank

17 / 31

An
alisis de enlaces

Xn es una cadena de Markov


P2 es un estado absorbente (dangling node; pagina sin enlaces)
T = [0, 1, 0, 0, 0, 0]; P2 es un sumidero de ranking
Ranking no resulta interesante
Dangling nodes no cortan navegaci
on de internautas reales;
permitimos salto al azar
Cambiamos filas de ceros por

eT
n

= [ n1 , . . . , n1 ]

Eustasio del Barrio

Las Matem
aticas de PageRank

18 / 31

An
alisis de enlaces

S es una matriz estocastica, m. de transici


on de una cadena de Markov
T = T S

T distribuci
on estacionaria

La web no es fuertemente conexa; S no es irreducible (hay i 9 j)


Puede haber ciclos: i j i
Teorema
Si S irreducible y aperiodica existe una u
nica distribucion estacionaria,
T . Ademas
kT independientemente de 0T
Eustasio del Barrio

Las Matem
aticas de PageRank

19 / 31

An
alisis de enlaces

La matriz Google
Solucion a problemas: permitir salto aleatorio desde cualquier pagina
eeT
n
G es irreducible y aperiodica tiene distribuci
on estacionaria u
nica
G = S + (1 )

j = proporcion de tiempo que el internauta aleatorio pasa en pagina j

Eustasio del Barrio

Las Matem
aticas de PageRank

20 / 31

An
alisis de enlaces

Algunos aspectos importantes


En la Web real n 1012
La matriz de hiperenlaces es dispersa (menos de 10 out-links en media)
T
A
un as almacenamiento de G costoso y calculo de k+1
tambien

Cada iteracion requiere 1024 operaciones

Eustasio del Barrio

Las Matem
aticas de PageRank

21 / 31

An
alisis de enlaces

Algunos aspectos importantes


En la Web real n 1012
La matriz de hiperenlaces es dispersa (menos de 10 out-links en media)
T
A
un as almacenamiento de G costoso y calculo de k+1
tambien

Cada iteracion requiere 1024 operaciones


Pero hay buenas noticias
Teorema
X

(k)

|j

j | 2k

Si = 0.85, 50-100 iteraciones garantizan buena aproximacion


(103 107 ) independiente de dimensi
on!!
El resto de la historia es conocido
Eustasio del Barrio

Las Matem
aticas de PageRank

21 / 31

An
alisis de enlaces

Eustasio del Barrio

Las Matem
aticas de PageRank

22 / 31

An
alisis de enlaces

HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)


Distincion entre autoridades y distribuidores (hubs)

Eustasio del Barrio

Las Matem
aticas de PageRank

23 / 31

An
alisis de enlaces

HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)


Distincion entre autoridades y distribuidores (hubs)

Buenas autoridades enlazadas desde buenos hubs

Eustasio del Barrio

Las Matem
aticas de PageRank

23 / 31

An
alisis de enlaces

HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)


Distincion entre autoridades y distribuidores (hubs)

Buenas autoridades enlazadas desde buenos hubs


Buenos hubs enlazan a buenas autoridades

Eustasio del Barrio

Las Matem
aticas de PageRank

23 / 31

An
alisis de enlaces

HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)


Distincion entre autoridades y distribuidores (hubs)

Buenas autoridades enlazadas desde buenos hubs


Buenos hubs enlazan a buenas autoridades

Eustasio del Barrio

Las Matem
aticas de PageRank

23 / 31

An
alisis de enlaces

HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi

Eustasio del Barrio

Las Matem
aticas de PageRank

24 / 31

An
alisis de enlaces

HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi

1
..
Inicialmente hi = 1; h0 = .
1

Eustasio del Barrio

Las Matem
aticas de PageRank

24 / 31

An
alisis de enlaces

HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi

1
..
Inicialmente hi = 1; h0 = .
1

a1
P

Puntuacion inicial de autoridad ai = j:Pj Pi hi ; a1 = ... = LT h0
an

Eustasio del Barrio

Las Matem
aticas de PageRank

24 / 31

An
alisis de enlaces

HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi

1
..
Inicialmente hi = 1; h0 = .
1

a1
P

Puntuacion inicial de autoridad ai = j:Pj Pi hi ; a1 = ... = LT h0
an

1,
P i Pj
Li,j =
0,
P i 9 Pj

Eustasio del Barrio

Las Matem
aticas de PageRank

24 / 31

An
alisis de enlaces

HITS
Se refina puntuacion hub: hi =

j:Pi Pj

Eustasio del Barrio

aj ; h1 = La1

Las Matem
aticas de PageRank

25 / 31

An
alisis de enlaces

HITS
Se refina puntuacion hub: hi =

j:Pi Pj

aj ; h1 = La1

En pasos sucesivos a2 = LT h1 , h2 = La2 ,. . .

Eustasio del Barrio

Las Matem
aticas de PageRank

25 / 31

An
alisis de enlaces

HITS
Se refina puntuacion hub: hi =

j:Pi Pj

aj ; h1 = La1

En pasos sucesivos a2 = LT h1 , h2 = La2 ,. . .


A = LT L matriz de autoridades

ak+1 = Aak

H = LLT matriz de hubs

hk+1 = Hhk

Eustasio del Barrio

Las Matem
aticas de PageRank

25 / 31

An
alisis de enlaces

HITS
Se refina puntuacion hub: hi =

j:Pi Pj

aj ; h1 = La1

En pasos sucesivos a2 = LT h1 , h2 = La2 ,. . .


A = LT L matriz de autoridades

ak+1 = Aak

H = LLT matriz de hubs

hk+1 = Hhk

ak a; hk h; autovectores

Eustasio del Barrio

Las Matem
aticas de PageRank

25 / 31

An
alisis de enlaces

HITS
Se refina puntuacion hub: hi =

j:Pi Pj

aj ; h1 = La1

En pasos sucesivos a2 = LT h1 , h2 = La2 ,. . .


A = LT L matriz de autoridades

ak+1 = Aak

H = LLT matriz de hubs

hk+1 = Hhk

ak a; hk h; autovectores
a, h no bien definidos si A, H reducibles

Eustasio del Barrio

Las Matem
aticas de PageRank

25 / 31

An
alisis de enlaces

Problema reducido si se calculan a, h sobre grafo asociado a


query+vecinos

Eustasio del Barrio

Las Matem
aticas de PageRank

26 / 31

An
alisis de enlaces

Problema reducido si se calculan a, h sobre grafo asociado a


query+vecinos

HITS da dos rankings interesantes

Eustasio del Barrio

Las Matem
aticas de PageRank

26 / 31

An
alisis de enlaces

Problema reducido si se calculan a, h sobre grafo asociado a


query+vecinos

HITS da dos rankings interesantes


ranking es query-dependent; demasiada computacion por consulta

Eustasio del Barrio

Las Matem
aticas de PageRank

26 / 31

An
alisis de enlaces

Problema reducido si se calculan a, h sobre grafo asociado a


query+vecinos

HITS da dos rankings interesantes


ranking es query-dependent; demasiada computacion por consulta
A, H no estocasticas; modificaciones posibles

Eustasio del Barrio

Las Matem
aticas de PageRank

26 / 31

An
alisis de enlaces

Problema reducido si se calculan a, h sobre grafo asociado a


query+vecinos

HITS da dos rankings interesantes


ranking es query-dependent; demasiada computacion por consulta
A, H no estocasticas; modificaciones posibles
SALSA (Stochastic Approach for Link-Structure Analysis, Lempel
& Moran)
Eustasio del Barrio

Las Matem
aticas de PageRank

26 / 31

An
alisis de enlaces

Enga
nando a PageRank
PageRank asume buena fe en enlaces y paginas (dont be evil)

Eustasio del Barrio

Las Matem
aticas de PageRank

27 / 31

An
alisis de enlaces

Enga
nando a PageRank
PageRank asume buena fe en enlaces y paginas (dont be evil)
Manipular PageRank puede producir beneficios (rendimiento
publicitario, divertirse un poco,. . . )

Eustasio del Barrio

Las Matem
aticas de PageRank

27 / 31

An
alisis de enlaces

Eustasio del Barrio

Las Matem
aticas de PageRank

28 / 31

An
alisis de enlaces

Eustasio del Barrio

Las Matem
aticas de PageRank

28 / 31

An
alisis de enlaces

Paginas accedidas desde paginas relacionadas con consulta


consideradas relevantes tambien

Eustasio del Barrio

Las Matem
aticas de PageRank

29 / 31

An
alisis de enlaces

Paginas accedidas desde paginas relacionadas con consulta


consideradas relevantes tambien
Bomba desactivada; otras debilidades descubiertas

Eustasio del Barrio

Las Matem
aticas de PageRank

29 / 31

An
alisis de enlaces

Paginas accedidas desde paginas relacionadas con consulta


consideradas relevantes tambien
Bomba desactivada; otras debilidades descubiertas
El vector PageRank es estable; el ranking, no

Eustasio del Barrio

Las Matem
aticas de PageRank

29 / 31

An
alisis de enlaces

Paginas accedidas desde paginas relacionadas con consulta


consideradas relevantes tambien
Bomba desactivada; otras debilidades descubiertas
El vector PageRank es estable; el ranking, no
SEOs, link farms

Eustasio del Barrio

Las Matem
aticas de PageRank

29 / 31

An
alisis de enlaces

Paginas accedidas desde paginas relacionadas con consulta


consideradas relevantes tambien
Bomba desactivada; otras debilidades descubiertas
El vector PageRank es estable; el ranking, no
SEOs, link farms
Efecto de link farms controlable (?) analizando grafo

Eustasio del Barrio

Las Matem
aticas de PageRank

29 / 31

Conclusiones

Matematicas resuelven problemas; soluciones u


tiles en problemas
concretos
Historia no terminada: link farms, SEO, Google Panda, Google
Penguin,. . .
Machine learning, BigData, Social Netwokrs, . . . areas activas de
investigacion matematica/estadstica/informatica teorica y
aplicada
Tambien una gran fuente de empleo

Eustasio del Barrio

Las Matem
aticas de PageRank

30 / 31

Referencias

Libros:
Langville, A. N. y Meyer, C. D. (2006). Googles PageRank and
Beyond: The Science of Search Engine Rankings. Princeton Univ. Press.
Manning, C.D., Raghavan, P. y Sch
utze, H. (2008). Introduction to
Information Retrieval, Cambridge University Press.
Bonato, A. (2008). A Course on the Web Graph. A.M.S. - Graduate
Studies in Mathematics.
Algorithms and Models for the Web-Graph. Lecture Notes in Computer
Science. Springer. (9o workshop en 2012)
Artculo:
Langville, A. N. y Meyer, C. D. (2003). Deeper inside pagerank.
Internet Mathematics, 1, 335380.
Eustasio del Barrio

Las Matem
aticas de PageRank

31 / 31

Вам также может понравиться