Вы находитесь на странице: 1из 5

Cadenas de Markov - Implementación de

algorı́tmos complejos de búsqueda


Camilo Ospina Molano
Febrero, 2019

Abstract
In recent years internet has grown significantly and that has led to the
necessity to create systems that can easily navigate all the information
it contains. However, the obvious logistical concerns that make creating
a comprehensive system that can efficiently organize this information is
extremely difficult. It is for this reason that the innovative techniques mo-
tivated by SEO experts that are continuosly trying to implement Markov
Chains and other altorithms to bring predictive theory to the web and
add value to a SEO team are so fundamental.

1 Introduction
Markov chains are used throughout information processing and can take pre-
dictive theory to a new level, with a wide variety of applications for digital
marketing. From social media network modeling to user profiling, site scoring
and recommended pages, Markov chains can quantify, rank, and return likely
outcomes on the web. In other words, they can demystify demographics. SEOs
can use Markov Chains to predict what content users are likely want to see, and
specifically what content their users or their competitors’ users will want to see.

2 Marco Teórico
Una cadena de Markov es una serie de eventos, en la cual la probabilidad de que
ocurra un evento depende del evento inmediato anterior. En efecto, las cadenas
de este tipo tienen memoria, ”Recuerdan” el último evento y esto condiciona
las posibilidades de los eventos futuros. Esta dependencia del evento anterior
distingue a las cadenas de Markov de las series de eventos independientes, como
tirar una moneda al aire o un dado. En los negocios, las cadenas de Markov se
han utilizado para analizar los patrones de compra,los deudores morosos, para
planear las necesidades de personal y para analizar el reemplazo de equipo. El
análisis de Markov, llamado ası́ en honor de un matemático ruso que desarrollo
el método en 1907, permite encontrar la probabilidad de que un sistema se en-
cuentre en un estado en particular en un momento dado. Algo más importante
aún, es que permite encontrar el promedio a la larga o las probabilidades de
estado estable para cada estado. Con esta información se puede predecir el

1
comportamiento del sistema a través del tiempo. La tarea más difı́cil es re-
conocer cuándo puede aplicarse. La caracteristica más importante que hay que
buscar en la memoria de un evento a otro.[1]

2.1 Ası́ es como funcionan las cadenas de Markov


En una función de probabilidad tı́pica, la probabilidad de lo que harás tercero
se basa en las dos primeras cosas que hiciste. Cuando se aplica una cadena de
Markov, la probabilidad de lo que harás de terceras se basa solo en lo que hiciste
segundo, no en lo que hiciste primero.[h!]

Figure 1: Cómo funcionan las cadenas markov

En todos los casos, las cadenas de Markov utilizan co-dominios, el denomi-


nador común entre las rutas de usuario. Sin embargo, en los modelos relacionales
de Markov, se puede hilvanar dos funciones con diferentes compañeros de do-
minios o diferentes tipos, siempre y cuando hay un exceso de arqueo similitud
entre todos los estados (que suele ser la razón por la que los está modelando) .

2.2 Aplicaciones
Los modelos de Markov te permiten hacer muchas cosas geniales:
Registro completo de usuarios: cambia el co-dominio de una palabra clave de
búsqueda a la página de su sitio que está analizando, o el comportamiento.
Luego construye dos funciones. La primera describe lo que sucede antes de que
los usuarios lleguen allı́ (ya que el co-dominio aquı́ puede ser un punto de datos
demográficos, no la página de destino), una función muy útil para los equipos
de marca. El segundo describe lo que sucede cuando los usuarios llegan a la
página. Luego, utilizando la página de destino como el co-dominio principal,
conecte los valores de probabilidad resultantes en una nueva función.[h!]
Comportamiento del usuario: la segunda ecuación de la primera mitad del
ejemplo anterior, por ejemplo, la función que describe lo que sucede después de
que el usuario llega al sitio. Modelado de redes sociales: el co-dominio es una
publicación que todos los usuarios ven. El estado que estás identificando es la
autoridad, que luego se puede usar como co-dominio de otra función.
Cabe señalar que Google ya puede estar usando cadenas de Markov de cuatro
maneras:

2
Figure 2: Google, utilización markov

Predicción de solicitud de servicio HTTP: Google infunde a una página dada


la probabilidad de que el usuario quiera verla. Esto acelera el tiempo de re-
spuesta del motor de búsqueda.
Identificación del grupo de frases clave: las frases clave se pueden identificar
como pertenecientes a un grupo, como el Hummingbird. Esta es la misma
función que la de usuario completo que identifica datos demográficos relevantes.
Sugerencia del agente: el motor sugiere automáticamente búsquedas y enlaces
a los que es probable que el usuario quiera acceder.
Puntuación: Las cadenas de Markov también se pueden usar para identificar
centros de autoridad que son los siguientes pasos probables en sistemas con
(sub) dominios individuales. Esta es la misma función que la del modelado de
redes sociales.

3 Estado del Arte


Desde sus comienzos, Google se convirtió en “el” motor de búsqueda. Esto es
debido a la supremacı́a de su algoritmo de jerarquización: el algoritmo PageR-
ank. De hecho, debido a la enorme cantidad de páginas web en la World Wide
Web, muchas búsquedas finalizan con miles o millones de resultados. Si es-
tas páginas no estuvieran adecuadamente ordenadas, la búsqueda no serı́a de
ninguna utilidad, ya que nadie es capaz de explorar millones de entradas.

3.1 ¿Cómo funciona al algoritmo PageRank?


Esto se explicará más adelante, pero antes vamos a hacer una búsqueda en
Google. En junio de 2010 se obtuvieron 16.300.000 resultados para Klein project,
si bien el proyecto estaba comenzando. En esta fecha en concreto, la primera en-
trada era http://www.mathunion.org/icmi/other-activities/klein-project/introduction/
en lugar de http://www.kleinproject.org/

La primera url es la dirección web de una página que está localizada en el


sitio web de la Unión Matemática Internacional (International Mathematical
Union): http://www.mathunion.org. Como este es un organismo importante,
su página web oficial aparece la primera cuando se realiza la búsqueda “Inter-

3
Figure 3: Ejemplo

national Mathematical Union”. Es más, transmite parte de su importancia a


todas sus páginas, una de las cuales es http://www.mathunion.org/icmi/other-
activities/klein-project/introduction/ Cabrı́a esperar que dentro de unos pocos
meses la página http://www.kleinproject.org/ apareciera la primera en la búsqueda
de Klein project. Para explicar el algoritmo se modela la red mediante un grafo
orientado. Los vértices son las páginas y las aristas orientadas son los enlaces
entre páginas. Como ya hemos explicado, cada página corresponde a una url
diferente. Por tanto, un sitio web puede contener muchas páginas pero este
modelo no diferencia entre las páginas individuales de un sitio web y su página
principal. Sin embargo, es más probable que el algoritmo dé más valor a la
página principal de un sitio web importante.[2]

Consideremos el ejemplo de la sencilla red de la izquierda, compuesta por


cinco páginas llamadas A, B, C, D y E. Esta red tiene pocos enlaces: en A hay
solamente un enlace a B, mientras que si estamos en C encontramos tres enlaces
y podemos elegir entre pasar a A, B o E. Notar que hay al menos un enlace
desde cada página.

Proponemos un sencillo juego, que consiste en dar un paseo aleatorio por el


grafo orientado. Comenzando en una página cualquiera, en cada paso elegimos
un enlace al azar en la página en la que nos encontramos y lo seguimos. Por
ejemplo, en nuestra red, si comenzamos en B, entonces podemos elegir entre ir a
A o a C con probabilidad 1/2 para cada caso, mientras que si empezamos en D,
entonces necesariamente tenemos que ir a A con probabilidad 1. Si repetimos el
juego, ¿dónde estaremos después de n pasos? Para automatizar el proceso, re-

4
sumimos la información de la red en la siguiente matriz P, donde cada columna
representa la página de salida y cada fila es la página de destino.[3]
Notar que la suma de todas los valores de una misma columna de P es igual
a 1 y que todas las entradas de la matriz son mayores o iguales que cero. Una
matriz que satisface estas dos propiedades es de un tipo muy especial: es la
matriz de un proceso de cadena de Markov, también conocida como matriz de
transición del proceso de Markov. Este tipo de matrices tienen siempre como
valor propio 1 y existe un vector propio de valor propio 1 cuyas componentes
son todas menores o iguales que 1 y mayores o iguales que 0 y cuya suma es 1.

References
[1] Markov Algorithm
Wikipedia.
https://en.wikipedia.org/wiki/Markova lgorithm
[2] Markov Chains PageRank
Distributed Computing.
https://disco.ethz.ch/courses/fs16/ti2/lecture/chapter11.pdf

[3] Markov chains, Google’s PageRank algorithm


University of Pennsylvania.
https://www.math.upenn.edu/ kazdan/312F12/JJ/MarkovChains/markovg oogle.pdf

Вам также может понравиться