Вы находитесь на странице: 1из 7

EVALUANDO LA CALIDAD DE LOS DATOS DE TELEFONOS MOBILES

COMO UNA FUENTE DE ESTADISTICAS

Conferencia europea sobre calidad en estadísticas oficiales, Madrid 2016

El objetivo del estudio fue el de evaluar el uso de datos obtenidos a partir del registro de la
posición de teléfonos celulares para calcular la densidad de población residente en Bélgica, fue
llevado a cabo por estadísticos belgas, Eurostat y Proximus (empresa prestadora de servicios
móviles con una cobertura del 40.3 % del mercado), la información reunida fue contrastada con
los resultados del censo del 2011.

Se propuso 3 puntos de investigación

 ¿Los datos obtenidos a partir de teléfonos móviles constituyen una fuente válida para
evaluar la densidad da población? (valides)
 ¿Cuál es la relación entre densidad de población basada en móviles versus los datos del
censo? (exactitud)
 ¿Cómo puede el valor de los datos de teléfonos móviles ser mejorado aún más para este
propósito? ( integración de datos y replicabilidad)

Tanto los datos móviles como el censo son aproximaciones a la realidad con sus propias
limitaciones

 Los datos del censo muestran la población registrada basados en el lugar de residencia
almacenados en el registro de población, que no es necesariamente la residencia real
 Los datos móviles muestran la población actualmente presente en un área, que de noche
debería indicar altamente el lugar actual de residencia, pero es imparcial por no tener una
total cobertura (personas sin teléfono, con más de un teléfono, con trabajos a típicos … )

Descripción de los datos

Para fines del estudio se desarrolló una construcción llamada TACS (technologic-agnostic cell
selector) como el área cubierto por todas las células (antenas) con el mismo azimut (dirección del
lóbulo principal de la antena), los polígonos resultantes son representados como diagramas de
Voronoi. Se tuvo en cuenta las TACS conteniendo a las células pequeñas
Un mapa de calor respecto a la cantidad de móviles dentro del TACS se creó, discontinuidades en
los datos fueron resueltos por interpolación (se supone que el dispositivo permanece en su última
posición conocida hasta que se conozca una nueva).

Los datos fueron recogidos cada 15 minutos durante la totalidad de 2 días, el jueves 8 de octubre
del 2015), para proteger la privacidad todos los datos fueron agregados por TACS.

Metodología

1) Cuadricula estándar Europea

Los datos en el censo se tomaron usando una grilla geo codificada de 1 km 2, luego para poder
tener datos comparables , el número de dispositivos registrados en cada polígono (recuento de
Voronoi) se divide proporcionalmente por área y los subtotales resultantes se asignan a cada una
de las diferentes cuadrículas de 1 km² de las que forman parte. Estos se pueden sumar para cada
cuadrícula de km²
El método funciona bien cuando los polígonos son pequeños y limitado cuando son grandes y no
tienen una gran cantidad de teléfonos en la noche (por ejemplo los bosques), problemas como
estos se pueden solucionar adicionando otras información de otras bases de datos.

2) Análisis de los datos obtenidos. Aplicación de análisis por clusters

Se normalizaron los datos obtenidos en ambos días (media 0, desviación estándar 1) usando el
paquete “scale” de R, luego se aplicó el método de clusters por Kmeans, el numero óptimo de
agregaciones fue determinado usando el método de suma de cuadrados al interior del grupo con
el paquete “SSW” de R, dando 3 clusters para el jueves y 4 para el domingo. Las correlaciones
entre el número de teléfonos y la población según el censo fueron calculadas en R para cada
clúster.

3) Resultados
La imagen de la izquierda corresponde a la densidad calculada con datos de celulares móviles
el día jueves, la de la derecha usando datos del censo, la correlación de Personas entre los dos
fue del 0.85. La similitud a simple vista es clara, pero se evidencias diferencias en zonas con
baja densidad de población dentro de TACS de varios kilómetros cuadrados y otros análisis
mostraron desajustes.

La correlación fue mayor en las noches con un rápido decrecimiento en las mañanas y
crecimiento gradual en la tarde (casi noche).

La correlación estuvo sobre el 0.85 sobre la grilla de 1 km 2 mientras que para los TACS
(distribuyendo la información del censo en ellos) fue del 0.65, no se sabe que causa la
diferencia.
Usando una tabla de contingencia entre los deciles de la densidad vieron que el 35% de los
datos coinciden perfectamente, los demás datos mostraron que ambas fuentes son muy
cercanas y validas

En la siguiente imagen de la izquierda corresponde a errores (en rojo) cerca al aeropuerto


causado por teléfonos de pasajeros que no son residentes, en la derecha corresponde al área
de un parque que esta obviamente desviado, pero muestra presencias de teléfonos en la
noche, muy seguramente por señales de edificios alrededor

Análisis de los clusters

Para el día jueves se pudieron interpretar los 3 clúster así:

 Áreas residenciales : las personas salen a trabajar en el día y regresan a ellas en la noche
 Áreas de trabajo : las personas llegan en el día y las abandonan en las noches
 Zonas de intercambio: dos picos, uno en la tarde y otro en la noche correspondiente al
cambio entre las dos primeras zonas
Los clusters del domingo son más complejos y necesitan más análisis

Conclusiones

La comparación entre ambas fuentes mostro que los datos obtenidos usando teléfonos móviles es una
válida y exacta aproximación a la población actual, destacando que los datos son extremadamente
puntuales en el tiempo, fácil de computar y no depende de respuestas subjetivas, bajo este contesto la
calidad puede ser mejorada aún más añadiendo otros conjuntos de datos espacio – temporales.

Es claro que el método tiene defectos porque no existe una relación uno a uno entre personas y teléfonos
o falta de cobertura en algunas zonas, pero aun así es un método viable siempre que se logren acuerdos
de mutuo beneficio entre los organismos de estadística y los prestadores de servicios públicos.

Вам также может понравиться