Академический Документы
Профессиональный Документы
Культура Документы
y Bsqueda de Datos
Volver a: Mdulo 1
Lectura Obligatoria SEMANA 1: Qu es el Periodismo de Datos? y Bsqueda de Datos - Bases de
Datos - Formatos
Por Sandra Crucianelli
www.facebook.com/sandracrucianelli
www.facebook.com/periodismodedatos
@spcrucianelli
Muchos colegas me preguntan qu es el periodismo de datos (PdD). No encuentran lgica en la
denominacin, ya desde siempre los periodistas nos valemos de datos para producir contenidos
periodsticos. Corresponde en realidad, llamarlo Periodismo de Base de Datos (PBD), pero por
uso y costumbre, predomina la denominacin ms corta
-En ocasiones, efectivamente hay que recurrir a los mtodos de investigacin social definidos en la
dcada del 60 por Philip Meyer para su aplicacin en el campo del periodismo.
Casi siempre, porque tenemos que analizar datos y nos valemos de hojas de clculo as como de
los procedimientos propios de esta disciplina. De hecho creo que el PAC slo queda resumido a
cuando manejamos volmenes de datos pequeos y para casos ms grandes en cuanto a volumen
de informacin, ha dejado de ser PAC ara convertirse en Periodismo de Datos.
Tambin, ya que en general usamos mtodos analticos para llevar los datos a sistemas de
informacin geogrfica que nos permitan visualizar mejor el comportamiento de las variables que
tenemos
En realidad lo que hoy se conoce como Periodismo de Datos y que, como cit anteriormente, es en
realidad Periodismo de Base de datos, involucra todo lo anteriormente citado, a lo que debemos
aadir:
Grandes volmenes de datos, que muchas veces ni siquiera podan alojarse en una hoja de
clculo de Excel.
Visualizacin interactiva
Incorporacin del programador al equipo periodstico para desarrollar tareas que van desde la
extraccin de datos, la depuracin de los sets de datos, hasta el diseo de aplicaciones de noticias
(news apps).
Entonces, si pudiramos escribirlo a modo de frmula, podemos decir que tenemos una suma de
mtodos conocidos a los que se aaden 3 frutos de la innovacin tecnolgica
PI + PP + PPr + PA + PAC + Volumen de Datos + Visualizacin Interactiva + Programacin: = PdD
PBD
Definiciones:
Periodismo de Profundidad (PP): Es lo mismo que el PI; solo que en este caso nadie intenta
mantener en secreto lo que el periodista investiga. Como podra ser un estudio sobre las variables
de pobreza sobre los datos de los censos nacionales.
Periodismo de Precisin (PPr): Formulado como disciplina en la dcada del 60 por el profesor
Philip Meyer, involucra el uso de mtodos de la investigacin social aplicados al periodismo tales
como la investigacin cualitativa (anlisis de casos, Grupos Focales, Anlisis del discurso, etc.) y la
investigacin cuantitativa. Esta ltima incluye la descriptiva (cuando se consideran todos los casos:
ejemplo, un censo entre legisladores) y lo que se denomina investigacin inferencial, es decir
cuando se trabaja sobre un universo y dada la dificultad para abordar a cada miembro de ese
universo, se disea una muestra representativa de ese universo, a la cual se procede a poner bajo
estudio. Es el caso de las encuestas de opinin o las electorales con fines predictivos.
Periodismo Analtico: Analiza una realidad compleja, con el fin de lograr la comprensin del
pblico. Combina algunos aspectos del periodismo de investigacin y la informacin explicativa. Su
misin es ofrecer pruebas basadas en interpretaciones de la realidad, explicndolas de un modo
comprensible. Contextualiza un tema de fondo, mediante la descripcin de detalles histricos y
datos estadsticos. El resultado es una explicacin completa, destinada a dar forma a la percepcin
del pblico del fenmeno. Aspira a recoger datos dispares y hacer conexiones que no son
inmediatamente evidentes, y su eficacia es a menudo en el anlisis entre los hechos y no en los
hechos mismos. Utiliza como pilar de la visualizacin los llamados SIG, Sistemas de Informacin
Geogrfica.
Periodismo Asistido por Computadora: Conocido en ingls por sus siglas (CAR: Computer Assisted
Reporting): se define como "cualquier proceso que utiliza la asistencia de computadoras durante
la recoleccin y procesamiento de datos. Ha basado su prctica en el uso de hojas de clculo de
Excel, para el anlisis de informacin contenidas en tablas.
Hay al menos 6 productos diferentes, generalmente complementarios, que surgen de esta prctica
Ejemplos:
http://www.ieco.clarin.com/Usinas-facturas-truchas-denunciadas-AFIP_0_1328267629.html
http://www.eltiempo.com/elecciones-2014/presidencia/cunta-plata-mueven-campaas-quines-
son-los-grandes-aportantes/14007198
http://archivo.eluniversal.com.mx/primera-plana/2014/impreso/seis-grupos-acaparan-la-minera-
46820.html
Ejemplos:
http://interactivos.lanacion.com.ar/censo/#.V5AYx5OGtHw
http://www.nytimes.com/newsgraphics/2013/08/18/reshaping-new-york/
http://www.eltiempo.com/multimedia/infografias/ingresos-y-gastos-de-las-campanas-
electorales/13998197
Generalmente trabajamos con grandes volumenes de datos que podemos extraer, limpiar,
procesar y finalmente analizar. Un set de datos es un conjunto de atributos cuanti y cualitativos
que nos describe una situacin, un hecho, un problema, una realidad, etc.
Los datos pueden gestionarse o administrarse desde plataformas sencillas y gratuitas como Google
Drive
https://docs.google.com/spreadsheets/d/1K5-
eXhEzKUALeO1T6bWrFhUJydrnL3jjx6VXUUEEFUc/edit#gid=1474763677
https://docs.google.com/spreadsheets/d/10O-
XzcWCl5H0pwRsFSLZrppprbpx3tplBEEmB9L2IwY/edit#gid=1496804440
APLICACIONES DE NOTICIAS: Conocidas en ingls como News Apps. Son el fruto de la labor de
periodistas + programadores informticos. Muchas veces el volumen de datos es tan grande que
resulta imposible encontrar una noticia si no se disea una aplicacin que nos permita agrupar y
analizar variables, por ejemplo, por localizacin geogrfica, por fecha, por nombre de compaa,
etc.
Ejemplo 1: http://gastopublicobahiense.org/
Ejemplo 2: http://www.lanacion.com.ar/1546303-los-bienes-de-los-funcionarios-en-la-primera-
news-application-de-la-nacion
Ejemplo 3: http://www.boletinoficial.info/
Ejemplo 4: https://salaries.texastribune.org/
BLOGS DE DATOS Publican algunos o todos los elementos anteriores en formato Blog
Ejemplos:
http://blogs.lanacion.com.ar/data/
http://soloopendata.blogspot.com.ar/
http://panamaelecciones.blogspot.com.ar/
Ejemplos:
http://www.lanacion.com.ar/data
http://www.nacion.com/data/
http://www.sololocal.info/index.php/data
Los canales de datos incluyen notas, blogs, catlogos, aplicaciones de noticias, etc.
CATLOGO DE DATOS: Los medios de comunicacin pueden dedicar una gran parte de su esfuerzo
a la apertura de datos pblicos. En pases donde no existen leyes de acceso a la informacin
pblica, donde stas no funcionan como deberan, donde en los sitios web del gobierno hay
algunos datos, pero otros no, o estn ocultos bajo distintas capas de informacin donde los
formatos para mostrar los datos va web no son accesibles: ver un dato en la pantalla no es lo
mismo que acceder al mismo. Para que un dato sea accesible se debe mostrar en un formato
reutilizable.
http://clarin.opendata.junar.com/dashboards/9114/usinas-de-facturas-apocrifas/
http://data.lanacion.com.ar/dashboards/5068/inflacion-y-precios/
En tiempos en los que el periodismo de datos contribuye a mejorar la calidad de los contenidos
periodsticos, la captura de informacin es el primer eslabn de una sucesin de pasos entre los
que se incluyen el procesamiento, la depuracin, la contextualizacin y la visualizacin.
No solamente es suficiente ver datos a travs de una pantalla, sino tener la capacidad para
capturarlos, lo cual se convierte en pieza clave de esta estrategia.
Hay muchas formas de obtener datos: el rastreo de la web, conocido como searching, es una de
ellas y probablemente la ms utilizada.
Sin embargo, hay una importante cantidad de informacin que puede ser recuperada por los
mecanismos comunes de bsqueda.
El espacio de la Red donde se alojan esos contenidos es conocido como web profunda o deep
web, que es donde se incluye informacin que no es indexada por los motores de bsqueda como
Google, Bing, etc. Por el contrario, en la web superficial es donde podemos encontrar los
resultados ms comunes que devuelven los buscadores, como pginas de sitios comerciales o
aquellos con alto trfico.
Vale mencionar que tambin existe otra zona definida por algunos autores como la Internet
oscura, impenetrable por su naturaleza, como los servidores protegidos por diferentes razones
(seguridad nacional o militar), cuyo contenido queda aislado de nuestro campo de bsqueda.
En ella podemos encontrar documentos que no han sido almacenados bajo estructura HTML,
como archivos para abrir o descargar en diferentes formatos: PDF, Excel, PPT (Power Point),
incluso Flash y las extensiones que utiliza Google Earth.
Si deseas explorar un sitio web comienza con un mtodo sencillo: explora el mapa del sitio, una
prctica no comn que ser como una brjula capaz de orientar la bsqueda.
Es recomendable aprender a usar la bsqueda avanzada de todos los buscadores como la de
Google: http://www.google.com/advanced_search.
Para ello: utiliza el posicionamiento geogrfico para obtener informacin desconocida de ltimo
momento. Ingresa el nombre de la ciudad en la que vives o sobre la que deseas obtener
informacin en cualquiera de los dos primeros cuadros de texto. Si se trata de la ciudad de Bogot,
por ejemplo, debers usar el primer casillero; si se trata de Buenos Aires, usars el segundo, ya
que por tratarse de un nombre compuesto es necesario que los resultados incluyan la frase
exacta.
Limita los resultados a una lnea temporal reciente: por ejemplo, el ltimo ao. Del mismo
modo, conforme el tipo de informacin que desee encontrar, debes decidir el formato, por
ejemplo, Excel, donde tendrs mayor posibilidad de encontrar tablas con estadsticas o evolucin
de gastos. Busca en PDF: podrs sorprenderte con los resultados.
Un tip que da buenos resultados, en la misma planilla de la bsqueda avanzada es buscar dentro
de dominios gubernamentales. De ese modo, donde se indica "dentro del sitio o dominio", en el
caso de mi pas colocar: .gov.ar (ya que esa es la extensin que habitualmente usa el Gobierno
Argentino). Intenta una bsqueda usando este recurso y podrs encontrar informacin de valor si
al mismo tiempo buscas en PDF.
Recorta dominios para llegar al index o al directorio madre de un sitio, cuando esto sea posible:
Por ejemplo, un link ms largo puede convertirse en este otro:
http://www.justiciachaco.gov.ar/listas/.
Interesado en saber ms sobre la bsqueda avanzada de Google? En este link: (en ingls)
http://www.powersearchingwithgoogle.com/course/aps
BASES DE DATOS
Buscar datos de tu pas fuera de tu pas es una excelente estrategia. Por ejemplo, la base de datos
de importaciones del censo de Estados Unidos contiene el detalle actualizado de las importaciones
a EE.UU. (o lo que es equivalente a las exportaciones de cada pas a EE.UU.). Como la ruta para
llegar a la lista de pases no es sencilla de localizar a simple vista, les comparto el enlace de acceso.
Lo bueno de este caso es que por cada pas aparece una serie completa, ltimos 10 aos, lo cual
permite estudiar las variables a lo largo del tiempo e incluso comparar el comportamiento de
algunas de ellas con el que han tenido en otros pases de la regin.
Rescata datos que pudieron haber sido eliminados de la web pero quedaron en la versin
cach o como capturas de pantalla. Usa Internet Archive a travs de su mquina del tiempo (the
"Wayback Machine).
Localiza bases de datos de tu inters. Para este curso he compilado una serie de bases de datos
que pueden ser consultada a travs de este enlace:
http://www.livebinders.com/play/play?id=440853
Cada carpeta tiene un enlace y a su vez, contiene subcarpetas con otros enlaces. Explora estos
recursos para ver si encuentras los datos que sean funcionales a tu inters y a tu historia.
Los contenidos de estas bases de datos estn en un nivel profundo de la Web, por eso es
importante saber dnde podemos encontrar datos listos para usar.
Lo ms fascinante del tema que nos ocupa es que, pese a las estimaciones, nadie conoce con
exactitud la dimensin real de la web profunda.
Esto nos abre un terreno inexplorado, una tierra virgen, al que con paciencia y perseverancia
podemos llegar... como conquistadores de nuevos mundos.
FORMATOS DE ARCHIVOS
Asumo que la mayora de ustedes conocen los formatos ms comunes de archivos como PDF,
Excel (o cualquier hoja de clculo), Word, TXT, etc.
En datos abiertos, hay un formato que utilizan los gobiernos y organizaciones internacionales muy
usado por ser liviano, reutilizable y fcil de estructurar: el CSV, del ingls comma-separated
values): es un tipo de documento en formato abierto sencillo para representar datos en forma de
tabla, en las que las columnas se separan por comas (o punto y coma en donde la coma es el
separador decimal: Argentina,Mxico, Brasil...) y las filas por saltos de lnea.
Los campos que contengan una coma, un salto de lnea o una comilla doble deben ser encerrados
entre comillas dobles.
Solucin 1:
Para estructurar los datos sin descargar del Drive, marcar la primera columna, luego clic en Datos y
finalmente, clic en dividir texto en columnas.
Finalmente, en YouTube, hay variedad de videos que ensean paso a paso cmo convertir un CSV
en un Excel (u Hoja de clculo estructurada)