Вы находитесь на странице: 1из 31
Implementando la Publicación y el Consumo de Datos Públicos Introducción Por Eduardo Poggi En este Módulo

Implementando la Publicación y el Consumo de Datos Públicos 1

Introducción

Por Eduardo Poggi

En este Módulo analizaremos la Publicación de datos bajo dos miradas: la interna a la organización que los produce- pública y la externa de quien los utiliza-consume. En la mirada intra-organizacional veremos: metodologías, estándares y principios para la publicación de datos; estrategias de implementación gradual según niveles de madurez y analizaremos el impacto intra y supra institucional de estas iniciativas. Para la mirada extra-organizacional veremos las pautas de trabajo, como metodología incipiente, propuestas bajo el nombre de Periodismo de Datos.

Bajo ambas miradas haremos una presentación de algunas experiencias de publicación y de consumo de datos para tener como referentes.

Una vez analizado los fundamentos de la Publicación de Datos y el contexto en el cual debemos trabajar, nos dedicaremos a avanzar un poco más en la implementación y en su explotación posterior. La implementación con una mirada intra-institucional o intra-administración, mientras que la explotación es su natural complemento de utilización con una mirada extra-institucional o extra- administración.

En el actual contexto, la implementación de la Publicación de Datos tiene sentido siempre que se logre de una forma sistemática, reproducible y predecible. Es decir, no es nuestro objetivo la publicación excepcional y coyuntural de datos sino, cómo lograr que se realicen de forma sistemática y sustentable. Para lograr esto es necesario que la publicación sea el resultado de una etapa más dentro de un proceso de gestión (de lo público) establecido en la organización sustentado en los respectivos sistemas informáticos. Esto garantizaría que la etapa de Publicación fuera un aspecto rutinario y no discrecional y que sea viable en términos de uso de recursos.

Pero para lograr esto es necesario que se cumplan varios requisitos:

1 Este documento está basado en textos previos del autor publicados bajo Creative Commons y utilizados en diversos cursos virtuales y como material de referencia de eventos de capacitación presenciales. Por lo tanto puede ser usados y reutilizados con cualquier fin siempre que se cite la fuente.

1. Que exista, que esté definido ciudadano. e implementado el proceso de gestión relacionado con el
  • 1. Que exista, que esté definido ciudadano.

e implementado el

proceso de gestión relacionado con el

  • 2. Que los datos en cuestión estén digitalizados y bajo el control de Sistemas de Información que le dan soporte informático al proceso y protección (en términos de seguridad informática) a los datos.

  • 3. Que exista una serie de recaudos fruto de actividades previas que permitan la automatización de la Etapa de Publicación con riesgos bajo control.

Estos requerimientos ya son fuertes en sí mismos y requieren que las organizaciones tengan una capacidad institucional significativa para llevarlos adelante junto con la atención del impacto en los niveles culturales, legales, organizacionales, informacionales y tecnológicos.

Todo este esfuerzo de las organizaciones públicas tiene sentido si la publicación aporta valor público y esto se logra cuando los datos publicados son explotados por actores de la sociedad.

En general la utilización no es directa y simple, requiere de cierto procesamiento de los datos para lograr efectos interesantes. Nuevamente, el procesamiento requiere de cierta capacidad para realizarlo, pero en este caso no hay -en principio- una organización social que lo reciba directamente. Puede haberlas y muchas, pero no con un mandato para realizar la explotación de los datos. Puede hacerla más como un consumidor o como un usuario de bienes públicos.

En términos muy generales, el consumo (procesamiento) de datos públicos también debería cumplir con ciertas etapas:

  • 1. Obtención de los datos, seguramente no basta con una sola fuente sino de un conjunto - homogéneo o no- de datos publicados por la misma o por distintas organizaciones.

  • 2. Asegurar el derecho a utilizar los datos.

  • 3. Entender, relacionar, limpiar y analizar los datos de forma transparente, reproducible y auditable. Esta actividad es crucial, particularmente el no entendimiento de los datos puede generar malos resultados.

  • 4. Publicar y legar los resultados (o no).

  • 5. Hacerse cargo de lo publicado, en particular, ser responsables de una retroalimentación a las fuentes.

Las experiencias realizadas, tanto en la implementación (publicación) como en la explotación (consumo) hasta el momento

Las experiencias realizadas, tanto en la implementación (publicación) como en la explotación (consumo) hasta el momento han dejado algunas lecciones aprendidas que podríamos resumir en las siguientes expresiones:

Abrir los datos públicos existentes a terceros tiene un costo económico y organizacional; requiere de nuevas prácticas institucionales y cambios culturales, además de cierta capacidad informática para hacerlos de forma automática y segura. Especialmente la determinación -y posterior protección- de cuales datos son públicos y cuáles no, impacta fundamentalmente en el esfuerzo-costo de publicar. La apertura de datos no es un fin en sí mismo, su consumo si lo puede ser. La disponibilidad de los datos no garantiza su utilización, son necesarias acciones para promover su tratamiento. Una comunidad de usuarios interesados con acceso a los datos públicos puede ser una buena fuente de información para las administraciones sobre los intereses de la comunidad. Hay algunas evidencias de acciones innovadoras y generación de Valor Público para la sociedad a partir de la publicación de datos. Tanto la publicación como el consumo exigen hacerse cargo de lo realizado. La obtención de los datos, el procesamiento (relacionado, limpieza, estandarización, etc.) y la publicación exigen de un tratamiento profesional capaz de rendir cuentas sobre lo realizado, minimizando el riego de cometer errores y o de elaborar conclusiones falsa, erróneas o débiles.

El Open Data es novedoso y genera grandilocuentes adhesiones conceptuales, especialmente en el discurso político y en la consultoría asociada, lo cual lleva a una importante borrosidad del término e ignora las particularidades de su operacionalización. Como todo cambio origina detractores sin que - por ahora- aparezcan oposiciones conceptuales significativas, siempre que se respeten las respectivas leyes de protección. Pero, será el tiempo y los avances los que confirmarán, rechazarán o nos sorprenderá con sus reales efectos e implicaciones. Lo que no hay que olvidar, es que las discusiones conceptuales, políticas y jurídicas son en general mucho más fáciles de enunciar que de llevar a la práctica y es preciso considerar los tiempos de implementación y considerar un análisis serio de sus efectos para mitigar los no deseados y potenciar los beneficiosos. Como en toda implementación significativa, un buen consejo sería tener muy claras metas ambiciosas de largo plazo y avanzar hacia estas con pasos cortos, seguros y continuos. Y, principalmente, no olvidar que la Publicación de Datos es un medio para conseguir Consumo y no un fin en sí mismo.

Implementando la Publicación de Datos Comencemos el análisis de la Implementación de la Publicación de Datos

Implementando la Publicación de Datos

Comencemos el análisis de la Implementación de la Publicación de Datos con dos ejercicios simples de procesos institucionales de gestión de información. Análisis de casos Hay mucha bibliografía sobre cómo debe ser la publicación de datos y muchas exigencias que sobre este tema se discuten, tratemos ahora de hacer un ejercicio que nos permita pensar más en la implementación y percibir los detalles y la complejidad que esto genera. Hay datos sobre los cuales son relativamente fáciles de resolver si son publicables o no, por ejemplo: el resultado de censos o encuestas, estadísticas, presupuestos y estados contables de los organismos, resultados de investigaciones ya publicados, etc.; son todos datos que salvo por algún tema muy específico son fácilmente publicables y difícilmente haya oposiciones. Otros pueden ser un poco más difíciles de resolver porque requieren de un análisis específico sobre la posibilidad de publicación.

Veamos este caso gestión de documentos

Por ejemplo en cualquier organismo público existen una serie de documentos que luego de algún tratamiento pasan por una etapa de formalización claramente establecida, tanto para normas generales como para normativas internas. Estos procesos de formalización convierten a los documentos en resoluciones, decretos, dictámenes, ordenanzas, etc., que reciben una variedad de nombres dependiendo del nivel que tiene y de cada sistema administrativo. Salvo casos específicos donde el contenido del documento este protegido por algún tipo de secreto, todos los demás documentos formalizados deberían ser publicados y abiertos a la sociedad.

Desde el punto de vista operativo, cualquier organismo razonablemente informatizado debería tener digitalizado el proceso de elaboración de estos documentos y su versión formalizada debería estar publicado en una Intranet. Es probable también, que aquellos que el organismo considere con algún nivel de secreto, ya esté protegida su publicación en la red Interna. Por lo tanto, en estos casos los documentos publicados internamente deberían ser publicados también en forma externa.

La situación parece simple pero se deberían aplicar algunas consideraciones:

Los documentos deben estar digitales y ser parte de un sistema de workflow o tracking que permita su fácil identificación y tratamiento. De no ser así, el tratamiento para lograr su publicación sería artesanal y poco sustentable.

 Es necesario poder distinguir automáticamente entre los documentos públicos y los que no lo son.

Es necesario poder distinguir automáticamente entre los documentos públicos y los que no lo son. Por lo tanto, el sistema de gestión debería gestionar algún tipo de reglas o permisos que permitan tal clasificación.

Salvo que el organismo cuente con algún proceso de formalización digital, basado en firma electrónica por ejemplo, la publicación tradicional exigiría que la versión final del documento se imprimiera en papel, se firmara y sellara manualmente y luego se digitalizara para poder publicarlo. Para cumplir con los principios, esta versión digitalizada debería estar acompañada por su correspondiente versión digital editable, por lo menos para el contenido. Lo cual implica administrar el flujo de los documentos para poder asegurar que ambos contenidos coinciden. En un entorno más sofisticado se podría implementar el documento firmado digitalmente. Habría que resolver en este caso, quién en nombre del organismo, es el responsable de firmarlo.

Cuando los documentos se gestionan en una Intranet se tienen en cuenta una serie de condiciones propias del entorno (acceso por empleados autenticados, con compromisos contractuales, con normas de seguridad, etc.) que no se cumplen en un sitio público. Habría que verificar como afecta el cambio de estas condiciones a la gestión de Intranet.

Caso 2. La gestión de recursos humanos

Concentrémonos ahora, para acotar el análisis, en los datos producidos por los sistemas de información para la gestión de los organismos públicos normalmente persistidos en una base de datos. La primera consideración en conocer con certeza cuales datos son públicos y cuáles no. En principio, los datos pueden ser clasificados de tres formas según su nivel de publicación:

  • 1. Públicos: los que pueden ser accedidos por cualquiera sin ningún tipo de restricción.

  • 2. Irrestrictos: lo que podría requerir justificar pertinencia de acceso, se podrían entregar a cualquier que los requiriera siempre que se identificara y pudiera en el caso de que se le requiérese- justificar el por qué de la solicitud.

  • 3. Restringidos: son aquellos para los cuales existe una regla o trámite administrativo (basados en alguna normativa) que limita su acceso y permite discernir a quienes se les puede entregar y quienes no.

Para ejemplificar, consideremos para el análisis el Sistema de Gestión de Recursos Humanos (HRIS) de un organismo cualquiera. En principio, este sistema representa parte del funcionamiento del estado y es mantenido por recursos públicos, por lo tanto estaría bajo el mandato de ser publicados para asegurar la transparencia.

En términos generales, estos sistemas administran 3 grandes entidades de datos:  La estructura organizativa con

En términos generales, estos sistemas administran 3 grandes entidades de datos:

La estructura organizativa con posiciones (puestos de trabajo), perfiles, competencias

necesarias, carrera, etc. Los empleados con datos básicos de las personas y detallados de experiencia laboral y

competencias.

La relación laboral entre las personas y la estructura organizativa. Los salarios.

Estas entidades suelen contener los datos históricos, presentes y probablemente proyecciones de futuros cambios. La ubicación de los datos salariales depende del sistema de remuneraciones pero en general están en el tercer grupo.

Entonces: ¿cómo se publican estos datos? Veamos algunos pasos simples para empezar asumiendo que todos los datos que administra el sistema son públicos.

Un primer proceso de pre-publicación debería realizar lo siguiente:

  • 1. Cumpliendo con los principios de compleción, fuente primaria y “procesabilidad”, una forma básica de publicación sería exportar todas las tablas 2 a un formato estándar (un XML por ejemplo) y publicar el conjunto de las mismas.

  • 2. Para cumplir con el principio de documentación se deberá agregar toda la meta-información pertinente: diagramas de entidad relación, diccionario de datos, etc.

  • 3. Generar un ZIP con todos los documentos y asignarle una URL con la fecha.

  • 4. Firmar digitalmente todo el paquete.

  • 5. Para cumplir con el principio de permanencia, la publicación se podría hacer periódicamente, en forma mensual por ejemplo.

Además de mantener un mínimo de documentación de la base de datos, habría que agregar un proceso automático de ejecución periódica para que realice el proceso anterior. Hasta aquí no hay mayores problemas. El proceso es relativamente simple y sólo requiere algún tiempo de procesamiento y lugar de almacenamiento que dependerán fuertemente de la cantidad de datos, que serán dependientes de la cantidad de empleados y de los años de historia. Se podría complicar un poco procesamiento para no usar tanto almacenamiento generando una copia base -la primera de cada año calendario por ejemplo- y las restantes sólo como una actualización de la anterior, filtrando solo los datos (filas de las tablas en realidad) que han sido modificadas o agregadas. Los cual también complica el proceso de reconstrucción. El proceso

2 Se debe tener en cuenta que un sistema complejo de gestión de recursos humanos puede utilizar más de 1000 tablas normalizadas para su funcionamiento.

también debe considerar otros aspectos, por ejemplo: filtrar datos resultantes de transacciones no completadas o no

también debe considerar otros aspectos, por ejemplo: filtrar datos resultantes de transacciones no completadas o no confirmadas.

Hasta aquí sólo tenemos costos de procesamiento y almacenamiento para cumplir con las demandas de publicación, siempre que partamos del supuesto que todos los datos son públicos. Sin embargo, varios datos de un HRIS pueden estar protegidos por diferentes leyes en cada país. Por ejemplo, los sueldos de cada empleado no político, su grupo familiar, su domicilio, su historia de ausencias por salud, su historia de ausencias por causas religiosas, todo lo relacionado a los postulantes a una posición, las evaluaciones de desempeño, etc. Algunos de éstos podrían ser irrestrictos o restringidos dependiendo de la normativa vigente. Para publicar estos datos sin violar la ley se requiere administrar reglas que permitan identificar, filtrar y restringir la publicación o el acceso a los datos protegidos. Esto implica administrar un conjunto de reglas variables para gran cantidad de entidades de datos, atributos y tablas y requiere de la existencia de un sistema de gestión de reglas de protección de datos que puedan ser interpretadas y aplicadas por el proceso de publicación. Tarea no menor por cierto.

El proceso de pre-publicación ya no sería una simple exportación en formato XML, sino que debería interpretar las reglas y aplicarlas para filtrar columnas y filas de las tablas manteniendo la integridad referencial. Por lo que el proceso de complicaría más, además del esfuerzo de gestionar las reglas. Hay que considerar además que la existencia de datos irrestrictos y restringidos requiere de la administración y operación de un sistema de gestión de identidades que permita identificar, registra, autenticar y autorizar usuarios; lo que requerirá un esfuerzo importante de gestión de usuarios externos. Además para asegurar el no repudio de la consulta se deberá disponer de mecanismos de persistencia de los accesos, que habrá que decidir por cuánto tiempo deben mantenerse.

Adicionalmente, para cumplir con el principio de interoperabilidad, es probable que sea necesario traducir códigos internos del sistema en códigos estandarizados para su publicación. Por ejemplo, si el sistema de gestión de recursos humanos utiliza un número interno de legajo para identificar a las personas, deberá traducirlo a la identificación de personas de uso nacional (un Documento Nacional de Identidad, por ejemplo); si utiliza tablas propias para identificar direcciones postales o localidades, deberá traducirlas a los estándares; y así siguiendo con todos los datos que estén bajo los esquemas de interoperabilidad. Por lo tanto, el proceso de pre-publicación deberá complicarse mucho más para hacer esta traducción, además de mantener las tablas de traducción correspondientes.

Finalmente, el proceso de pre-publicación debería estar bajo la responsabilidad del área de sistemas, pero la gestión de las reglas sobre el área de negocio- administradora de los datos, en este caso, el

departamento de personal, por ejemplo. Alguien debería verificar la calidad del proceso y el cumplimiento de

departamento de personal, por ejemplo. Alguien debería verificar la calidad del proceso y el cumplimiento de las reglas de seguridad y privacidad, para asegurar que no se filtraron datos no publicables. Por lo tanto si, cumpliéramos con las buenas prácticas de gestión de procesos, el archivo a publicar debería ser firmado digitalmente por el CIO y por el CHRO 3 por lo menos; quienes deberían confiar en la buena calidad de los datos gestionados por todas las partes involucradas en el uso del sistema.

Por lo tanto, el proceso de publicación no es tan simple cuando hay datos irrestrictos o restringidos. Dista mucho de ser un problema informático, requiere de cambios en los procesos de negocio. Tampoco es gratuito, ya que requiere desarrollar procesos, ejecutarlos y persistir una gran cantidad de datos redundantes. También requiere de muy buenas prácticas de gestión informática que permitan publicar datos de gestión con riesgo muy bajo. Por lo tanto, agregar la etapa de publicación de datos en un proceso básico de gestión organizacional, requiere de cierta capacidad institucional para realizarlo.

Variables analíticas para la Publicación de Datos

Muchas de las demandas conceptuales o legales sobre la transparencia del accionar del sector público se pueden transformar en variables que los organismos deben atender -como un conjunto- para asegurar

su cumplimiento. Como veremos más adelante, estas variables no son “todo o nada” sino que se puede

determinar para cada una de ellas un gradiente de costo-valor que puede remontarse paulatinamente.

Nivel de apertura

El espíritu es maximizar la disponibilidad de información del sector público para su uso y reutilización, basado en la presunción de la transparencia como la regla por defecto al facilitar el acceso y la reutilización. El desarrollo de un régimen de los principios de acceso, asumiendo la apertura de la información del sector público es una regla predeterminada, sin importar el modelo de financiación del desarrollo y del mantenimiento de la información. Se debe minimizar el uso de motivos de denegación total o parcial, por protección de los intereses de seguridad nacional, privacidad personal, preservación de intereses privados y la utilización de derechos de autor, patentes o la aplicación de legislaciones restrictivas de acceso. Y, en el caso de utilizarlos, los mismos deben ser explícitamente transparentados.

3 Responsable de Sistemas y de Recursos Humanos respectivamente.

Nivel de sistematización del proceso El objetivo de la publicación es que sea sistemática y continua

Nivel de sistematización del proceso

El objetivo de la publicación es que sea sistemática y continua y no artesanal y discrecional, por lo tanto la etapa de publicación debe ser considerada en todos los procesos organizacionales e implementada en aquellos que la amerite. Esto requiere gestionar eficientemente los procesos organizacionales más la capacidad de ampliar incluyendo la publicación y todos sus requerimientos específicos.

Utilización de estándares

Los datos no deberían publicase de cualquier forma, se debe hacer de forma que tenga las menores restricciones posibles para su explotación. Por lo tanto, se deberían evitar formatos privativos o que requieran de recursos privativos o pagos para su tratamiento. La utilización de estándares abiertos también suele facilitar el trabajo de publicación ya que suelen publicarse además gran variedad de herramientas para su tratamiento que mejoradas continuamente gracias al aporte de los usuarios.

Oportunidad de la publicación

Para cada entidad de datos habrá que establecer el ritmo o la periodicidad de publicación razonable en función de lógica de actualización propia del negocio y a un equilibrio en los costos de publicación.

Acceso y condiciones de transparencia para su reutilización

Se debe fomentar el acceso amplio y no discriminatorio, eliminando acuerdos de exclusividad y barreras o restricciones sobre las formas en que se puede acceder, utilizar, volver a utilizarse, etc., de tal forma que toda información accesible quede abierta para ser reutilizable por todos.

Registro de entidades publicadas

No solo se deben publicar las entidades correspondientes sino que se debe informar de forma fehaciente su existencia, su publicación y demás información relevante. Esto puede hacerse por cada organización o sector, pero idealmente se debería manejar un reservorio único donde pudiera accederse a toda la información publicada por una administración.

Calidad

Para cada entidad se deben explicitar los parámetros de calidad aplicados en la recolección, procesamiento y resguardo. Los datos se deben entregar con la misma calidad con que son utilizados en el organismo que los gestiona. La cooperación entre los diversos organismos involucrados en la creación, colección, procesamiento, almacenamiento y la distribución de la información del sector público, es un

factor fundamental para mejorar la calidad, que debe ser utilizado lo más posible para evitar inconsistencias

factor fundamental para mejorar la calidad, que debe ser utilizado lo más posible para evitar inconsistencias entre las publicaciones individuales de dos o más organismos.

Integridad

Se debe establecer las salvaguardias adecuadas para proteger la información de modificaciones no autorizadas o de la negación deliberada o involuntaria de acceso autorizado a la información.

Preservación

Atendiendo la obsolescencia tecnológica y los desafíos de largo plazo de preservación de los datos, se deben encontrar formas para mantener las entidades publicadas utilizables en el tiempo, esquivando prácticas de mercado que fomentan la obsolescencia.

Derechos de Autor

Los derechos de propiedad intelectual deben ser respetados, pero se debe asegurar que existan los acuerdos correspondientes para que la información gestionada por el sector público esté libre de copyright. Se debe fomentar el ejercicio de los derechos de autor de manera que facilite reutilización (incluida la supresión de los derechos de autor y la creación de mecanismos que faciliten exención de derechos de autor cuando los dueños del copyright están dispuestos y sean capaces de hacerlo) y, donde los titulares de derechos de autor estén de acuerdo, el desarrollo de mecanismos sencillos para promover un mayor acceso y uso.

Precios

Dependiendo de la normativa vigente, los datos administrados por el sector público pueden tener algún costo. Normalmente, los costos con cargo al usuario que no deben exceder los costos marginales de mantenimiento y distribución y, en casos especiales costos adicionales, por ejemplo de digitalización. Las estrategias de precios de los datos deberían terne en cuenta consideraciones de competencia entre las empresas que ofrecen servicios de valor añadido. Deben perseguir la neutralidad, la igualdad y la oportunidad de acceso y tener en cuenta la posibilidad de subvenciones cruzadas de otras actividades del gobierno.

Mecanismos de atención

Como todo servicio, la publicación debe tener asociados mecanismos de atención de usuarios que asistan a su explotación al igual que disponer de accesos simples para cuando existan quejas o procesos de apelación ante los datos publicados.

Las asociaciones público-privadas Facilitar la colaboración público-privada cuando sea apropiado y viable en la toma de

Las asociaciones público-privadas

Facilitar la colaboración público-privada cuando sea apropiado y viable en la toma de información del sector público disponibles, por ejemplo, encontrar formas creativas de financiar los costos de digitalización, mientras que el aumento del acceso y la reutilización de los derechos de terceros.

El acceso internacional

El acceso diferenciado o no a usuarios no nacionales es un tema delicado. Se debería buscar la mayor coherencia en el acceso internacional en apoyo a la cooperación para la reutilización comercial o no comercial. En estos casos es necesario considerar el ejercicio de la interoperabilidad para facilitar el intercambio y la comparación con bases de datos internacionales.

Hacia un modelo de madurez

Como todo proceso complejo, la implementación de la publicación sistemática de datos no puede hacerse de un día para otro. La generación de las capacidades institucionales para realizarla correctamente, asegurando una buena ecuación entre servicio y costo, debe hacerse en forma gradual e incremental. Para este tipo de situaciones es útil utilizar Modelos de Madurez como es habitual en tantas disciplinas

relacionadas a la gestión tecnología 4 . No es pretensión de

este documento armar un Modelo de

Madurez para la Publicación de Datos, solamente se expondrán las principales dimensiones y variables

analíticas necesarias para la descripción de fenómeno utilizando dicha matriz de pensamiento. Inicialmente podemos definir las siguientes variables:

  • 1. Sistematización del proceso

  • 2. Nivel de apertura

  • 3. Utilización de estándares

  • 4. Oportunidad

  • 5. Accesibilidad

  • 6. Calidad

4 Véase por ejemplo Poggi (2008) una aplicación de Modelos de Madurez para la interopearbilidad.

Niveles 1 2 3 4 5 Variables Inicial Administrado Definido Medido Optimizado Sistematizació Datos Proceso de

Niveles

1

2

3

4

5

Variables

Inicial

Administrado

Definido

Medido

Optimizado

Sistematizació

Datos

Proceso de

Proceso de captura

Proceso de

Proceso de

n del proceso

recopilados

recopilación

sistematizado con

captura y

captura,

artesanalmente

automático con

verificación y

verificación

verificación y

y publicados

procesos

publicación manual.

sistematizado con

publicación

con uso

manuales para su

publicación

sistematizado

intensivo de mano de obra.

formateo, selección, verificación y publicación.

manual.

según un proceso formalmente establecido.

Nivel de

Entidad

Entidad para uso

Entidad de uso

Entidad libre de

Entidad que solo

apertura

protegida por

privado.

público no

uso comercial.

requiere

Copyright que

comercial.

reconocimiento

restringe su

Se permite su

para fines

de fuente.

utilización.

reuso sin

Requiere de

aprobación solo

proceso manual

privados no

de solicitud / autorización para su acceso o uso.

comerciales.

Estándares

Estándares

Estándares

Estándares abiertos

Estándares

Estándares

utilizados

cerrados o

abiertos.

y documentados

abiertos con

abiertos con

ausentes.

metadata.

metadata y

Entidad

Entidades

publicadas con

Las entidades se publican con

Las entidades se

el contenido

material

descriptivo

publicada con

estándares

estándares abiertos

publican con

estándares o

abiertos como

y con información

estándares

Las entidades se

especificacione

archivos

descriptiva sobre el

abiertos y con

publican con

s propietarios.

individuales.

contenido.

información

estándares

(doc, xls)

(csv, txt, odb, odt, ods, etc.)

(csv, odb, odt, ods + información

descriptiva sobre

procesable.

abiertos y con información descriptiva sobre

adicional como tamaño, tipo de dato, rango de valores, cantidad de registros, etc.)

(open API, URI, rdf sin información adicional)

el contenido procesable y con información adicional.

(rdf con

información

adicional)

Niveles 1 2 3 4 5 Variables Inicial Administrado Definido Medido Optimizado Oportunidad Publicación Publicación a

Niveles

1

2

3

4

5

Variables

Inicial

Administrado

Definido

Medido

Optimizado

Oportunidad

Publicación

Publicación a

Publicación

Publicación

Acorde a la

solo por

pedido.

discrecional.

periódica.

natural

 

demanda

actualización de

formal.

la entidad y/o con períodos de actualización claramente establecidos.

Accesibilidad

Solo disponible por requerimient o específico y manual.

Disponible en Web con acceso restringido.

Disponible en Web pero requiere de cierta elaboración o procesamiento para completar la entidad.

Disponible en Web pero requiere de cierta elaboración o procesamiento para completar la entidad. Se deben diferenciar por la fecha de actualización.

Disponible por API documentada o algún otro lenguaje de consulta apropiado.

Desafíos organizacionales

De las variables anteriormente mencionadas se puede deducir que la puesta en práctica de la publicación de datos en los organismos públicos presenta una serie de desafíos a nivel de cada institución como de la propia administración que los contiene. Solo a modo demostrativo podemos presentar algunas de las más importantes:

Cambiar la cultural organizacional

El tradicional aislamiento y opacidad de los organismos públicos debe ser roto, tanto para relacionarse con los demás como para transparentar su accionar. La particular resistencia a abrir los datos utilizados en la gestión, ya sea por sensación de poder, vergüenza o desidia, debe ser cambiada y esto afecta a los aspectos más básicos de las culturas organizacionales.

Asegurar la calidad de los datos

Los organismos gestionan la calidad de sus datos en función de sus propias necesidades y capacidades. Al publicar y compartir estos datos, las necesidades de calidad y actualización pueden cambiar significativamente. Por lo tanto, es preciso articular los medios para una gestión creciente de calidad, la que impacta en todos los planos de la gestión organizacional.

Gestión

La publicación no puede quedar atada a la disponibilidad presupuestaria coyuntural, sino que debe ser asumida como actividad organizacional básica.

presupuestaria

Por lo tanto se deben hacer las previsiones presupuestarias necesarias para que las actividades relacionadas no queden expuestas al vaivén de los ciclos económicos.

Aumento del interés público La responsabilidad de los organismos no termina con la publicación, sino que

Aumento del interés público

La responsabilidad de los organismos no termina con la publicación, sino que deben hacerse cargo del servicio posterior de consumo y explotación de los mismos, siendo ellos mismos publicitadores de su existencia.

Equilibrio entre control y efectividad

Como todo proceso sujeto a controles de calidad y seguridad, la publicación de datos tendrá su punto de equilibrio donde la suma de los costos se minimiza. Buscar este punto es fundamental para evitar la sobre exigencia de capacidad institucional para temas que no lo ameritan.

Asegurar la rendición de cuentas

La Publicación, como todo servicio debe tener su correspondiente nivel de servicio y asistencia al usuario externo. Los procesos no se terminan cuando los datos salen de la frontera sino que las instituciones deben hacerse caso de lo producido y atender las inquietudes, necesidades y reclamos que esto genere.

Gestionar la

La Publicación exige de procesos institucionales y de sistemas de información para su

infraestructura

gestión, estos a su vez se apoyan en infraestructura tecnológica que debe estar

tecnológica

adecuada en tiempo y forma a las necesidades.

Garantizar la

La seguridad de los datos es un proceso trasversal a todos los demás e impacta sobre

seguridad

toda la organización y no solo sobre el área de TI. La seguridad en su visión más amplia debe ser entendida como parte esencial de proceso de Publicación de datos tanto en sus características específicas como generales.

Mantenimiento de

Al igual que todo el quehacer institucional público, la Publicación debe ir

normativas

acompañada por un ajuste normativo que le de seguridad y legitimidad. Por lo tanto, las instituciones deberán acomodar sus normativas internas y las administraciones deberán a su vez realizar los ajustes pertinentes para las normativas generales.

Recomendaciones

Para la implementación de todo proceso que afecte significativamente la operatoria de las organizaciones en todos sus planos, se pueden realizar algunas recomendaciones generales, como las que se presentan a continuación:

Utilizar un enfoque de implementación por fases

No es sensato pensar que todos los cambios se pueden hacer de un momento para otro, ni esperar obtener todas las capacidades institucionales para hacerlo. Por lo tanto, usando instrumentos tipo Modelo de Madurez, se deben ir planificando las actividades relacionadas a la publicación en forma incremental y permanente.

Considerar la

Hacer aproximaciones preliminares en procesos y entidades de complejidad razonable

realización de

suele ser una buena estrategia para ir haciendo experiencia e ir adquiriendo de a poco la

proyectos piloto.

capacidad institucional.

Asegurar los recursos necesarios

Las previsiones presupuestarias y de los demás recursos se deben ir asegurando con el tiempo para evitar faltantes que amenacen retroceder en los avances logrados.

Dar prioridad a la utilización de la regla

Seleccionar las entidades centrales que hacen al quehacer de la organización y no

80/20

perderse en detalles de poco interés.

Alinear las iniciativas de gobierno abierto con los objetivos del organismo Incluir las iniciativas estratégicas relacionadas

Alinear las iniciativas de gobierno abierto con los objetivos del organismo

Incluir las iniciativas estratégicas relacionadas al OD en los planes estratégicos de la organización evitando que sean medidas aisladas o parciales.

Establecer mecanismos de gobernanza para el intercambio de datos

La gestión de datos, espacialmente cuando se exterioriza, debe quedar bajo control del organismo. No pueden permitirse fugas o debilidades que atenten contra los recursos organizacionales o la seguridad y la privacidad.

Trabajar en el cambio cultural

Las personas, como parte central del quehacer organizacional, deben ser capacitadas e inducidas a apropiar la publicación, en paralelo o anticipadamente a los cambios organizacionales.

Hacer público el compromiso

Explicitar y transparentar las acciones, los logros y los planes relacionados a la Publicación. Como mecanismo de transparencia, como estímulo y para evitar demandas excesivas.

Institucionalizar

Evitar la discrecionalidad apuntando a incardinar los cambios en la organización, rearmando los procesos, formando a las personas, ajustando las normativas y los mecanismos de control.

Apropiar la tecnología adecuada

Sin la tecnología adecuada no se pueden hacer estos cambios significativos salvo en escalas muy reducidas o a costos muy altos. Por lo tanto la informatización institucional y la apropiación de tecnología específica debe ser parte del proceso de cambio.

Coordinar las

La integración de la organización al resto de la administración y a la sociedad, a través del flujo de información es un objetivo central de la Publicación de datos. Se deben evitar la

organizaciones

simple publicación para cumplir con los requisitos a favor de que esta sea un vínculo de la organización con el exterior.

Desarrollar

A nivel de la Administración se debe aprovechar la creación de comunidades de práctica

comunidades de

con los involucrados en las tareas propias de la Publicación en los distintos organismos,

práctica

aprovechando el conocimiento colectivo.

Desarrollar y comunicar una estrategia de todo el gobierno

También a nivel Administración se debe desarrollar y comunicar el plan común a todos los organismos, asumiendo los compromisos y explicitando los logros y los problemas.

 

Conclusiones y reflexiones

Existen varias tensiones en ciertos aspectos de la implementación de la Publicación de Datos, por ejemplo: ¿los datos deben publicarse como un repositorio plano o interpretado? A muchas autoridades les gusta más la segunda opción ya que existe "temor de las interpretaciones de terceros", argumento que se ha escuchado en varias oportunidades; ¿qué pasa si de una determinada base de datos se sacan conclusiones sin el contexto? Por lo tanto se plantea que debe existir la "interpretación oficial", si bien es relevante dicha interpretación es relevante que exista la posibilidad de procesamiento independiente de la data, desde su fuente primaria.

Otro tema difícil es la gestión de la metadata: ¿qué tipo de marcas y qué documentación

Otro tema difícil es la gestión de la metadata: ¿qué tipo de marcas y qué documentación se van a elaborar y publicar junto con los datos? Ambas tareas que requieren de un esfuerzo importante y que además se irá depurando en el tiempo. Es importante destacar que este es un proceso continuo y no coyuntural. La experiencia del data.gov ha dejado algunas enseñanzas:

Focalizarse en el acceso: la plataforma de publicación debe permitir un acceso lo más cerca a la fuente original posible, incluso plantea que los datos residan en las instituciones generadoras.

Plataforma abierta: debe permitir no sólo la descarga sino además la interacción vía API (del inglés: Application Programming Interface) u otros instrumentos semejantes.

Datos desagregados al máximo nivel posible: sin que se entre en atentar contra la privacidad y los datos personales de los individuos.

Retroalimentación: crecimiento y mejoramiento por la vía del aporte de los usuarios.

Hacerse cargo: las agencias que publican deben hacerse responsables de la caducidad y la privacidad de los datos, sin recargar a los consumidores en temas que son de incumbencia estatal. Estandarizar: apropiar buenas prácticas en temas de publicación de datos y gestión de información

Implementando el Consumo de Datos

Como contrapartida de la Publicación de Datos Públicos debe estar el Consumo de los mismos, más como fin que como consecuencia, ya que la publicación toma sentido cuando esta es consumida. Análogamente a la Publicación, el Consumo de datos presenta también un abanico de formas de realizarse y una serie de etapas que debieran cumplirse. En los últimos años se ha ido formando una disciplina denominada Data Driven Journalism o Periodismo de Datos que su evolución le está dando forma como disciplina al tratamiento de datos públicos.

El párrafo anterior no debe interpretarse como que sólo el periodismo especializado deba consumir los datos

El párrafo anterior no debe interpretarse como que sólo el periodismo especializado deba consumir los datos públicos, sino que la forma que hoy por hoy se presenta como correcta a la hora de hacerlo es la que se va estableciendo bajo esta disciplina. Existen muchos ejemplos de investigadores o empresas que utilizan datos públicos para llevar a cabo sus actividades; generando conocimiento unos; agregando valor a sus productos los otros. El análisis de otras formas sistemáticas de consumo de datos públicos queda por fuera del alcance de este texto pero por falta de tiempo y espacio, no de interés.

El Data Journalism o Periodismo de Datos

Presentamos a continuación las principales característica del Periodismo de Datos como disciplina asociada al consumo de datos públicos.

El periodismo de datos es la explotación de datos en formatos más o menos estructurados para la elaboración de noticias o información. Se considera el trabajo pionero de esta especialidad el de Adrian Holovaty y sus mapas de la delincuencia de Chicago que fue uno de los primeros mashups de Google Maps desarrollado.

El periodismo de datos es una nueva forma de contar historias basadas en el tratamiento de datos públicos y en una efectiva visualización de los resultados obtenidos.

Así como para el periodista tradicional el componente básico es el artículo que contiene una narración; en el periodismo de datos la narración verbal es secundaria, el relato central es construido en torno a los elementos gramaticales que pertenecen al léxico visual. Este es un uso que se suma a otras formas de periodismo de conceptualizar y visualizar la información.

Un ejemplo clásico en la agenda del Presidente Obama, desarrollado por el Washington Post que muestra la importancia de las cuestiones a abordar por el presidente durante sus viajes, como se ve en la siguiente imagen:

Imagen: ejemplo de visualización, agenda del presidente Obama Fuente: <a href=www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/ Este es un claro ejemplo de procesamiento de datos públicos: la obtención de los datos de distintas fuentes, el procesamiento, la elaboración de la presentación visual y su publicación. De alguna manera, el consumo de datos públicos, sea hecho por periodistas o no, atraviesa estas etapas, pero con ciertos requisitos, como veremos más adelante. Las tecnologías de la información digitalizada y la Web están cambiando fundamentalmente la forma de la información se publica. El periodismo de datos es una parte del ecosistema de herramientas y prácticas que han surgido alrededor de los sitios y servicios de datos. Aprovechando el relacionamiento de materiales de base que está en la naturaleza misma de la estructura de la Web con sus enlaces; de la misma forma en que estamos acostumbrados a navegar por la información hoy en día. Yendo más atrás, el principio que se encuentra en la base de la estructura de hipervínculos de la Web es el principio de la cita utilizada en trabajos académicos. Citando y compartiendo los materiales básicos y los datos detrás de la historia es una de las formas básicas en que el periodismo de datos puede mejorarse así mismo. 19 ipap.gba.gob.ar " id="pdf-obj-18-3" src="pdf-obj-18-3.jpg">
Imagen: ejemplo de visualización, agenda del presidente Obama Fuente: <a href=www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/ Este es un claro ejemplo de procesamiento de datos públicos: la obtención de los datos de distintas fuentes, el procesamiento, la elaboración de la presentación visual y su publicación. De alguna manera, el consumo de datos públicos, sea hecho por periodistas o no, atraviesa estas etapas, pero con ciertos requisitos, como veremos más adelante. Las tecnologías de la información digitalizada y la Web están cambiando fundamentalmente la forma de la información se publica. El periodismo de datos es una parte del ecosistema de herramientas y prácticas que han surgido alrededor de los sitios y servicios de datos. Aprovechando el relacionamiento de materiales de base que está en la naturaleza misma de la estructura de la Web con sus enlaces; de la misma forma en que estamos acostumbrados a navegar por la información hoy en día. Yendo más atrás, el principio que se encuentra en la base de la estructura de hipervínculos de la Web es el principio de la cita utilizada en trabajos académicos. Citando y compartiendo los materiales básicos y los datos detrás de la historia es una de las formas básicas en que el periodismo de datos puede mejorarse así mismo. 19 ipap.gba.gob.ar " id="pdf-obj-18-5" src="pdf-obj-18-5.jpg">

Imagen: ejemplo de visualización, agenda del presidente Obama Fuente: www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/

Este es un claro ejemplo de procesamiento de datos públicos: la obtención de los datos de distintas fuentes, el procesamiento, la elaboración de la presentación visual y su publicación. De alguna manera, el consumo de datos públicos, sea hecho por periodistas o no, atraviesa estas etapas, pero con ciertos requisitos, como veremos más adelante.

Las tecnologías de la información digitalizada y la Web están cambiando fundamentalmente la forma de la información se publica. El periodismo de datos es una parte del ecosistema de herramientas y prácticas que han surgido alrededor de los sitios y servicios de datos. Aprovechando el relacionamiento de materiales de base que está en la naturaleza misma de la estructura de la Web con sus enlaces; de la misma forma en que estamos acostumbrados a navegar por la información hoy en día. Yendo más atrás, el principio que se encuentra en la base de la estructura de hipervínculos de la Web es el principio de la cita utilizada en trabajos académicos. Citando y compartiendo los materiales básicos y los datos detrás de la historia es una de las formas básicas en que el periodismo de datos puede mejorarse así mismo.

Permitir profundizar en las fuentes de datos y encontrar información relevante para verificar las afirmaciones y

Permitir profundizar en las fuentes de datos y encontrar información relevante para verificar las afirmaciones y suposiciones recibidas, es un verdadero desafío. El periodismo de datos representa efectivamente la democratización masiva de recursos, herramientas, técnicas y metodologías que se utilizaron anteriormente por especialistas como científicos sociales, estadísticos, analistas y otros expertos. Mientras que en la actualidad nos estamos moviendo hacia un mundo en el que los datos se integran perfectamente en el tejido de los medios de comunicación. Los periodistas de datos tienen un papel importante para ayudar a reducir las barreras a la comprensión y el interrogatorio de los datos y el aumento de la alfabetización de los datos de sus lectores en una escala masiva.

El valor de una imagen que permita dar luz sobre un tema determinado se logra gracias al procesamiento de datos disponibles. La riqueza en general estará dada por:

La recopilación y el relacionamiento de diversas fuentes de datos no relacionados previamente.

El procesamiento de los datos de una forma que permita sintetizarlos (deductivamente) o generalizarlos (inductivamente) y que de alguna manera explicite algo que antes no estaba explícito.

La visualización adecuada que permita que esta información “penetre” en el usuario de una manera física, sensorial y hasta irracional.

Estas tareas relacionadas al consumo de datos tienen ciertas consideraciones no triviales:

Difícilmente las pueda realizar una sola persona, dada la variedad de capacidades que requiere seguramente debe ser desarrollada por un equipo. Ciencias de la computación, Data Mining, Estadística, Diseño Gráfico y Visualización, Periodismo; son solo las principales especialidades profesionales necesarias para lograrlo.

Difícilmente se puede obviar alguna, el natural desarrollo requiere del aporte de cada una de las etapas para lograr un resultado interesante.

La secuencia no es lineal, las etapas propuestas no se encadenan secuencialmente uniendo el fin de una con el inicio de la otra. Se superponen, se cruzan y se reordenan hasta encontrar o no- el camino correcto.

No son triviales ya que cada una requiere de cierta rigurosidad, como lo exigen los trabajos periodísticos o académicos serios.

Bajo el concepto de Data Journalism se ha ido estableciendo una metodología para este tipo dewww.datajournalismhandbook.org Analicemos un poco más profundamente cada una de las etapas necesarias que hacen al consumo de datos públicos. 21 ipap.gba.gob.ar " id="pdf-obj-20-3" src="pdf-obj-20-3.jpg">

Bajo el concepto de Data Journalism se ha ido estableciendo una metodología para este tipo de

actividades. Un “manual” incipiente se ha publicado en Internet, cuya síntesis se muestra en la siguiente

imagen.

Bajo el concepto de Data Journalism se ha ido estableciendo una metodología para este tipo dewww.datajournalismhandbook.org Analicemos un poco más profundamente cada una de las etapas necesarias que hacen al consumo de datos públicos. 21 ipap.gba.gob.ar " id="pdf-obj-20-11" src="pdf-obj-20-11.jpg">

Imagen: El Periodismo de datos Fuente: www.datajournalismhandbook.org

Analicemos un poco más profundamente cada una de las etapas necesarias que hacen al consumo de datos públicos.

Obteniendo datos En primer lugar se necesitan algunos datos, por lo tanto, en esta sección analizamos

Obteniendo datos

En primer lugar se necesitan algunos datos, por lo tanto, en esta sección analizamos como se los puede y debe obtener. Nos enteramos en cómo encontrar los datos en la web, la forma en que se los puede solicitar mediante leyes de libertad de información, el uso de "screen scraping" para recopilar datos de fuentes no estructuradas y cómo usar el 'crowd-sourcing' para armar sus propias bases de datos a partir de aportes “comunitarios”. Es necesario además, tener en claro lo que diga la ley acerca a publicar datos y cómo utilizar las herramientas legales para que los demás los puedan reutilizar. Analicemos un poco más profundamente estos aspectos.

Podríamos considerar tres fuentes primarias de datos:

Datos publicados específicamente por alguna administración u organización: estas son las entidades de datos propias de los procesos de Publicación de Datos generalmente accesibles en sitios específicos (Portales de Datos) o en sitios institucionales. Datos obtenidos por solicitudes específicas: estos son datos entregados por una administración u organización a un solicitante por algún pedido específico que no son normalmente publicados. Datos recuperados de fuentes no específicas: por ejemplo los obtenidos por procesamiento de otras fuentes o capturados de consultas a páginas Web (es decir, publicados para ser “leídos” por personas pero no para ser procesados).

Es posible que para alguna investigación en particular se utilicen fuentes de datos de diferente tipo, ya que el relacionamiento y procesamiento de diferentes fuentes es lo que normalmente le da gran valor a la información generada.

Acerca de los portales de datos oficiales

En los últimos años ha aparecido una variedad de portales dedicados a la publicación de datos, normalmente es el mejor lugar para familiarizarse con los tipos de datos que existentes. Obviamente, estos datos están caracterizados por haber sido expresamente publicados por las administraciones u organizaciones que los gestionan.

Los portales de datos oficiales son la puerta de entrada al resultado de la disposición de los gobiernos de liberar un determinado conjunto de datos, que puede variar mucho de país a país o incluso en los niveles subnacionales dentro de un mismo país. Un número creciente de países están poniendo en marcha portales de datos (inspirado en data.gov de EEUU y data.gov.uk del Reino Unido) para promover la reutilización social y comercial de la información gubernamental. La situación de estos sitios se puede encontrar en datacatalogs.org.

También hay otros recursos impulsados por organizaciones civiles como thedatahub.org impulsado por la comunidad a cargowww.infochimps.com y datamarket.com . También puede visitarse codeforamerica.org , un lugar para subir, mejorar, compartir y visualizar sus datos. getthedata.org es un sitio donde se pueden hacer preguntas sobre datos relacionados, incluyendo dónde encontrar los datos relativos a un tema en particular, cómo consultar o recuperar una fuente de datos en particular, qué herramientas utilizar para explorar un conjunto de datos de una manera visual, la forma de limpieza de datos o ponerlo en un formato que pueda trabajar con ellos. Como toda disciplina en formación en esta década, el panorama cambia continuamente, surgiendo nuevas posibilidades y fuentes. La práctica y el ejercicio de la búsqueda permitirán ir encontrando las fuentes más adecuadas a los intereses de cada uno. Solicitudes específicas de información Dependerá de las leyes específicas de cada Estado, pero en los que exista normativa de publicación de datos, si usted cree que un órgano de gobierno tiene los datos que necesita, una solicitud de información invocando estos derechos puede ser una buena herramienta. No siempre los organismos “ocultan” datos intencionalmente, muchas veces no se publican simplemente porque no está previsto que se haga. En primer lugar se debería comprobar si los datos que se están buscando no estén ya disponibles. Sería interesante además poder verificar cual es el soporte natural de los datos solicitados: documentos papel, digitalizaciones o datos procesables. Se debe verificar además si no existe una tarifa para la obtención de los datos solicitados, esto debería estar claramente estipulado. Si se hace la solicitud, deben considerarse demoras importantes en las respuestas. Es importante conocer los derechos que se pueden ejercer antes de empezar, para saber a que atenerse y 23 ipap.gba.gob.ar " id="pdf-obj-22-3" src="pdf-obj-22-3.jpg">

También hay otros recursos impulsados por organizaciones civiles como thedatahub.org impulsado por la comunidad a cargo de la Open Knowledge Foundation que hace que sea fácil encontrar, compartir y reutilizar las fuentes disponibles de datos abiertos, especialmente en las formas aptas para un procesamiento directo

Los organismos multinacionales como el Banco Mundial y las Naciones Unidas proporcionan indicadores de alto nivel sobre portales de datos de muchos países, a menudo con varios años de historia. También surgen continuamente empresas u organizaciones que tienen por objeto la construcción de comunidades sobre el intercambio de datos. Puede visitarse, por ejemplo, buzzdata.com (un lugar para compartir y colaborar en las bases de datos públicas y privadas) o las tiendas de datos tales www.infochimps.com y datamarket.com. También puede visitarse codeforamerica.org, un lugar para subir, mejorar, compartir y visualizar sus datos.

getthedata.org es un sitio donde se pueden hacer preguntas sobre datos relacionados, incluyendo dónde encontrar los datos relativos a un tema en particular, cómo consultar o recuperar una fuente de datos en particular, qué herramientas utilizar para explorar un conjunto de datos de una manera visual, la forma de limpieza de datos o ponerlo en un formato que pueda trabajar con ellos. Como toda disciplina en formación en esta década, el panorama cambia continuamente, surgiendo nuevas posibilidades y fuentes. La práctica y el ejercicio de la búsqueda permitirán ir encontrando las fuentes más adecuadas a los intereses de cada uno.

Solicitudes específicas de información

Dependerá de las leyes específicas de cada Estado, pero en los que exista normativa de publicación de datos, si usted cree que un órgano de gobierno tiene los datos que necesita, una solicitud de información invocando estos derechos puede ser una buena herramienta.

No siempre los organismos “ocultan” datos intencionalmente, muchas veces no se publican simplemente

porque no está previsto que se haga. En primer lugar se debería comprobar si los datos que se están

buscando no estén ya disponibles. Sería interesante además poder verificar cual es el soporte natural de los datos solicitados: documentos papel, digitalizaciones o datos procesables. Se debe verificar además si no existe una tarifa para la obtención de los datos solicitados, esto debería estar claramente estipulado. Si se hace la solicitud, deben considerarse demoras importantes en las respuestas. Es importante conocer los derechos que se pueden ejercer antes de empezar, para saber a que atenerse y

cuáles son los de los poderes públicos. Puede que ciertos datos estén protegidos por leyes especiales

cuáles son los de los poderes públicos. Puede que ciertos datos estén protegidos por leyes especiales y, por lo tanto, las organizaciones están obligadas a no entregarlos. La mayoría de leyes de libertad de información proporcionan un límite de tiempo para las autoridades respondan. A nivel mundial, el rango en la mayoría de las leyes es de unos pocos días a un mes. Conocer el procedimiento que establece la ley de libertad de información es fundamental y en general es bueno hacer las solicitudes mencionando la norma que le da derecho a hacerlo. Es muy importante presentar las solicitudes de forma específica y lo menos ambigua posible. Esto es especialmente importante si se está planeando comparar los datos de diferentes fuentes. Cada fuente

deberá contener los datos “clave” que le permitan relacionarlos con los demás.

Hacer públicas las peticiones puede ser una buena forma de acelerar las respuestas. El conocimiento público de la petición puede ejercer presión sobre la institución pública para procesar y responder a la solicitud. Se debería entonces actualizar la información a medida que se obtiene una respuesta a la solicitud o, si el plazo pasa y no hay respuesta se puede hacer esto en una noticia así. Hacer esto tiene la ventaja adicional de educar a los miembros del público sobre el derecho de acceso a la información y cómo funciona en la práctica.

Si desea analizar, explorar o manipular los datos mediante una computadora, se deben pedir explícitamente que sean entregados datos en forma electrónica con formatos legibles por máquinas. También se puede solicitar de forma explícita para obtener información no agregada.

Obtener datos de la Web

Si se han encontrado datos interesantes en el Web pero no hay opciones de descarga o copia disponibles pueden intentarse otros métodos de captura que normalmente requiere de ser utilizados por personas con perfiles específicos en informática.

Una fuente de datos es la propia Web por medio de instrumentos específicos provistos a tal fin (API:

Application Programming Interface) como las interfaces proporcionadas por las bases de datos en línea y muchas otras aplicaciones Web modernas (como Twitter y Facebook entre otros). Esta es una manera fácil de acceder datos gubernamentales o comerciales, así como a los datos de sitios de medios sociales.

Extraer datos de los archivos PDF es un poco difícil ya que esta es una implementación para visualización e impresión y no retiene información sobre la estructura de los datos que se muestran en un documento. Algo semejante pasa cuando los datos son mostrados en modo gráfico, en formato.JPG por ejemplo. Los datos que se muestran en la Web que solo fueron pensados para ser visualizados tienen también las mismas características, se deben “raspar” (del inglés: (Web) Scraping) las páginas para ir recuperando y estructurando los datos y dejarlos de forma procesable. Si bien este método es muy potente y se puede utilizar en muchos lugares, se requiere de comprensión acerca de cómo trabaja la Web.

La meta para la mayoría de estos métodos es obtener acceso a datos legibles por una

La meta para la mayoría de estos métodos es obtener acceso a datos legibles por una computadora, es decir, para el procesamiento por una máquina en lugar de la presentación a un usuario humano. Ejemplos de estructuras de datos que facilitan la lectura o el procesamiento por computadoras son CSV, XML, JSON o Excel. Mientras que los formatos, como documentos de Word, páginas HTML y archivos PDF están más preocupados con el diseño visual de la información.

Hay límites y restricciones a lo que se puede raspar o recuperar automáticamente de la Web, algunos de los factores que hacen más difícil para raspar un sitio, por ejemplo: códigos HTML con formato incorrecto, por ejemplo con poca o ninguna información estructural o sistemas de verificación para evitar que el acceso automático a las páginas como Códigos CAPTCHA y Paywalls.

Otra serie de limitaciones son las barreras legales. Algunos países reconocen los derechos de bases de datos, que pueden limitar su derecho a volver a utilizar la información que se ha publicado en línea. A veces, puede optar por hacer caso omiso de la licencia y hacerlo de todos modos o tener derechos especiales como periodista, por ejemplo. Raspar los datos de libre disposición del Estado está bien, pero mejor verificarlo. Las organizaciones comerciales y organizaciones no gubernamentales pueden reaccionar con poca tolerancia y tratar de reclamar que se están "saboteando" sus sistemas.

scraperwiki.com es un sitio Web que te permite codificar raspadores en una serie de diferentes lenguajes de programación, incluyendo Python, Ruby y PHP. Si se quiere empezar con el raspado, sin la molestia de crear un entorno de programación en su computadora, este es el camino a seguir.

Los derechos sobre los datos

Es una obviedad, pero la obtención de datos nunca ha sido tan fácil como hoy en día. Ahora, hacer desde una computadora un pedido de envío de datos a otra puede ser suficiente para recibir una copia casi instantánea, mientras que el productor no han hecho gran cosa, incluso, puede no tener idea de que haya descargado una copia. Sin embargo, la disponibilidad de datos puede no ser suficiente para lo que queramos hacer con ellos.

Una entidad de datos puede estar sujeta a derechos de autor, igual que un trabajo creativo. En muchas jurisdicciones, montar una base de datos con el "sudor de la frente" basta para que esté sujeta a derechos de autor. También existen "los derechos de base de datos" que las restringen independientemente de los derechos de autor.

Es evidente que tales restricciones no son la mejor manera de hacer crecer un ecosistema de datos impulsado por la publicación de datos. Como editor de una base de datos, se pueden eliminar las restricciones de la base de datos, esencialmente mediante la concesión de permisos. Se puede hacer esto

mediante la liberación de la base de datos bajo una licencia pública o la dedicación de

mediante la liberación de la base de datos bajo una licencia pública o la dedicación de dominio público, al igual que muchos programadores libera su código bajo una licencia de código abierto, por lo que otros puedan construir en su código.

La variedad de licencias de códigos y de datos parece infinita y excede el alcance de este texto. Lo que sí es esencial es que antes de usar los datos se debe estar seguro de poder hacerlo y/o tomar los recaudos pertinentes.

Los datos cuentan historias

Una vez disponibles en un estado procesables las entidades de datos, se puede comenzar a trabajar con

ellos. Se solía decir de la estadística que es la disciplina de “torturar” datos hasta que expresen algo

interesante que parezca ser verdad. Hoy podría decirse lo mismo del procesamiento moderno de datos, solo que con muchas herramientas que complementan a la estadística.

Existen dos aproximaciones puras al procesamiento de datos.

El procesamiento tradicional de la informática, de la matemática en general y de la estadística en

particular, caracterizado por una lógica deductiva: exacto, predecible, repetible y determinístico. El procesamiento aproximado típico del Aprendizaje Automático 5 basado en el uso de la inducción y la abducción como métodos de inferencia y caracterizado por ser no determinístico y aproximado; por lo tanto, sujeto a pruebas para validar los resultados.

El procesamiento tradicional aporta la capacidad de relacionar datos de distintas fuentes, de fíltralos, seleccionarlos y hacer cuentas sobre ellos. El procesamiento aproximado permite generar patrones; extraer reglas generales probables a partir de instancias específicas; detectar agrupamientos o similitudes o realizar analogías.

Ambos grupos de herramientas son apropiados para el procesamiento de datos en búsqueda de “verdades” no evidentes a simple vista.

La utilización de estas herramientas estará muy relacionada a los datos en cuestión, es difícil dar una muestra general, pero lo fundamental es la disciplina con la cual este trabajo se debe realizar. Así como las fuentes deben ser legítimas (no inventadas o adecuadas a nuestro gusto por ejemplo) el procesamiento también debe seguir las buenas prácticas en la materia y debe ser transparente y reproducible. De la misma manera que las investigaciones científicas son realizadas, siguiendo las prácticas establecidas por el “estado

5 Como disciplina científica dentro de la Inteligencia Artificial dentro de Ciencias de la Computación, hoy sumamente utilizado dentro de lo que se conoce como Minería de Datos.

del arte”; con los recaudos adecuados y la documentación pertinente y transparente. Cuando una investigación es

del arte”; con los recaudos adecuados y la documentación pertinente y transparente.

Cuando una investigación es realizada y se obtiene un resultado interesante, se deben poner en disponibilidad las “pruebas” que demuestran cómo se llegó de los datos fuente al resultado. De forma análoga que se exige a los organismos la publicación de sus datos con estándares de calidad y seguridad, el consumo de datos públicos debe ser hecho respetando las buenas prácticas de la disciplina.

La Gobernanza de Datos es una disciplina emergente con una definición propia de desarrollo; por más que su práctica (bajo otras denominaciones) sea vieja como la informática.

La disciplina representa una convergencia de: calidad, gestión y políticas de datos; la gestión de procesos de gestión y; la gestión de riesgos que rodea el tratamiento de los datos de una organización. A través de la gobernanza de datos, las organizaciones buscan ejercer un control positivo sobre los procesos y métodos utilizados por los administradores y por los custodios de datos para manejarlos.

En resumen, se entiende por Gobernanza de Datos: al conjunto de procesos que asegura que los de datos que se administran cumplen con las garantías de calidad, actualización y seguridad adecuadas y por lo tanto son confiables para su uso, particularmente para la toma decisiones. Así como a las instituciones públicas se les solicita gestionar y custodiar sus datos con las buenas prácticas establecidas, a las personas u organizaciones que consumen los datos públicos también se les debe exigir que cumplan con los requisitos adecuados. De esta forma se trata de evitar el uso espurio, mal intencionado o no de los datos públicos, minimizando el riesgo de utilizar datos dañados o elaborar informes sin fundamento real.

La publicación de la historia

La visualización de datos es una disciplina transversal que utiliza el enorme poder de comunicación de las imágenes para explicar de manera comprensible las relaciones de significado, causa y dependencia que se pueden encontrar entre las grandes masas abstractas de información que generan los procesos científicos y sociales.

Actualmente, la visualización de datos se ha convertido en un área activa de investigación, desarrollo.

enseñanza y

Podríamos decir que el objetivo principal de la visualización de datos es comunicar información de forma clara y eficaz a través de medios gráficos. Para transmitir ideas de manera efectiva, la estética y la funcionalidad van de la mano para proporcionar información generada a partir de datos de una manera intuitiva. La visualización de los datos está estrechamente relacionada con los gráficos de la información, la

visualización de la información, la visualización científica y los gráficos estadísticos. La cantidad de ejemplos dewww.ateneonaider.com 28 ipap.gba.gob.ar " id="pdf-obj-27-3" src="pdf-obj-27-3.jpg">

visualización de la información, la visualización científica y los gráficos estadísticos.

La cantidad de ejemplos de visualización es realmente enorme y es una de las disciplinas que más desarrollo ha generado en los últimos tiempos. Van solo dos ejemplos como muestra, ya que un estudio más detallado queda por fuera del alcance de este texto.

MySociety desarrolló hace años este proyecto que ilustra perfectamente la utilidad de cruzar datos urbanos con
MySociety desarrolló hace años este
proyecto que ilustra perfectamente la
utilidad de cruzar datos urbanos con la
localización física. La herramienta
Mapumental permite visualizar el
tiempo de transporte para llegar a un
punto de determinado desde cualquier
lugar de la ciudad, ayudando con ello a
entender la distancia temporal de
movilidad, mucho más útil y práctica
que la distancia física.

Imagen: Distancias temporales para moverse en la ciudad. Fuente: www.ateneonaider.com

Una idea sencilla pero impactante visualmente. La población de nueva York durante el día y durantewww.ateneonaider.com Reflexiones finales Van a continuación, algunas reflexiones, no como conclusiones sino como iniciadores de nuevas reflexiones y generadores de intercambios:  La Publicación de Datos exige a las administraciones y organismos públicos poner en marcha cambios profundos que afectan a todos los planos de su quehacer: cultural, político, legal, organizacional, informacional y tecnológico.  No se puede exigir a las administraciones y organismos públicos que publiquen todo y en un corto plazo. Asumir la publicación como una actividad institucional más es un proceso que requiere esfuerzo y tiempo para apropiación institucional de nuevas capacidades.  La Publicación no es gratuita, los organismos deben hacer esfuerzo para realizarla como corresponde. Por lo tanto, el objetivo es lograr que se haga de forma sistemática y correctamente soportada por la tecnología que la haga viable.  La Publicación debe hacerse siguiendo los estándares y las buenas prácticas establecidos de gestión de datos, al igual que cualquier proceso institucional. 29 ipap.gba.gob.ar " id="pdf-obj-28-3" src="pdf-obj-28-3.jpg">
Una idea sencilla pero impactante visualmente. La población de nueva York durante el día y durante
Una idea sencilla pero
impactante
visualmente. La
población de nueva
York durante el día y
durante la noche,
reflejando la densidad
de las diferentes
zonas.

Imagen: La ciudad cambiante: día y noche. Fuente: www.ateneonaider.com

Reflexiones finales

Van a continuación, algunas reflexiones, no como conclusiones sino como iniciadores de nuevas reflexiones y generadores de intercambios:

  • La Publicación de Datos exige a las administraciones y organismos públicos poner en marcha cambios profundos que afectan a todos los planos de su quehacer: cultural, político, legal, organizacional, informacional y tecnológico.

  • No se puede exigir a las administraciones y organismos públicos que publiquen todo y en un corto plazo. Asumir la publicación como una actividad institucional más es un proceso que requiere esfuerzo y tiempo para apropiación institucional de nuevas capacidades.

  • La Publicación no es gratuita, los organismos deben hacer esfuerzo para realizarla como corresponde. Por lo tanto, el objetivo es lograr que se haga de forma sistemática y correctamente soportada por la tecnología que la haga viable.

  • La Publicación debe hacerse siguiendo los estándares y las buenas prácticas establecidos de gestión de datos, al igual que cualquier proceso institucional.

 La Publicación de Datos no es un fin en sí mismo, es solo un paso
  • La Publicación de Datos no es un fin en sí mismo, es solo un paso necesario para el Consumo. Sin consumo no se logra la deseada transparencia.

  • El Consumo de Datos Públicos es parte del ejercicio democrático de los ciudadanos.

  • El Consumo de Datos Públicos exige de prácticas profesionales responsables.

  • La Publicación de Datos, más allá de su objetivo de transparencia, puede ser vista como Obra Pública con el consecuente impacto económico en la sociedad.

  • A pesar de requerir la intervención de diferentes perfiles específicos para llevar adelante las distintas etapas del consumo de datos públicos, el “rol del periodista” es el que le da ilación y sentido al resto para que todo el proceso finalice en un producto interesante para el público objetivo.

BIBLIOGRAFÍA AR/SGP/FRRII (2008) “Mapa de restricciones a la Interoperabilidad en el sector público”. Presentación del trabajohttp://www.eclac.cl/publicaciones/xml/7/46167/DatosAbiertos_17_04_2012.pdf Data Journalism Handbook, datajournalismhandbook.org datosabiertos.org: CONSULTA: CARTA DE PRINCIPIOS INTERNACIONALES PARA LOS DATOS ABIERTOS. http://idatosabiertos.org/consulta-carta-de-principios-internacionales-para-los-datos- abiertos/ MELODA: Methodology for Releasing Open Data www.meloda.org Open Data USA, www.data.gov Open Data UK, www.data.gov.uk Poggi, E duardo (2008): “Modelos de Madurez para la Interoperabilidad”. Monografía presentada en el 2° SIE / 37° JAIIO 2008, Santa Fe, Argentina, Septiembre de 2008. (2° Premio Nacional de Gobierno Electrónico Edición 2008) Wikipedia, es.wikipedia.org 31 ipap.gba.gob.ar " id="pdf-obj-30-3" src="pdf-obj-30-3.jpg">

BIBLIOGRAFÍA

AR/SGP/FRRII (2008) “Mapa de restricciones a la Interoperabilidad en el sector público”.

Presentación del trabajo realizado por el Grupo de Interoperabilidad del Foro de Responsables Informáticos de la ONTI/SGP en USUARIA 2006.

rrii.sgp.gob.ar/index.php?option=com_docman&task=cat_view&gid=154&Itemid=200002

Concha, Gastón y Naser, Alejandra (2012a): “Datos abiertos: Un nuevo desafío para los gobiernos de la región”. CEPAL, Santiago, marzo de 2012.

Data Journalism Handbook, datajournalismhandbook.org datosabiertos.org: CONSULTA: CARTA DE PRINCIPIOS INTERNACIONALES PARA LOS DATOS ABIERTOS. http://idatosabiertos.org/consulta-carta-de-principios-internacionales-para-los-datos- abiertos/

MELODA: Methodology for Releasing Open Data www.meloda.org Open Data USA, www.data.gov Open Data UK, www.data.gov.uk

Poggi, Eduardo (2008): “Modelos de Madurez para la Interoperabilidad”. Monografía presentada en el 2° SIE / 37° JAIIO 2008, Santa Fe, Argentina, Septiembre de 2008. (2° Premio Nacional de Gobierno Electrónico Edición 2008)

Wikipedia, es.wikipedia.org