#FlashHacks - Madrid: 'crowdscraping' para liberar datos de entidades financieras en formatos abiertos
¿Eres programador? ¿Quieres ayudarnos a liberar datos? Participa en FlashHacks Madrid el 18 de marzo por la tarde, entre las 17:00h y las 21:00h, en el MediaLab-Prado de Madrid.
“Gobiernos de todo el mundo poseen miles de millones de datos de empresas, aunque se encuentran eficientemente encerrados en webs aisladas y en .pdfs. Esto conduce a fallos de regulación, permite el fraude, la corrupción y disuade de su uso. Esta nueva iniciativa de OpenCorporates supone un paso importante para liberar estos datos sin tener que esperar a que cada país los publique en formatos abiertos”, mantiene Chis Taggart, CEO de OpenCorporates.
OpenCorporates es la mayor fuente existente de datos abiertos sobre el mundo corporativo y la empresa privada. Se trata de una base de datos pública de más de 84 millones de compañías de todo el mundo, que persigue fomentar la transparencia en torno a su titularidad y sus operaciones.
Desde verano de 2014 organiza #FlashHacks , que son sesiones de “crowdscraping” -rascado y extracción colectiva de datos-, en las que programadores (este es el perfil principal en esta fase, aunque también es necesario involucrar a analistas, periodistas e investigadores) se inscriben en distintas “misiones” para programar bots que sirvan para extraer y estructurar automáticamente grandes cantidades de datos.
¿Qué datos hay que “rascar”? El proyecto:
Aquí entra en juego Map The Banks. Se trata de una plataforma colaborativa impulsada por OpenCorporates, Open North (Canadá) y la Fundación Civio (España) para recopilar, analizar y publicar datos de todas las entidades con licencia para realizar operaciones financieras (bancos, fondos y todo tipo de operadores).
Así, con este proyecto queremos empezar a responder ciertas preguntas, como:
- ¿Qué compañías realizan operaciones opacas en otras jurisdicciones?
- ¿Qué países realizan más operaciones financieras subcontratando a compañías así?
- ¿Qué empresas tienen licencia para operar en un mayor número de países?
- ¿Qué empresas parecen operar como firmas de servicios financieros, aunque no estén reguladas como tales?
- ¿Qué cooperativas de crédito se crean y se disuelven más rápido?
Así es FlashHacks:
Un FlashHack empieza con una breve introducción de unos 20 minutos sobre la misión y los proyectos de Open Corporates. Se repasa qué fuentes de datos presentan potencial y se presentan distintas misiones para que los programadores se inscriban en ellas y comiencen a programar. En paralelo, se hace un repaso sobre distintas herramientas y plataformas (de Who Controls It?, de Open Corporates, a Quién Manda y Onodo, de Civio) con aquellos participantes que posean perfiles menos técnicos (analistas, investigadores).
En un FlashHack estándar, como el que tuvo lugar recientemente en Zurich, participaron 25 personas entre programadores e investigadores/periodistas, se desarrollaron 7 bots de extracción automática de datos, se aceptaron 17 misiones más y otros 17 participantes aprendieron nociones de cómo crear bots y otras aptitudes técnicas.
Puedes consultar las misiones actuales en la web de missions.opencorporates.com.
¿Qué papel puedes jugar tú en todo esto?
Para poner nuestro granito de arena y avanzar en nuevas misiones con conjuntos de datos de España y América Latina, desde Civio vamos a organizar un FlashHack local el 18 de marzo por la tarde, entre las 17:00h y las 21:00h en el MediaLab-Prado de Madrid. Lo haremos en el escenario posible, en la catedral del conocimiento abierto de la capital y durante una exposición que explorara la eclosión de grandes bases de datos (el Big Data) en la cultura y la política para dar lugar a un mundo “datificado”.
¿Qué haremos?
- Conectaremos en directo con otro FlashHack en Londres para conocer de primera mano con Chris Taggart, CEO de Open Corporates, y Hera Hussein, responsable de comunidad, los detalles del proyecto, las misiones y toda la mecánica.
- Con ayuda del equipo de Civio, repasaremos algunas de las nuevas tareas y retos existentes para España y América Latina (disponibles pronto en opencorporates.com), e identificaremos otras potencialmente interesantes:
- Nos pondremos manos a la obra para crear el mayor número posible de bots de extracción de datos en las cuatro horas disponibles. Usaremos Turbot, una plataforma de scraping y repositorio de bots.
- Si no da tiempo a terminar, daremos de alta las misiones en progreso para poder continuar la labor de manera colectiva, descentralizada y hacer seguimiento del progreso.
- A lo largo de la sesión, tomaremos un aperitivo y repartiremos algunos regalos entre los participantes.