Tenemos una gran noticia que queremos compartir con vosotros. El Digital News Innovation Fund de Google financiará un prototipo de Civio: se trata de Verba, una herramienta de código abierto para sacar más jugo periodístico a los abundantes repositorios de vídeo disponibles. ¿Y cómo? Aplicando técnicas de Procesamiento del Lenguaje Natural (PLN) a las transcripciones de vídeos.

El Digital News Innovation Fund de Google es un fondo para medios y editores europeos que financia iniciativas que potencian la innovación tecnológica aplicada al periodismo. En esta quinta ronda se han presentado 820 proyectos de 29 países europeos y se han financiado 98, de los cuales seis son españoles. La dotación para este prototipo será de 50.000 euros.

Con Verba (del proverbio latino Verba volant, scripta manent, las palabras vuelan, lo escrito permanece) queremos ayudar a periodistas e investigadores a analizar transcripciones de vídeos, de canales de televisión a contenidos de plataformas como YouTube, para facilitar investigaciones y análisis de sus contenidos, enfoques y coberturas informativas.

Se trata de un proyecto que queremos hacer desde hace tiempo. Cada vez son más los canales de televisión y las cámaras legislativas que incorporan transcripciones en estándares abiertos a sus retransmisiones de vídeo. Y las plataformas más populares de vídeo, como YouTube, ya incorporan funcionalidades de transcripción, incluso auto-generadas, en más de mil millones de videos. Sin embargo, aunque el enorme corpus disponible de transcripciones de vídeo crece cada día, apenas está siendo utilizado para investigaciones avanzadas por parte de periodistas y medios (con raras excepciones, como el fact-check en tiempo real que los profesionales de NPR hicieron durante uno de los debates electorales entre Donald Trump y Hillary Clinton). Y eso, a pesar de que encontrar información y extraer datos automáticamente de una transcripción es mucho más eficaz que visionar un vídeo.

Con Verba, queremos aplicar técnicas de PLN a las transcripciones de vídeos para que un periodista o un investigador pueda extraer de ellas información fácilmente mediante una búsqueda avanzada de nombres de entidades (por ejemplo, “Tribunal Supremo”), temas (“Gürtel”, “Cataluña”) y etiquetas, llegando al segundo exacto del vídeo en el que el término de búsqueda. También queremos proporcionar información analítica sobre el objeto de búsqueda, como cuáles son los términos-clave relacionados más importantes, o el tiempo de cobertura que un asunto ha ocupado en un informativo. En paralelo al desarrollo del prototipo, desde Civio llevaremos a cabo un caso de uso real.

La conceptualización y creación de Verba es completamente consecuente con nuestra visión del periodismo y de la tecnología cívica, con vistas a facilitar la comprensión y el uso de grandes cantidades de datos con un interés periodístico y ciudadano. Y, como hacemos siempre, compartiremos con vosotros todo lo aprendido en el proceso.