Cómo la inteligencia artificial está descifrando el código del Archivo Secreto Vaticano

El nuevo software y el crowdsourcing podrían hacer que siglos de documentos escritos en latín estén disponibles en Internet

El Archivum Secretum Vaticanum o el Archivo Secreto Vaticano (ASV) suena como algo sacado de teorías conspiranoicas de ficción chapucera de Dan Brown.

En realidad, el ASV es simplemente el archivo privado (mejor traducción de la palabra latina ‘secretum’) del Papa. De hecho, desde que el papa León XIII abriera el archivo a los investigadores en 1881, ha dejado de ser siquiera privado. En cuanto los documentos vaticanos cumplen 75 años, los investigadores son libres de leerlos detenidamente al completo.

En teoría, desde el siglo VIII, todos los textos, documentos históricos, actas promulgadas por el Vaticano, libros de cuentas y correspondencia de los papas están a disponibilidad de los investigadores.

El único problema es que el ingente volumen de los archivos los hace virtualmente inaccesibles.

Según un artículo de Sam Kean en The Atlantic, de los 85 kilómetros en fila de estanterías en el Archivo Secreto Vaticano, solamente “unos pocos milímetros” de páginas se han escaneado, transcrito y hecho accesibles a búsquedas en Internet.

Entra en In Codice Ratio, un programa de investigación que utiliza inteligencia artificial y reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) para transcribir automáticamente los contenidos de los archivos vaticanos.

Según señala Kean en su artículo para The Atlantic, el OCR obra maravillas con documentos escritos a máquina, pero no puede procesar el texto manuscrito. Las letras tienden a mezclarse y no son siempre “ejemplos claros y nítidos” de las letras que supuestamente representan.

Y aquí es donde entra en juego la inteligencia artificial. Los investigadores reclutaron a unos estudiantes de un instituto italiano sin ningún conocimiento de latín medieval. Ante ejemplos de letras que el software de OCR había identificado, los estudiantes debían comprobar que las letras eran concordancias correctas. Todo lo que tenían que hacer era concordar patrones visuales. El software anotó las correcciones que hacían los estudiantes de secundaria y aprender de los errores.

Cuando empezaron con el proyecto, “la idea de involucrar a estudiantes de secundaria fue considerada tonta”, contó Paolo Merialdo, científico de Codice Ratio, a Kean. “Pero ahora la máquina está aprendiendo gracias a sus esfuerzos. Me gusta que una pequeña y simple contribución de muchas personas pueda contribuir de verdad a solucionar un problema complejo”.

A partir de ahí, transcribir por ordenador estos antiguos escritos tampoco fue todo coser y cantar, y los resultados han sido inconsistentes. Un tercio de las palabras contenía erratas, lo cual es molesto para la lectura, aunque sigue siendo un gran avance.

“Las transcripciones imperfectas pueden ofrecer suficiente información y contexto sobre el manuscrito en cuestión” como para que sea útil, contó Merialdo a Kean.

Es más, los científicos detrás del proyecto esperan que el software mejore con el tiempo, ya que cuanto más aprende la inteligencia artificial, mejores resultados obtiene.

Puedes leer el artículo completo de The Atlantic aquí.