Nuevas herramientas para analizar y extraer información de textos en español, portugués y gallego

Estimaciones recientes han determinado que el volumen de información generado por la humanidad desde los albores de la civilización hasta el año 2003 equivaldría apenas a la cantidad de datos que los usuarios de Internet creamos en tan sólo 2 días.

(fuente: http://techcrunch.com/2010/08/04/schmidt-data/)

Escribir un correo electrónico, publicar una entrada en un blog, o comentar una fotografía en una red social, son pequeños ejemplos cotidianos de nuestra contribución al crecimiento exponencial de los datos en la red, cuya fracción más significativa -y probablemente, más utilizada por los internautas- está constituida por un número creciente de textos y documentos. Esta tendencia expansiva exige una evolución constante de las herramientas informáticas diseñadas para su análisis y procesado, que abarcan un amplio espectro de técnicas computacionales; todas ellas están cobrando cada vez mayor importancia, especialmente las empleadas en las áreas de procesamiento de lenguaje natural y extracción de información.

Hacia una tecnología multilingüe

El procesamiento de lenguaje natural tiene múltiples aplicaciones, entre las que figuran los traductores automáticos o el aprendizaje de idiomas online. En la actualidad, las técnicas utilizadas en este ámbito se encuentran ya en un estado muy avanzado para lenguas como el inglés, pero en el caso de otras –como el gallego, el portugués, o incluso el español -, la tecnología disponible hasta la fecha es mucho más limitada.

Marcos García, investigador del CiTIUS

Marcos García, autor de la tesis que permitirá extraer textos en portugués, español y gallego.

Con el objetivo de suplir estas carencias, el investigador del CiTIUS Marcos García ha dedicado su tesis doctoral al desarrollo de una serie de herramientas tecnológicas destinadas a mejorar la capacidad de procesamiento de estas tres lenguas, un trabajo enmarcado en la línea de investigación mixta en la que desde hace tiempo vienen colaborando el CiTIUS y el Grupo de Gramática del Español de la Universidad de Santiago de Compostela (USC).

Por su parte, los sistemas de extracción abierta permiten analizar la web para obtener y organizar automáticamente grandes cantidades de información, lo que resulta muy útil a la hora de discernir ideas o mensajes entre la maraña de datos de la red. Así, por ejemplo, los resultados de esta tesis permiten inferir de manera muy sencilla unidades semánticas fácilmente reconocibles, como «Santiago está en Galicia» o «la edad de Messi es 27 años», a partir de la información disponible en la web.

El sistema de extracción abierta presentado no sólo es el primero en funcionar en gallego, portugués y español, sino que ofrece resultados altamente competitivos con los mejores sistemas en lengua inglesa. Se trata, así, de la primera solución de este tipo disponible, un conjunto de herramientas lingüísticas desarrolladas bajo una licencia de software libre que pueden descargarse gratuitamente en http://gramatica.usc.es/~marcos/phd.html#cap2.

Computación y lenguaje: una oportunidad para emprender

La línea de investigación que ampara este trabajo ha dado lugar también a la creación de una nueva empresa especializada en tecnologías del lenguaje: la spin-off del CiTIUS Cilenis Software, creada en 2011 y galardonada el mismo año con el Primer Premio al Proyecto Empresarial Innovador.  En 2012, el empresario y analista económico Marc Vidal adquirió parte de Cilenis Software, a través de la compañía IDODI Labs.

Según los responsables del proyecto, Cilenis Software surgió como medio para hacer viables a nivel comercial los resultados de investigación del grupo; como afirma Pablo Gamallo, director de la tesis de Marcos García y co-fundador de Cilenis, lo que se pretende es «reducir el gap actual entre las herramientas disponibles para procesar la lengua inglesa, y las empleadas para el análisis de lenguas iberoamericanas».

Facebooktwitterlinkedinmailby feather

Here's your chance to leave a comment!