Novas ferramentas para analizar e extraer información de textos en galego, portugués e español

Estimacións recentes teñen determinado que o volume de información xerado pola humanidade dende os albores da civilización ata o ano 2003 equivalería apenas á cantidade de datos que os usuarios de Internet creamos en tan só 2 días.

(fonte: http://techcrunch.com/2010/08/04/schmidt-data/)

Escribir un correo electrónico, publicar unha entrada nun blog, ou comentar unha fotografía nunha rede social, son pequenos exemplos cotiáns da nosa contribución ao crecemento exponencial dos datos na rede, cuxa fracción máis significativa -e probablemente, máis utilizada polos internautas- está constituída por un número crecente de textos e documentos. Esta tendencia expansiva esixe unha evolución constante das ferramentas informáticas deseñadas para a súa análise e procesado, que abranguen un amplo espectro de técnicas computacionais; todas elas están a cobrar cada vez maior importancia, especialmente as empregadas nas áreas de  procesamento de linguaxe natural e extracción de información.

Cara a unha tecnoloxía multilingüe

O procesamento de linguaxe natural ten múltiples aplicacións, entre as que figuran os tradutores automáticos ou a aprendizaxe de idiomas online. Na actualidade, as técnicas utilizadas neste ámbito atópanse xa nun estado moi avanzado para linguas como o inglés, pero no caso doutras -como o galego, o portugués, ou mesmo o español-, a tecnoloxía dispoñible a día de hoxe é moito máis limitada.

O investigador Marcos García

Marcos García, investigador da tese que permitirá extraer textos en galego, portugués e español.

Co gallo de suplir estas carencias, o investigador do CiTIUS Marcos García dedicou a súa tese doutoral ao desenvolvemento dunha serie de ferramentas tecnolóxicas destinadas a mellorar a capacidade de procesamento destas tres linguas, un traballo enmarcado na liña de investigación mixta na que dende hai tempo veñen colaborando o CiTIUS e o Grupo de Gramática do Español da Universidade de Santiago de Compostela (USC).

Os sistemas de extracción aberta permiten analizar a web para obter e organizar automaticamente grandes cantidades de información, o que resulta moi útil á hora de discernir ideas ou mensaxes entre a maraña de datos da rede. Así, por exemplo, os resultados desta tese permiten inferir de xeito moi sinxelo unidades semánticas doadamente recoñecibles, como «Santiago está en Galicia» ou «a idade de Messi é 27 anos», a partir da información dispoñible na web.

O sistema de extracción aberta presentado non só é o primeiro en estar dispoñible para galego, portugués e español, senón que ofrece asemade resultados altamente competitivos cos mellores sistemas en lingua inglesa. Trátase, así, da primeira solución deste tipo dispoñible, un conxunto de ferramentas lingüísticas desenvolvidas baixo unha licenza de software libre, que poden ser descargadas a través da ligazón: http://gramatica.usc.es/~marcos/phd.html#cap2

Computación e linguaxe: unha oportunidade para emprender

A liña de investigación que ampara este traballo deu lugar tamén á creación dunha nova empresa especializada en tecnoloxías da linguaxe: a spin-off do CiTIUS Cilenis Software, creada en 2011 e galardoada o mesmo ano co Primeiro Premio ó mellor Proxecto Empresarial Innovador. En 2012, o empresario e analista económico Marc Vidal adquiriu parte de Cilenis Software, a través da compañía IDODI Labs.

Segundo os responsables do proxecto, Cilenis Software xurdiu como medio para facer viables a nivel comercial os resultados de investigación do grupo; como afirma Pablo Gamallo, director da tese de Marcos García e co-fundador de Cilenis, o que se pretende é «reducir o gap actual entre as ferramentas dispoñibles para procesar a lingua inglesa, e as empregadas para a análise de linguas iberoamericanas».

 Facebooktwitterlinkedinmail

Comments are closed.