Etiquetador/Lematizador do Galego Actual (XIADA)

Táboa de contidos

Título do proxecto

Etiquetador e Lematizador do Galego Actual

Descrición

O obxectivo deste proxecto é o desenvolvemento de ferramentas que permitan o recoñecemento e a análise automática do galego actual. En particular, ten especial interese o desenvolvemento dun etiquetador e lematizador de moi alta precisión que permita etiquetar e lematizar automaticamente os documentos do proxecto CORGA, e poder así desenvolver un sistema de consultas que utilice esta información lingüística (categorías gramaticais, lemas, etc.).

Dirección/Coordinación

Guillermo Rojo

Manuel Vilares Ferro

Persoal Vinculado

Equipo lingüístico

Eva Domínguez Noya

Marisol López Martínez

Francisco García Gondar

Equipo Informático

Fco. Mario Barcala Rodríguez

Miguel A. Molinero Álvarez (2005-)

Jorge Graña Gil

Miguel A. Alonso Pardo

Publicacións resultantes

Participación en reunións científicas, congresos, encontros, cursos e outros eventos

Resultados

No 2003 rematouse unha primeira versión operativa do etiquetador que traballaba con arquivos de texto que se adecuaban á normativa. Ademais, para obter esta versión foi necesario o desenvolvemento do xogo de etiquetas apropiado, dun lexicón formado por aproximadamente 31200 lemas e 6300000 formas, e dun subcorpus anotado de adestramento dunhas 100000 formas.

No 2005 externalizáronse as regras de funcionamento do mesmo, facilitando así a actualización e/ou modificación das mesmas.

Durante o 2006 adaptouse o etiquetador para que puidese traballar con arquivos codificados en XML e, polo tanto, cos arquivos da nova codificación dos documentos do CORGA. Tamén neste ano se desenvolveu un sistema xenérico de resolución de ambigüidades segmentais e ampliouse considerablemente o lexicón que utiliza, que ademais inclúe moitas formas non normativas para que poidan ser recoñecidas, etc.

No 2007 publicouse o etiquetario utilizado polo proxecto.

No 2009 faise pública unha demostración do funcionamento do etiquetador, e libéranse a primeira versión (2.2) do léxico e do corpus de adestramento (2.3) que utiliza. Este último inclúe 309.505 elementos gramaticais.

No 2010 publícase a versión 2.4, que inclúe as liberacións dunha nova versión do léxico, con 718.189 entradas e 53.888 lemas (427 lemas máis que na versión anterior) e do corpus de adestramento, con 426.051 elementos gramaticais e a demostración do etiquetador adestrado con estes novos recursos. Tamén se actualiza na web o etiquetario que emprega o etiquetador (383 etiquetas) e recompílanse exemplos de uso de cada etiqueta.

Estado actual

Actualmente estamos traballando nun sistema de regras que poida mellorar, aínda máis, a porcentaxe de acerto do etiquetador cando a estatística non axuda, especialmente para os casos de ambigüidades segmentais complexas.

A versión do etiquetador dispoñible actualmente, publicada no 2010, está optimizada para traballar con textos xornalísticos, polo que é con textos escritos nese estilo onde mellor se comporta o etiquetador. No futuro esperamos ter diferentes perfís para mellorar o rendemento noutros contextos.

Acceso

Pode obterse diferente tipo de información relacionada co proxecto no seguinte enderezo:

http://corpus.cirp.es/xiada

Contacto

Se ten algunha dúbida ou pregunta sobre calquera aspecto relacionado con este proxecto, pode contactar con nós a través de: corga@cirp.es




Data da última actualización: 27/10/2010

Valid XHTML 1.0 Strict