Etiquetador e Lematizador do Galego Actual
Táboa de contidos
Título do proxecto
Etiquetador e Lematizador do Galego Actual
Descrición
O obxectivo deste proxecto é o desenvolvemento de ferramentas que permitan o recoñecemento e a análise automática do galego actual. En particular, ten especial interese o desenvolvemento dun etiquetador e lematizador de moi alta precisión que permita etiquetar e lematizar automáticamente os documentos do proxecto CORGA, e poder así desenvolver un sistema de consultas que utilice esta información lingüística (categorías gramaticais, lemas, etc.).
Dirección/Coordinación
Guillermo Rojo
Manuel Vilares Ferro
Persoal Vinculado
Equipo lingüístico
Eva Domínguez Noya
María Sol López Martínez
Francisco García Gondar
Equipo Informático
Fco. Mario Barcala Rodríguez
Miguel A. Molinero Álvarez (2005-)
Jorge Graña Gil
Miguel A. Alonso Pardo
Publicacións resultantes
- Practical application of one-pass Viterbi algorithm in tokenization and part-of-speech tagging, Miguel A. Molinero, Fco. Mario Barcala, Juan Otero, Jorge Graña. Proc. of International Conference RANLP 2007, Recent Advances in Natural Language Processing, Borovets, Bulgaria, 2007, pp. 35-40.
- XML rules for enclitic segmentation, Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Alexis Quesada-Arencibia, José Carlos Rodríguez-Rodríguez, Roberto Moreno-Díaz jr., Roberto Moreno-Díaz (eds.). Proc. of Eleventh Computer Aided Systems Theory - EUROCAST 2007, Extendeds Abstracts, Las Palmas de Gran Canaria, España, 2007, pp. 93-94.
- Automatic Spelling Correction in Galician. Manuel Vilares, Juan Otero, Fco. Mario Barcala, Eva Domínguez. José Luis Vicedo, Patricio Martínez-Barco, Rafael Muñoz and Maximiliano Saiz Noeda (eds.), Advances in Natural Language Processing, volume 3230 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, 2004, pp. 51-57.
- Formal Methods of Tokenization for Part-of-Speech Tagging. Jorge Graña, Fco. Mario Barcala, Jesús Vilares. Alexander Gelbukh (ed.), Computational Linguistics and Intelligent Text Processing, volume 2276 of Lecture Notes in Computer Science, Springer-Verlag, Berlin-Heidelberg-New York, 2002, pp. 240-249.
- A Common Solution for Tokenization and Part-of-Speech Tagging: One-Pass Viterbi Algorithm vs. Iterative Approaches, Jorge Graña, Miguel A. Alonso, Manuel Vilares. Petr Sojka, Ivan Kopecek and Karel Pala (eds.), Text, Speech and Dialogue, volume 2448 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, 2002, pp. 3-10.
Participación en reunións científicas, congresos, encontros, cursos e outros eventos
- RANLP 2007: Recent Advances in Natural Language Processing. Borovets (Bulgaria), 27-29 de setembro de 2007, Miguel A. Molinero Álvarez.
- EUROCAST 2007: Eleventh International Conference on Computer Aided Systems Theory. Las Palmas de Gran Canaria, 12-16 de febreiro de 2007, Miguel A. Molinero Álvarez.
- ESTAL 2004: España for Natural Language Processing. Alicante, 20-22 de outubro de 2004, Juan Otero Pombo.
Resultados
No 2003 rematouse unha primeira versión operativa do etiquetador que traballaba con arquivos de texto que se adecuaban á normativa. Ademais, para obter esta versión foi necesario o desenvolvemento do xogo de etiquetas apropiado (conta con ao redor de 600 etiquetas diferentes), dun lexicón formado por aproximadamente 31200 lemas e 6300000 formas, e dun subcorpus anotado de adestramento dunhas 100000 formas.
No 2005 externalizáronse as regras de funcionamento do mesmo, facilitando así a actualización e/ou modificación das mesmas.
Durante o 2006 adaptouse o etiquetador para que puidese traballar con arquivos codificados en XML e, polo tanto, cos arquivos da nova codificación dos documentos do CORGA. Tamén neste ano se desenvolveu un sistema xenérico de resolución de ambigüidades segmentais e ampliouse considerablemente o lexicón que utiliza, que ademais inclúe moitas formas non normativas para que poidan ser recoñecidas, etc.
No 2007 publicouse o etiquetario utilizado polo proxecto.
Estado actual
Actualmente estamos traballando nun sistema de regras que poida mellorar, aínda máis, a porcentaxe de acerto do etiquetador cando a estatística non axuda, especialmente para os casos de ambigüidades segmentais complexas.
A versión do etiquetador dispoñible actualmente, publicada no 2009, está optimizada para traballar con textos xornalísticos, polo que é con textos escritos nese estilo onde mellor se comporta o etiquetador. No futuro esperamos ter diferentes perfís para mellorar o rendemento noutros contextos.
Acceso
Pode obterse diferente tipo de información relacionada co proxecto no seguinte enderezo:
Contacto
Se ten algunha dúbida ou pregunta sobre calquera aspecto relacionado con este proxecto, pode contactar con nós a través de: corga@cirp.es
| Data da última actualización: 16/07/2009 |
