O obxectivo do proxecto é o desenvolvemento de ferramentas que permitan o recoñecemento e a análise automática do galego actual. En particular, ten especial interese o desenvolvemento dun etiquetador e lematizador de moi alta precisión que permita etiquetar e lematizar automaticamente os documentos do proxecto CORGA, e poder así desenvolver un sistema de consultas que utilice información lingüística (etiquetas, lemas, categorías gramaticais, etc.).

No ano 2003 rematouse unha primeira versión operativa do etiquetador que traballaba con arquivos de texto que se adecuaban á normativa. Ademais, para obter esta versión foi necesario o desenvolvemento do xogo de etiquetas apropiado (conta con ao redor de 400 etiquetas diferentes), dun lexicón formado por aproximadamente 31.200 lemas e 630.000 elementos gramaticais e dun subcorpus anotado de adestramento dunhas 100.000 formas ortográficas.

No 2005 externalizáronse as regras de funcionamento do mesmo, facilitando así a actualización e/ou modificación das mesmas por parte do equipo desenvolvedor.

Durante o 2006 adaptouse o etiquetador para que puidese traballar con arquivos codificados en XML e, polo tanto, cos arquivos da nova codificación dos documentos do CORGA. Tamén neste ano se desenvolveu un sistema xenérico de resolución de ambigüidades segmentais, ampliouse o lexicón que utiliza considerablemente, que ademais inclúe moitas formas non normativas para que poidan ser recoñecidas, etc.

No 2007 publicouse o etiquetario utilizado polo proxecto.

No 2009 faise pública unha demostración do funcionamento do etiquetador e libérase a primeira versión do léxico (2.2) e do corpus de adestramento que utiliza (2.3). Este último inclúe 309.505 elementos gramaticais.

No 2010 publícase a versión 2.4, que inclúe a liberación dunha nova versión do léxico, con 718.189 entradas e 53.771 lemas (427 lemas máis que na versión anterior); a do corpus de adestramento, con 426.051 elementos gramaticais e, por último, a da demostración do etiquetador adestrado con estes novos recursos. Tamén se actualiza na web o etiquetario que emprega o etiquetador (383 etiquetas) e recompílanse exemplos de uso de cada etiqueta.

No 2013 publícase a versión 2.5. O léxico posúe 726.934 entradas, engadíndose respecto á versión anterior 4.463 novos lemas. O corpus de adestramento complétase con texto extraído aleatoriamente de coleccións de relato curto e pasa a constar de 594.993 elementos gramaticais.

Nesta última versión, 2.6 de 2015, o léxico posúe 797.686 entradas e 62.722 lemas (4.370 lemas máis que a versión anterior). O corpus de adestramento ten un total de 741.833 elementos gramaticais.

A versión dispoñible en liña na sección Demostración emprega todo o corpus de adestramento e, polo tanto, presenta un rendemento aceptable tanto na etiquetación de textos do xénero xornalístico como na do narrativo. No futuro esperamos proporcionar perfís específicos para cada un dos diferentes tipos de textos que melloren a etiquetación.