Os documentos incluídos no subcorpus do CORGA etiquetado, do mesmo xeito que os documentos do CORGA non etiquetado, seguen unha codificación XML.

O obxectivo final é ter todos os documentos do CORGA etiquetados automaticamente no sistema de consultas. Para iso, dado que o etiquetador que empregamos é estatístico, precisamos un conxunto de textos cuxa etiquetación sexa revisada manualmente, canto máis amplo e diversificado lingüisticamente mellor; é dicir, necesitamos un corpus de adestramento constituído por textos que procedan da mesma fonte e mostren un estilo semellante aos documentos que se van etiquetar automaticamente, para que o sistema poida inferir cal é a análise que corresponde a cada unidade.

Polo momento completamos o subcorpus de adestramento para o xénero xornalístico e o de ficción. O primeiro conforma un subconxunto de 1197 noticias de xornais e revistas, mentres que o segundo está constituído nesta versión por 476 fragmentos textuais, de como máximo 1000 palabras cada un, procedentes da extracción aleatoria de parágrafos de cada un dos relatos das coleccións que especificamos máis abaixo.

Posto que para poder etiquetar un documento cómpre, previamente, delimitar as distintas unidades léxicas que este contén, algunhas formas ortográficas son desagregadas nos seus constituíntes (contraccións, formas verbais con pronomes enclíticos, etc.) e outras son agrupadas formando unha unidade multipalabra (locucións, nomes propios, etc.). Isto provoca que as 617042 formas gráficas das que consta a versión 2.6 do subcorpus etiquetado se transformen en 741833 elementos gramaticais ou unidades léxicas.

A continuación amósase a distribución de lemas e elementos gramaticais por categoría:

Distribución de frecuencias
CategoríaNúmero de lemasPorcentaxe de lemasNúmero de elementos gramaticaisPorcentaxe de elementos gramaticais
Substantivo 18776 58.21 % 154560 20.83 %
Adxectivo 5231 16.22 % 40435 5.45 %
Verbo 3284 10.18 % 94259 12.71 %
Preposición 51 0.16 % 105142 14.17 %
Conxunción 36 0.11 % 35318 4.76 %
Adverbio 789 2.45 % 33786 4.55 %
Artigo 2 0.01 % 101671 13.71 %
Demostrativo 3 0.01 % 6394 0.86 %
Relativo 5 0.02 % 12587 1.70 %
Posesivo 8 0.02 % 7047 0.95 %
Indefinido 41 0.13 % 11447 1.54 %
Numeral 2767 8.58 % 13138 1.77 %
Pronome 27 0.08 % 24001 3.24 %
Interrogativo/
Exclamativo
4 0.01 % 1122 0.15 %
Locución 522 1.62 % 8278 1.12 %
Interxección 94 0.29 % 398 0.05 %
Signo
de
puntuación
18 0.06 % 88499 11.93 %
Categoría
periférica
599 1.86 % 3751 0.51 %
Total 32257 100.00 % 741833 100.00 %
Listaxe de documentos contidos na base de datos