Nesta sección poñemos accesible para a súa descarga o corpus de adestramento utilizado polo Etiquetador/Lematizador do Galego Actual (XIADA). Este corpus inclúe oracións extraídas de xornais, revistas e coleccións de relato curto analizadas seguindo o formato palabra\tetiqueta\tlema, onde as etiquetas se corresponden co etiquetario presentado na sección Etiquetario desta mesma páxina. Así mesmo, presentamos unha versión do corpus de adestramento en formato XML na que, ademais de incluír a análise dos elementos gramaticais en forma, etiqueta e lema, achegamos tamén a unidade que se analiza, co que posibilitamos a recuperación das formas ortográficas simples, multipalabra, amalgamadas ou contraídas e facilitamos a conexión entre a unidade analizada e as análises correspondentes.

O corpus preséntase fragmentado en catro partes: unha, "corpus_xeral_prensa", contén oracións de noticias variadas incluídas en diferentes seccións de xornais; outra, "corpus_economia_prensa" recolle oracións de noticias xornalísticas relacionadas coa área temática de economía; unha terceira, "corpus_relato_curto", inclúe oracións procedentes de fragmentos de coleccións de relatos curtos e, finalmente, a cuarta comprende oracións de diversos xéneros nas que se recolle cada unha das etiquetas do corpus,   polo menos, unha vez. Véxase o ficheiro LEME.txt do arquivo descargable para máis detalles.

Autores

Guillermo Rojo (dir.)

Marisol López Martínez (dir.)

Eva Domínguez Noya

Fco. Mario Barcala Rodríguez

Licenza

O corpus aquí descargable distribúese baixo os termos da licenza Lesser General Public License For Linguistic Resources.

Descargas

  • 18/06/2015: Corpus xiada versión 2.6 (741.833 elementos gramaticais).
  • 26/02/2013: Corpus xiada versión 2.5 (594.993 elementos gramaticais).
  • 27/10/2010: Corpus xiada versión 2.4 (426.051 elementos gramaticais).

NOTA: Os arquivos de texto incluídos no paquete descargable están codificados segundo o estándar ISO-8859-1, utilizando para os retornos de carro a codificación correspondente aos contornos Linux/UNIX. Noutros contornos os documentos non se visualizarán correctamente se se emprega o Bloc de notas. Empregue outro editor de textos que interprete esa codificación.

Referencias

Para a confección deste corpus utilizáronse:

  1. Noticias incluídas nos seguintes xornais e revistas:
    • A Nosa Terra: 20 noticias de 2002, 2 noticias de 2003, 77 noticias de 2005 e 89 de 2008.
    • O Correo Galego: 4 noticias de 1995, 170 noticias de 1996, 54 noticias de 1999, 188 noticias de 2000, 65 noticias de 2001 e 70 de 2002.
    • Feiraco: 6 noticias de 1997.
    • Galicia Hoxe: 89 noticias de 2007, 113 noticias de 2007 e 107 de 2008.
    • Galicia Internacional: 8 noticias de 1996.
    • De Luns a Venres: 121 noticias de 2007.
    • Man Común: 1 noticia de 1980.
    • Petroglifo: 2 noticias de 1997.
    • Teima: 1 noticia de 1977.
    • Tempos novos: 5 noticias de 1997 e 5 de 1998.
  2. Parágrafos soltos dos relatos curtos das seguintes coleccións:
    • Álvarez Cáccamo, Alfonso: Catapulta, Edicións Xerais de Galicia, 1995.
    • Casal, Uxía: Vidas exemplares, Edicións Xerais de Galicia, 2006.
    • Cid Cabido, Xosé: Días contados, Edicións Xerais de Galicia, 1991.
    • Conde, Alfredo: A casa de Adara, Edicións Xerais de Galicia, 1996.
    • Dobao, Antón: Incertos, Edicións Xerais de Galicia, 2008.
    • Heinze, Úrsula: Remuíños en coiro, Edicións Xerais de Galicia, 1984.
    • Losada, Ricardo X.: O xene da chuvia, Ediciós do Castro, 2005.
    • Pereiras, Carmen: Pequenos infinitos, Difusora de Letras Artes e Ideas S.L., 2008.
    • Ruibal, Euloxio R.: De corpo enteiro, Edicións Xerais de Galicia, 1994.
    • Trigo, Xosé Manuel G.: Extintos básicos, Edicións Xerais de Galicia, 1998.
    • Aleixandre, Marilar: O coitelo en novembro, Edicións Xerais de Galicia, 2010.
    • Fonte, Ramiro: As regras do xogo. Dez relatos en xénero negro, Edicións do Cumio, 1990.
    • Fraga, Xesús: Tute para catro, Edicións Xerais de Galicia, 2000.
    • Franco, Camilo: A lúa no cénit e outros textos, Ediciós do Castro, 1988.
    • Franco, Camilo: Palabras contadas, Edicións Xerais de Galicia, 2006.
    • Hermida "Viñoa", Celsa G.: Anacos, Novos Vieiros, 2001.
    • Lourenzo González, M.: Noites de papel, Edicións Xerais de Galicia, 1997.
    • Martín, Paco: Tres historias para ler á noite, Galaxia, 1992.
    • Pereiras, Carmen: Pequenos infinitos, Difusora de Letras Artes e Ideas S.L., 2008.
    • Pérez Iglesias, David: Estación Término, Edicións Xerais de Galicia, 1993.

    O noso agradecemento ás entidades correspondentes polo seu permiso para publicar este recurso.

    Contacto

    Para calquera información adicional sobre o corpus pode poñerse en contacto connosco a través de corga@cirp.es.