Corpus de Referencia do Galego Actual (CORGA)

Táboa de contidos

Título do proxecto

Corpus de Referencia do Galego Actual (CORGA)

Descrición

O Centro Ramón Piñeiro para a Investigación en Humanidades inclúe, entre os seus obxectivos fundacionais, o deseño e o desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega ao mundo das novas tecnoloxías da información. Co proxecto CORGA preténdese contribuír a ese obxectivo, poñendo a disposición da comunidade científica un novo recurso accesible a través de Internet que posibilite a obtención de datos para o estudo de aspectos morfolóxicos, sintácticos e léxicos dun período determinado da historia da nosa lingua.

O Corpus de Referencia do Galego Actual (CORGA) é unha colección de documentos que se almacenan en formato electrónico, na que están representados os diferentes tipos de textos da lingua galega actual (xornalísticos, literarios, etc.). Cronoloxicamente comprende textos publicados dende 1975 ata a actualidade.

Dirección/Coordinación

Director técnico da Área de Lingüística

Guillermo Rojo

Directora

Marisol López Martínez

Director adxunto

Francisco García Gondar

Coordinadora do equipo lingüístico

Eva Domínguez Noya

Coordinador informático

Fco. Mario Barcala Rodríguez

Persoal vinculado

Equipo lingüístico

Iria Gael Romay Fernández (2014-)

Natividad Otero Ares (2014-)

Ana Belén Crespo Bastos (2012-2014)

Marcos García Salido (2012-1013)

Outros membros do equipo informático

Fernando Magán Muñoz

José Carlos Sánchez Rivas

Membros anteriores do equipo lingüístico

Anxo Bea Sampedro (2009-2012)

Laura López Fernández (2009-2012)

Paula Gómez López (2008-2011)

Olalla Márquez Losada (2007-2010)

Isabel Porto Cacheiro (2006-2009)

Diego Bernal Rico (2009-2009)

Iria del Río Gayo (2007-2008)

Bárbara Canziani Kristensen (2007-2008)

Mario Regueira Fernández (2007)

Silvana Castro García (2006-2007)

Susana Vázquez Recarey (2004-2007)

Amparo Cereixo Silva(2003-2006)

Sonia Gómez Castro (2004-2006)

Belén López Gómez (2004-2006)

Sandra Domínguez Carreiro (2005-2006)

Damián Suárez Vázquez (2003-2005)

Luísa Pita Rubido (2001-2004)

Beatriz Fernández Paredes (2001-2004)

Cristina Blanco González (2001-2004)

Ana Ledo Villaverde (2000-2003)

Déborah González Martínez (2001-2003)

Xosé Bestilleiro Bello (2003-2003)

Xesús Mosquera Carregal (2000-2002)

M. Teresa Araújo García (1994-2001)

Sonia Varela Pombo (1998-2001)

Susana Ferreiro García (1998-2001)

Susana García Rodríguez (1997-2000)

Mónica Martínez Baleirón (1998-2000)

Antón Porto Sánchez (1998-1999)

Inés Diz Gamallo (1994-2001)

Pilar Vázquez Grandas (1994-1998)

M. Teresa Monteagudo Cabaleiro (1994-1998)

Membros anteriores do equipo informático

Miguel Ángel Molinero Álvarez (2005-2006)

Jesús Rodríguez Castro (1995-1998)

Publicacións resultantes

Participación en reunións científicas, congresos, encontros, cursos e outros eventos

Resultados

En outubro de 2001 o CORGA púxose, por primeira vez, dispoñible para consulta a través da rede. Esta primeira versión experimental, constituída por 12,5 millóns de formas, presentou unha codificación mínima e unha cabeceira sinxela que permitiron a recuperación da información consonte unha serie de parámetros (ano, medio e área temática). A partir de xaneiro de 2003 actualizouse esta versión, incrementando o número de formas ata os 17,5 millóns.

Dende o 2004 está dispoñible un novo sistema que utiliza unha codificación XML dos documentos, que é o que evolucionará no tempo. Dado que no 2003 aínda non se fixera esta conversión para todos os documentos, esta versión non chegaba aos 17,5 millóns de formas, que estaba previsto alcanzar a finais do 2006.

No 2007 púxose dispoñible unha nova versión do sistema que manexa case 20 millóns de formas e que xa inclúe todos os documentos da versión antiga e moitos outros documentos novos. Ademais, esta nova versión inclúe novas e significativas posibilidades de busca: consulta da nómina de autores e obras, interconexión do sistema de buscas co sistema de nómina, etc. o que posibilita ter uns valores de referencia moi útiles á hora de extraer conclusións a partir da análise de resultados.

No 2008 publícase a versión 1.3, que inclúe 23 millóns de formas.

No 2009 publícase a versión 1.4, con 25 millóns de formas e, ademais, a versión 1.0 dun sistema máis avanzado de buscas que traballa con 250.000 formas ortográficas correctamente etiquetadas e lematizadas.

No ano 2010 publícase a versión 1.5, con 25,8 millóns de formas e a versión 2.4 do sistema de buscas do corpus etiquetado que inclúe 360.000 formas ortográficas.

No ano 2013 publícase a versión 1.6, con 29 millóns de formas e a versión 2.5 do sistema de buscas do corpus etiquetado que inclúe 499.000 formas ortográficas.

No ano 2015 publícase a versión 1.7, con 31,9 millóns de formas e a versión 2.6 do sistema de buscas do corpus etiquetado que inclúe 617.000 formas ortográficas.

Estado actual

Actualmente estase a traballar, por unha banda, na incorporación de novos textos que fagan este corpus cada vez máis representativo e, pola outra, na mellora de funcionalidades e ampliación da base documental que utiliza o novo sistema de buscas.

Paralelamente tamén se está a traballar na mellora dun analizador morfolóxico de alta precisión, que xa se está empregando como ferramenta de axuda para anotar e desambiguar os documentos do CORGA. O fin último é o de desenvolver esta segunda xeración de sistemas de consulta sobre o CORGA completo, o que permitirá utilizar información lingüística (lemas, categorías gramaticais, etc.) para facer diferentes tipos de buscas.

Acceso

O acceso a este recurso é gratuíto e pode facerse, previa solicitude de rexistro como usuario, no enderezo:

http://corpus.cirp.es/corga

Tamén se pode acceder directamente ao novo sistema de buscas, que traballa con un subconxunto de 617.000 formas ortográficas, no enderezo:

http://corpus.cirp.es/corgaetq

Contacto

Se ten algunha dúbida ou pregunta sobre calquera aspecto relacionado con este proxecto, pode contactar con nós a través de: corga@cirp.es




Data da última actualización: 13/01/2015

Valid XHTML 1.0 Strict