Corpus de Referencia do Galego Actual (CORGA)
Táboa de contidos
Título do proxecto
Corpus de Referencia do Galego Actual (CORGA)
Descrición
O Centro Ramón Piñeiro para a Investigación en Humanidades inclúe, entre os seus obxectivos fundacionais, o deseño e o desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega ao mundo das novas tecnoloxías da información. Co proxecto CORGA preténdese contribuír a ese obxectivo, poñendo a disposición da comunidade científica un novo recurso accesible a través de Internet que posibilite a obtención de datos para o estudo de aspectos morfolóxicos, sintácticos e léxicos dun período determinado da historia da nosa lingua.
O Corpus de Referencia do Galego Actual (CORGA) é unha colección de documentos que se almacenan en formato electrónico, na que están representados os diferentes tipos de textos da lingua galega actual (xornalísticos, literarios, etc.). Cronoloxicamente comprende textos publicados dende 1975 ata a actualidade.
Dirección/Coordinación
Director
Guillermo Rojo
Director Adxunto
Francisco García Gondar
Coordinadora do equipo lingüístico
Eva Domínguez Noya
Coordinador informático
Fco. Mario Barcala Rodríguez
Persoal vinculado
Equipo lingüístico
Isabel Porto Cacheiro (2006-)
Olalla Márquez Losada (2007-)
Paula Gómez López (2008-)
Laura López Fernández (2009-)
Outros membros do equipo informático
Fernando Magán Muñoz
José Carlos Sánchez Rivas
Membros anteriores do equipo lingüístico
Diego Bernal Rico (2009-2009)
Iria del Río Gayo (2007-2008)
Bárbara Canziani Kristensen (2007-2008)
Mario Regueira Fernández (2007)
Silvana Castro García (2006-2007)
Susana Vázquez Recarey (2004-2007)
Amparo Cereixo Silva(2003-2006)
Sonia Gómez Castro (2004-2006)
Belén López Gómez (2004-2006)
Sandra Domínguez Carreiro (2005-2006)
Damián Suárez Vázquez (2003-2005)
Luísa Pita Rubido (2001-2004)
Beatriz Fernández Paredes (2001-2004)
Cristina Blanco González (2001-2004)
Ana Ledo Villaverde (2000-2003)
Déborah González Martínez (2001-2003)
Xosé Bestilleiro Bello (2003-2003)
Xesús Mosquera Carregal (2000-2002)
M. Teresa Araújo García (1994-2001)
Sonia Varela Pombo (1998-2001)
Susana Ferreiro García (1998-2001)
Susana García Rodríguez (1997-2000)
Mónica Martínez Baleirón (1998-2000)
Antón Porto Sánchez (1998-1999)
Inés Diz Gamallo (1994-2001)
Pilar Vázquez Grandas (1994-1998)
M. Teresa Monteagudo Cabaleiro (1994-1998)
Membros anteriores do equipo informático
Miguel Ángel Molinero Álvarez (2005-2006)
Jesús Rodríguez Castro (1995-1998)
Publicacións resultantes
- A Corpus and Lexical Resources for Multi-word Terminology Extraction in the Field of Economy in a Minority Language, Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo. Human Language Technologies as a Challenge for Computer Science and Linguistics. Proceedings of 3rd Language & Technology Conference, Zygmunt Vetulani (ed.), Poland, 2007, pp. 359-363.
- El proyecto Gari-Coter en el seno del proyecto RICOTERM, Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo. Procesamiento del Lenguaje Natural, 39, Víctor J. Díaz Madrigal e Fernando Enríquez de Salamanca (eds.), 2007, pp.295-296.
- Practical application of one-pass Viterbi algorithm in tokenization and part-of-speech tagging, Miguel A. Molinero, Fco. Mario Barcala, Juan Otero, Jorge Graña. Proc. of International Conference RANLP 2007, Recent Advances in Natural Language Processing, Borovets, Bulgaria, 2007, pp. 35-40.
- XML rules for enclitic segmentation, Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Computer Aided Systems Theory - EUROCAST 2007, Revised Selected Papers, Lecture Notes in Computer Science, 4739 Springer-Verlag, Berlin-Heidelberg-New York, 2007, pp. 273-281.
- XML rules for enclitic segmentation, Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Proc. of Eleventh Computer Aided Systems Theory - EUROCAST 2007, Extendeds Abstracts, Alexis Quesada-Arencibia, José Carlos Rodríguez-Rodríguez, Roberto Moreno-Díaz jr., Roberto Moreno-Díaz (eds.), Las Palmas de Gran Canaria, España, 2007, pp. 93-94.
- Information Retrieval and Large Text Structured Corpora. Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Computer Aided Systems Theory - EUROCAST 2005, Revised Selected Papers, Lecture Notes in Computer Science, 3643, Springer-Verlag Berlin, Heidelberg, New York, 2005, pp. 91-100.
- Information Retrieval and Large Text Structured Corpora. Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Proc. of Tenth International Conference on Computer Aided Systems Theory - EUROCAST 2005, Extended Abstracts, Alexis Quesada-Arencibia, Roberto Moreno-Díaz jr. and José-Carlos Rodríguez (eds.), Las Palmas de Gran Canaria, Spain, 2005, pp. 55-57.
- Construcción de sistemas de recuperación de información sobre córpora textuales estructurados de grandes dimensiones. Fco. Mario Barcala, Miguel A. Molinero, Eva Domínguez. Procesamiento del Lenguaje Natural, 34, 2005, pp. 41-48.
- El 'Corpus de Referencia del Gallego Actual' (CORGA). Problemas de configuración y anotación, María Sol López Martínez, Claus D. Pusch, Johannes Kabatek e Wolfgang Raible (eds.), Romanistische Korpuslinguistik II = Romance Corpus Linguistics II: Korpora und diachrone Sprachwissenschaft = Corpora and Diachornic Linguistics, Tübingen, Gunter Narr, 2005, pp. 281-292.
- Automatic Spelling Correction in Galician, Manuel Vilares, Juan Otero, Fco. Mario Barcala, Eva Domínguez. Advances in Natural Language Processing, Lecture Notes in Artificial Intelligence, 3230, José Luis Vicedo, Patricio Martínez-Barco, Rafael Muñoz and Maximiliano Saiz Noeda (eds.), Springer-Verlag, Berlin-Heidelberg-New York, 2004, pp. 51-57.
- CORGA (Corpus de Referencia del Gallego Actual), María Sol López Martínez. Hizkuntza-corpusak: Oraina eta geroa, 2004.
- Formal Methods of Tokenization for Part-of-Speech Tagging, Jorge Graña, Fco. Mario Barcala, Jesús Vilares. Computational Linguistics and Intelligent Text Processing, Lecture Notes in Computer Science, 2276, Alexander Gelbukh (ed.), Springer-Verlag, Berlin-Heidelberg-New York, 2002, pp. 240-249.
- A Common Solution for Tokenization and Part-of-Speech Tagging: One-Pass Viterbi Algorithm vs. Iterative Approaches, Jorge Graña, Miguel A. Alonso, Manuel Vilares. Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence, 2448, Petr Sojka, Ivan Kopecek and Karel Pala (eds.), Springer-Verlag, Berlin-Heidelberg-New York, 2002, pp. 3-10.
- El sistema ERIAL: LEIRA, un entorno para RI basado en PLN, Fco. Mario Barcala, Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo. Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.), Editorial UPV, Valencia, Spain, 2002, pp. 173-174.
- Una aplicación de RI basada en PLN: el proyecto ERIAL, Fco. Mario Barcala, Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo. Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.), Editorial UPV, Valencia, Spain, 2002, pp. 165-172.
- Presentación do proxecto CORGA: Corpus de Referencia do Galego Actual, María Sol López Martínez, Francisco García Gondar. Actas da VIII Conferencia Internacional de Linguas Minoritarias, Mª Xesús Bugarín López et al. (eds.), Santiago de Compostela, 2002, pp. 359-343.
Participación en reunións científicas, congresos, encontros, cursos e outros eventos
- A lexicografía galega no século XXI. Santiago de Compostela, novembro de 2006, Eva Domínguez Noya.
- VIII Encontros para a Normalización Lingüística. Santiago de Compostela, 20-22 de xaneiro de 2005, María Sol López Martínez e Fco. Mario Barcala Rodríguez.
- EUROCAST 2005: Workshop on Intelligent Information Systems. Las Palmas, 7-11 de febreiro de 2005, Fco. Mario Barcala Rodríguez.
- Actas da VIII Conferencia Internacional de Linguas Minoritarias, 22-24 de novembro de 2001, María Sol López Martínez e Francisco García Gondar.
Resultados
En outubro de 2001 o CORGA púxose, por primeira vez, dispoñible para consulta a través da rede. Esta primeira versión experimental, constituída por 12,5 millóns de formas, presentou unha codificación mínima e unha cabeceira sinxela que permitiron a recuperación da información consonte a unha serie de parámetros (ano, medio e área temática). A partir de xaneiro de 2003 actualizouse esta versión, incrementando o número de formas ata os 17,5 millóns.
Dende o 2004 está dispoñible tamén un novo sistema que utiliza unha codificación XML dos documentos, que é o que evolucionará no tempo. Dado que no 2003 aínda non se fixera esta conversión para todos os documentos, esta versión non chegaba aos 17,5 millóns de formas, que estaba previsto alcanzar a finais do 2006.
No 2007 púxose dispoñible unha nova versión do sistema que manexa case 20 millóns de formas e que xa inclúe todos os documentos da versión antiga e moitos outros documentos novos. Ademais, esta nova versión inclúe novas e significativas posibilidades de busca: consulta da nómina, interconexión do sistema de buscas co sistema de nómina, etc. o que posibilita ter uns valores de referencia moi útiles á hora de extraer conclusións a partir da análise de resultados.
No 2008 publícase a versión 1.3, que inclúe 23 millóns de formas.
No 2009 publícase a versión 1.4, con 25 millóns de formas e, ademais, a versión 1.0 dun sistema máis avanzado de buscas que traballa con 250.000 formas ortográficas correctamente etiquetadas e lematizadas.
Estado actual
Actualmente estase a traballar, por unha banda, na incorporación de novos textos que fagan este corpus cada vez máis representativo e, pola outra, na mellora de funcionalidades e ampliación da base documental que utiliza o novo sistema de buscas.
Paralelamente tamén se está a traballar na mellora dun analizador morfolóxico de alta precisión, que xa se está empregando como ferramenta de axuda para anotar e desambiguar os documentos do CORGA. O fin último é o de desenvolver esta segunda xeración de sistema de consultas sobre o CORGA completo, o que permitirá utilizar esta información lingüística (lemas, categorías gramaticais, etc.) para facer diferentes tipos de buscas.
Acceso
O acceso a este recurso é gratuíto e pode facerse, previa solicitude de rexistro como usuario, no enderezo:
Tamén se pode acceder directamente ao novo sistema de buscas, que traballa con un subconxunto de 250.000 formas ortográficas, no enderezo:
http://corpus.cirp.es/corgaetq
Contacto
Se ten algunha dúbida ou pregunta sobre calquera aspecto relacionado con este proxecto, pode contactar con nós a través de: corga@cirp.es
| Data da última actualización: 16/07/2009 |
