CORGA

ISSN: 1988-1541

Versión: 4.1

O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental integrado por distintos tipos de textos representativos da lingua galega actual que están codificados na linguaxe estándar XML (eXtensible Markup Language) e que abranguen cronoloxicamente dende 1975 ata a actualidade. A codificación practicada afecta principalmente á información bibliográfica e á estruturación do documento, e posibilita realizar consultas, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, segundo diversos criterios que poden combinarse dependendo das necesidades do usuario: período temporal, área temática, tipo de documento, parte do documento etc.

O corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.

A presente aplicación facilita a obtención de datos lingüísticos mediante unha ferramenta de consulta que dá cabida ás diferentes aproximacións de busca: palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas, trazos morfolóxicos, lemas ou hiperlemas. Sobre estes datos, o sistema permite extraer as frecuencias simples e completas, visualizar a información recuperada en forma de concordancias ou obter o inventario dos elementos solicitados para a totalidade do corpus ou para cada un dos parámetros clasificatorios (lustro, medio, orixe, xénero, subtipo de documento, área temática ou sexo do autor). Engádese ademais a posibilidade de procurar nunha obra específica e por un certo autor ou polo sexo deste e, así mesmo, ofrécese un sistema de consulta da nómina de autores e obras que conforman o corpus e mais unha primeira versión para a procura de coaparicións.

Data de actualización: 11/4/2024 (45 millóns de palabras)

Ademais de agradecer a disposición pública de material propio de Internet como son os blogs ou xornais dixitais de acceso libre, agradecemos a colaboración das seguintes editoriais por cedérennos documentos en formato electrónico: 3C3 EDITORES, AIRA EDITORIAL, AUGA EDITORA, CONSELLO DA CULTURA GALEGA, EDICIÓNS BARBANTESA, EDICIÓNS EMBORA, EDICIÓNS GALEBOOK, EDICIÓNS LAIOVENTO, EDICIÓNS POSITIVAS, EDICIÓNS XERAIS DE GALICIA, EDITORIAL GALAXIA, ELVIRA EDITORIAL, ESTALEIRO EDITORA, FOLLAS NOVAS EDICIÓNS, MORGANTE, SERMOS GALIZA, SERVIZO PUBLICACIÓNS UDC, SERVIZO PUBLICACIÓNS USC e URCO EDITORA.

Así mesmo, manifestamos o noso agradecemento á CRTVG pola cesión dos guións de series televisivas que se inclúen no corpus.

El Corpus de Referencia del Gallego Actual (CORGA) es un corpus documental integrado por distintos tipos de textos representativos de la lengua gallega actual que están codificados en el lenguaje estándar XML (eXtensible Markup Language) y que abarcan cronológicamente desde 1975 hasta la actualidad. La codificación practicada afecta principalmente a la información bibliográfica y a la estructuración del documento, y posibilita realizar consultas, con o sin expresiones regulares, por palabra completa, parte de una palabra o varias palabras o partes, contiguas o no, según diversos criterios que pueden combinarse en función de las necesidades del usuario: período temporal, área temática, tipo de documento, parte del documento, etc.

El corpus se enriqueció con el etiquetado automático de todos los documentos que lo integran, y con la incorporación de transcripciones ortográficas de programas de radio en las que se alinea el texto con la voz, con lo que en la recuperación de información es posible reproducir el fragmento sonoro que corresponde al resultado que se muestra.

La presente aplicación facilita la obtención de datos lingüísticos mediante una herramienta de consulta que da cabida a las diferentes aproximaciones de búsqueda: palabras ortográficas, elementos gramaticales, clases de palabras, etiquetas, rasgos morfológicos, lemas e hiperlemas. Sobre estos datos, el sistema permite extraer las frecuencias simples y completas, visualizar la información recuperada en forma de concordancias u obtener el inventario de los elementos solicitados para la totalidad del corpus o para cada uno de los parámetros clasificatorios (lustro, medio, origen, género, subtipo de documento, área temática o sexo del autor). Se añade además la posibilidad de buscar en una obra específica y por un cierto autor o por el sexo de este y, asimismo, se ofrece un sistema de consulta de la nómina de autores y obras que conforman el corpus y una primera versión para la consulta de coapariciones.

Fecha de actualización: 11/4/2024 (45 millones de palabras)

Además de agradecer la disposición pública de material propio de Internet como son los blogs o periódicos digitales de acceso libre, agradecemos la colaboración de las siguientes editoriales por cedernos documentos en formato electrónico: 3C3 EDITORES, AIRA EDITORIAL, AUGA EDITORA, CONSELLO DA CULTURA GALEGA, EDICIÓNS BARBANTESA, EDICIÓNS EMBORA, EDICIÓNS GALEBOOK, EDICIÓNS LAIOVENTO, EDICIÓNS POSITIVAS, EDICIÓNS XERAIS DE GALICIA, EDITORIAL GALAXIA, ELVIRA EDITORIAL, ESTALEIRO EDITORA, FOLLAS NOVAS EDICIÓNS, MORGANTE, SERMOS GALIZA, SERVIZO PUBLICACIÓNS UDC, SERVIZO PUBLICACIÓNS USC y URCO EDITORA.

Asimismo, manifestamos nuestro agradecimiento a la CRTVG por la cesión de los guiones de series televisivas que se incluyen en el corpus.

The Corpus de Referencia do Galego Actual (CORGA) is a documentary corpus including different text-types representative of present-day Galician which are encoded in XML language and cover the period ranging from 1975 to the present day. Codification is mainly applied to bibliographic information and document structure, and enables queries with or without regular expressions, by complete word, truncated word, and several words or word-parts, whether they are consecutive or not. Besides, users can restrict searches by applying a number of criteria such as time-span, subject field, type of document, or document area which can be combined depending on their needs.

CORGA has been improved by the automatic tagging of all documents, together with the addition of orthographic transcriptions of radio broadcasts where text and voice are aligned. Such alignment allows users to access audio clips matching the written text fragments retrieved as a result of their queries.

The present application facilitates the retrieval of linguistic data by means of a query tool that enables different search approaches: orthographic words, grammatical elements, word classes, tags, morphological features, lemmas or hyperlemmas. Based on these data, the system offers the possibility to extract simple and complete frequencies, to display the retrieved information in the form of concordances or to obtain the inventory of the requested elements for the whole corpus or for each of the classificatory parameters (period, source, origin, genre, subtype of document, subject area or author's gender). This version also includes the possibility of searching within a specific work and by a selected author or even by author's gender. Additionally, it offers a system for consulting the list of authors and works that make up the corpus, as well as a first version for searching for co-occurrences.

Last update: 4/11/2024 (45 million words)

Besides thanking all individual contributors of linguistic material coming from blogs, free-access newspapers and other online resources, we would like to thank a number of publishing houses for their having granted us access to electronic versions of some of their publications: 3C3 EDITORES, AIRA EDITORIAL, AUGA EDITORA, CONSELLO DA CULTURA GALEGA, EDICIÓNS BARBANTESA, EDICIÓNS EMBORA, EDICIÓNS GALEBOOK, EDICIÓNS LAIOVENTO, EDICIÓNS POSITIVAS, EDICIÓNS XERAIS DE GALICIA, EDITORIAL GALAXIA, ELVIRA EDITORIAL, ESTALEIRO EDITORA, FOLLAS NOVAS EDICIÓNS, MORGANTE, SERMOS GALIZA, SERVIZO PUBLICACIÓNS UDC, SERVIZO PUBLICACIÓNS USC and URCO EDITORA.

We would also like to extend our thankfulness to CRTVG for the cession of the TV series scripts included in the corpus.