Corpus de Referencia do Galego Actual

ISSN: 1988-1541
Versión: 3.2

O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental integrado por distintos tipos de textos representativos da lingua galega actual que están codificados na linguaxe estándar XML (eXtensible Markup Language) e que abranguen cronoloxicamente dende 1975 ata a actualidade. A codificación practicada afecta principalmente á información bibliográfica e á estruturación do documento, e posibilita realizar consultas, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, segundo diversos criterios que poden combinarse dependendo das necesidades do usuario: período temporal, área temática, tipo de documento, parte do documento etc.

O corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.

A presente aplicación facilita a obtención de datos lingüísticos mediante unha ferramenta de consulta que dá cabida ás diferentes aproximacións de busca: palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas, trazos morfolóxicos, lemas ou hiperlemas. Así, o sistema permite extraer os datos referentes ás frecuencias simples e completas, ou visualizar a información recuperada, ben en forma de concordancias ben en forma de expresións coincidentes. Así mesmo, a xeito de dicionario de frecuencias e a través dun módulo accesible dende a pestana Frecuencias, facilítase a obtención personalizada das frecuencias relativas a formas, etiquetas, lemas e hiperlemas mediante os parámetros lingüísticos e clasificatorios dispoñibles no sistema.

Data de actualización: 09/12/2019 (40,2 millóns de palabras)

Ademais de agradecer a todos os responsables a disposición pública de material propio de Internet como son os blogs ou xornais dixitais de acceso libre, agradecemos a colaboración das seguintes editoriais por cedérennos os documentos que se lles solicitan en formato electrónico: 3C3 EDITORES, AUGA EDITORA, CONSELLO DA CULTURA GALEGA, EDICIÓNS BARBANTESA, EDICIÓNS EMBORA, EDICIÓNS GALEBOOK, EDICIÓNS LAIOVENTO, EDICIÓNS POSITIVAS, EDICIÓNS XERAIS DE GALICIA, EDITORIAL GALAXIA, ESTALEIRO EDITORA, FOLLAS NOVAS EDICIÓNS, MORGANTE, SERMOS GALIZA, SERVIZO PUBLICACIÓNS UDC, SERVIZO PUBLICACIÓNS USC e URCO EDITORA.

Así mesmo, manifestamos o noso agradecemento á CRTVG pola cesión dos guións de series televisivas que se inclúen no corpus.

El Corpus de Referencia del Gallego Actual (CORGA) es un corpus documental integrado por distintos tipos de textos representativos de la lengua gallega actual que están codificados en el lenguaje estándar XML (eXtensible Markup Language) y que abarcan cronológicamente desde 1975 hasta la actualidad. La codificación practicada afecta principalmente a la información bibliográfica y a la estructuración del documento, y posibilita realizar consultas, con o sin expresiones regulares, por palabra completa, parte de una palabra o varias palabras o partes, contiguas o no, según diversos criterios que pueden combinarse en función de las necesidades del usuario: período temporal, área temática, tipo de documento, parte del documento, etc.

El corpus se enriqueció con el etiquetado automático de todos los documentos que lo integran, y con la incorporación de transcripciones ortográficas de programas de radio en las que se alinea el texto con la voz, con lo que en la recuperación de información es posible reproducir el fragmento sonoro que corresponde al resultado que se muestra.

La presente aplicación facilita la obtención de datos lingüísticos mediante una herramienta de consulta que da cabida a las diferentes aproximaciones de búsqueda: palabras ortográficas, elementos gramaticales, clases de palabras, etiquetas, rasgos morfológicos, lemas o hiperlemas. Así, el sistema permite extraer los datos referentes a las frecuencias simples y completas, o visualizar la información recuperada, bien en forma de concordancias bien en forma de expresiones coincidentes. Asimismo, a modo de diccionario de frecuencias y a través de un módulo accesible desde la pestaña Frecuencias, se facilita la obtención personalizada de las frecuencias relativas a formas, etiquetas, lemas e hiperlemas mediante los parámetros lingüísticos y clasificatorios disponibles en el sistema.

Fecha de actualización: 09/12/2019 (40,2 millones de palabras)

Además de agradecer a todos los responsables la disposición pública de material propio de Internet como son los blogs o periódicos digitales de acceso libre, agradecemos la colaboración de las siguientes editoriales por cedernos los documentos que se les solicitan en formato electrónico: 3C3 EDITORES, AUGA EDITORA, CONSELLO DA CULTURA GALEGA, EDICIÓNS BARBANTESA, EDICIÓNS EMBORA, EDICIÓNS GALEBOOK, EDICIÓNS LAIOVENTO, EDICIÓNS POSITIVAS, EDICIÓNS XERAIS DE GALICIA, EDITORIAL GALAXIA, ESTALEIRO EDITORA, FOLLAS NOVAS EDICIÓNS, MORGANTE, SERMOS GALIZA, SERVIZO PUBLICACIÓNS UDC, SERVIZO PUBLICACIÓNS USC y URCO EDITORA.

Asimismo, manifestamos nuestro agradecimiento a la CRTVG por la cesión de los guiones de series televisivas que se incluyen en el corpus.

The Corpus de Referencia do Galego Actual (CORGA) is a documentary corpus including different text-types representative of present-day Galician which are encoded in XML language and cover the period ranging from 1975 to the present day. Codification is mainly applied to bibliographic information and document structure, and enables queries with or without regular expressions, by complete word, truncated word, and several words or word-parts, whether they are consecutive or not. Besides, users can restrict searches by applying a number of criteria such as time-span, subject field, type of document, or document area which can be combined depending on their needs.

CORGA has been improved by the automatic tagging of all documents, together with the addition of orthographic transcriptions of radio broadcasts where text and voice are aligned. Such alignment allows users to access audio clips matching the written text fragments retrieved as a result of their queries.

This application makes it easier to obtain linguistic data using a query tool that allows for different search approaches: retrieval by orthographic words, grammatical elements, word classes, tags, morphological features, lemmas or hyperlemmas. Thus, the system allows to extract the data referring to the simple and complete frequencies, or to visualize the retrieved information, either as concordances or as coincident expressions. Likewise, it is easier to obtain personalized frequencies regarding forms, tags, lemmas and hyperlemmas through the linguistic and classification parameters available in the system, in a similar way to a frequency dictionary, by accessing through a module from the Frequencies tab.

Last update: 09/12/2019 (40,2 million words)

Besides thanking all individual contributors of linguistic material coming from blogs, free-access newspapers and other online resources, we would like to thank a number of publishing houses for their having granted us access to electronic versions of some of their publications: 3C3 EDITORES, AUGA EDITORA, CONSELLO DA CULTURA GALEGA, EDICIÓNS BARBANTESA, EDICIÓNS EMBORA, EDICIÓNS GALEBOOK, EDICIÓNS LAIOVENTO, EDICIÓNS POSITIVAS, EDICIÓNS XERAIS DE GALICIA, EDITORIAL GALAXIA, ESTALEIRO EDITORA, FOLLAS NOVAS EDICIÓNS, MORGANTE, SERMOS GALIZA, SERVIZO PUBLICACIÓNS UDC, SERVIZO PUBLICACIÓNS USC and URCO EDITORA.

We would also like to extend our thankfulness to CRTVG for the cession of the TV series scripts included in the corpus.

Esta web utiliza cookies propias e de terceiros co único propósito de analizar o uso da propia web. Se continúa navegando consideramos que acepta a súa utilización.