Pasar al contenido principal
Noticia Elhuyar

Observatorio del Léxico, corpus en euskera de casi 60 millones de palabras

2017 | Marzo 07

 

Euskaltzaindia ha actualizado el Observatorio del Léxico con varios textos. La mayoría de los nuevos textos se encuentran en el periodo 2011-2016.

En total, el corpus reú...

 

Euskaltzaindia ha actualizado el Observatorio del Léxico con varios textos. La mayoría de los nuevos textos se encuentran en el periodo 2011-2016.

En total, el corpus reúne en este momento 58.576.635 palabras de texto y, sobre todo, documentos de los medios de comunicación (periódicos, revistas y radiotelevisión), si bien en los últimos años se ha comenzado a diversificar las fuentes incorporando textos literarios y docentes.

El corpus puede consultarse en la siguiente dirección: euskaltzaindia.eus Todos los textos están clasificados (por ejemplo, por área de conocimiento y registro) y todas las palabras están lematizadas automáticamente para facilitar las búsquedas de los usuarios y hacer más válidos los resultados de la búsqueda. Así, por ejemplo, si buscamos la «conciliación», el sistema nos mostrará las apariciones de todas las formas de esa palabra: la conciliación, la conciliación, la conciliación, la conciliación…

Los corpus son hoy en día una herramienta imprescindible en la investigación lingüística y en la elaboración de diccionarios. Así, Euskaltzaindia utiliza este corpus como fuente para alimentar su vocabulario normativo, con el corpus del Diccionario General Vasco y el XX. Junto al Corpus Estadístico del Euskera del siglo XX.

UZEI, el Grupo IXA de la UPV/EHU y Elhuyar colaboran en este proyecto desde 2009 con el objetivo de recopilar una muestra representativa del uso actual del euskera escrito.

El proceso de elaboración del corpus está semiautomatizado y se utiliza tecnología lingüística avanzada. En el proyecto, Elhuyar ofrece su tecnología de corpus y su experiencia en lexicografía.

Contacto

Irune Bengoetxea Lanberri
Responsable de comunicación
943363040 (Ext. 301)