Observatorio del Léxico, corpus en euskera de casi 60 millones de palabras

Euskaltzaindia ha actualizado el Observatorio del Léxico con varios textos. La mayoría de los nuevos textos se encuentran en el periodo 2011-2016.
En total, el corpus reú...

Euskaltzaindia ha actualizado el Observatorio del Léxico con varios textos. La mayoría de los nuevos textos se encuentran en el periodo 2011-2016.
En total, el corpus reúne en este momento 58.576.635 palabras de texto y, sobre todo, documentos de los medios de comunicación (periódicos, revistas y radiotelevisión), si bien en los últimos años se ha comenzado a diversificar las fuentes incorporando textos literarios y docentes.
El corpus puede consultarse en la siguiente dirección: euskaltzaindia.eus Todos los textos están clasificados (por ejemplo, por área de conocimiento y registro) y todas las palabras están lematizadas automáticamente para facilitar las búsquedas de los usuarios y hacer más válidos los resultados de la búsqueda. Así, por ejemplo, si buscamos la «conciliación», el sistema nos mostrará las apariciones de todas las formas de esa palabra: la conciliación, la conciliación, la conciliación, la conciliación…
Los corpus son hoy en día una herramienta imprescindible en la investigación lingüística y en la elaboración de diccionarios. Así, Euskaltzaindia utiliza este corpus como fuente para alimentar su vocabulario normativo, con el corpus del Diccionario General Vasco y el XX. Junto al Corpus Estadístico del Euskera del siglo XX.
UZEI, el Grupo IXA de la UPV/EHU y Elhuyar colaboran en este proyecto desde 2009 con el objetivo de recopilar una muestra representativa del uso actual del euskera escrito.
El proceso de elaboración del corpus está semiautomatizado y se utiliza tecnología lingüística avanzada. En el proyecto, Elhuyar ofrece su tecnología de corpus y su experiencia en lexicografía.