Observatori del Lèxic, corpus en basc de gairebé 60 milions de paraules

Euskaltzaindia ha actualitzat l'Observatori del Lèxic amb diversos textos. La majoria dels nous textos es troben en el període 2011-2016.
En total, el corpus r...

Euskaltzaindia ha actualitzat l'Observatori del Lèxic amb diversos textos. La majoria dels nous textos es troben en el període 2011-2016.
En total, el corpus reuneix en aquest moment 58.576.635 paraules de text i, sobretot, documents dels mitjans de comunicació (periòdics, revistes i radiotelevisió), si bé en els últims anys s'ha començat a diversificar les fonts incorporant textos literaris i docents.
El corpus pot consultar-se en la següent adreça: euskaltzaindia.eus Tots els textos estan classificats (per exemple , per àrea de coneixement i registre) i totes les paraules estan lematizadas automàticament per a facilitar les cerques dels usuaris i fer més vàlids els resultats de la cerca. Així, per exemple, si busquem la «conciliació», el sistema ens mostrarà les aparicions de totes les formes d'aquesta paraula: la conciliació, la conciliació, la conciliació, la conciliació…
Els corpus són avui dia una eina imprescindible en la recerca lingüística i en l'elaboració de diccionaris. Així, Euskaltzaindia utilitza aquest corpus com a font per a alimentar el seu vocabulari normatiu, amb el corpus del Diccionari General Basc i el XX. Al costat del Corpus Estadístic del Basc del segle XX.
UZEI, el Grup IXA de la UPV/EHU i Elhuyar col·laboren en aquest projecte des de 2009 amb l'objectiu de recopilar una mostra representativa de l'ús actual del basc escrit.
El procés d'elaboració del corpus està semiautomatitzat i s'utilitza tecnologia lingüística avançada. En el projecte, Elhuyar ofereix la seva tecnologia de corpus i la seva experiència en lexicografia.