Observatori del Lèxic, corpus en basc de gairebé 60 milions de paraules

Observatori del Lèxic, corpus en basc de gairebé 60 milions de paraules

2017 | març 07

Euskaltzaindia ha actualitzat l'Observatori del Lèxic amb diversos textos. La majoria dels nous textos es troben en el període 2011-2016.

En total, el corpus r...

Euskaltzaindia ha actualitzat l'Observatori del Lèxic amb diversos textos. La majoria dels nous textos es troben en el període 2011-2016.

En total, el corpus reuneix en aquest moment 58.576.635 paraules de text i, sobretot, documents dels mitjans de comunicació (periòdics, revistes i radiotelevisió), si bé en els últims anys s'ha començat a diversificar les fonts incorporant textos literaris i docents.

El corpus pot consultar-se en la següent adreça: euskaltzaindia.eus Tots els textos estan classificats (per exemple , per àrea de coneixement i registre) i totes les paraules estan lematizadas automàticament per a facilitar les cerques dels usuaris i fer més vàlids els resultats de la cerca. Així, per exemple, si busquem la «conciliació», el sistema ens mostrarà les aparicions de totes les formes d'aquesta paraula: la conciliació, la conciliació, la conciliació, la conciliació…

Els corpus són avui dia una eina imprescindible en la recerca lingüística i en l'elaboració de diccionaris. Així, Euskaltzaindia utilitza aquest corpus com a font per a alimentar el seu vocabulari normatiu, amb el corpus del Diccionari General Basc i el XX. Al costat del Corpus Estadístic del Basc del segle XX.

UZEI, el Grup IXA de la UPV/EHU i Elhuyar col·laboren en aquest projecte des de 2009 amb l'objectiu de recopilar una mostra representativa de l'ús actual del basc escrit.

El procés d'elaboració del corpus està semiautomatitzat i s'utilitza tecnologia lingüística avançada. En el projecte, Elhuyar ofereix la seva tecnologia de corpus i la seva experiència en lexicografia.

Contacte

Irune Bengoetxea Lanberri

Komunikazio-arduraduna

688676151

943363040 (Ext. 301)