Lexikoaren Behatokia, ia 60 milioi hitzeko euskarazko corpusa

Euskaltzaindiak Lexikoaren Behatokia eguneratu du, hainbat testu gehituta. Testu berri gehienak 2011-2016 bitartekoak dira.
Guztira, 58.576.635 testu-hitz biltzen ditu corp...

Euskaltzaindiak Lexikoaren Behatokia eguneratu du, hainbat testu gehituta. Testu berri gehienak 2011-2016 bitartekoak dira.
Guztira, 58.576.635 testu-hitz biltzen ditu corpusak une honetan, eta, batez ere, komunikabideetako dokumentuak biltzen ditu (egunkariak, aldizkariak eta irrati-telebista); dena den, azken urteotan iturriak dibertsifikatzen hasi dira, literatura eta irakaskuntzako testuak sartuz.
Corpusa lexikoarenbehatokia.euskaltzaindia.eus helbidean dago kontsultagai. Testu guztiak sailkatuta daude (esaterako, jakintza-arloaren eta erregistroaren arabera), eta hitz guztiak automatikoki lematizatuta daude, erabiltzaileek bilaketak errazago egin ditzaten eta bilaketaren emaitzak baliagarriagoak izan daitezen. Hala, esate baterako, «kontziliazio» bilatzen badugu, hitz horren forma guztien agerpenak bistaratuko dizkigu sistemak: kontziliaziorako, kontziliazioan, kontziliazioaz, kontziliazioaren…
Corpusak ezinbesteko tresna dira, gaur egun, hizkuntzaren gaineko ikerketetan, baita hiztegigintzan ere. Hala, Euskaltzaindiak bere hiztegi arauemailea elikatzeko iturri gisa baliatzen du corpus hau, Orotariko Euskal Hiztegiaren corpusarekin eta XX. mendeko Euskararen Corpus Estatistikoarekin batera.
UZEIk, EHUko IXA Taldeak eta Elhuyarrek elkarlanean dihardute proiektu honetan 2009tik, helburutzat hartuta euskara idatziaren gaur egungo erabileraren lagin esanguratsu bat biltzea.
Corpusa egiteko prozesua erdi automatizaturik dago, eta hizkuntza-teknologia aurreratua erabiltzen da. Proiektuan, bere corpusgintza-teknologia eta lexikografiako eskarmentua eskaintzen ditu Elhuyarrek.