Observatorio do Léxico, corpus en eúscaro de case 60 millóns de palabras

Observatorio do Léxico, corpus en eúscaro de case 60 millóns de palabras

2017 | Marzo 07

Euskaltzaindia actualizou o Observatorio do Léxico con varios textos. A maioría dos novos textos atópanse no período 2011-2016.

En total, o corpus

Euskaltzaindia actualizou o Observatorio do Léxico con varios textos. A maioría dos novos textos atópanse no período 2011-2016.

En total, o corpus reúne neste momento 58.576.635 palabras de texto e, sobre todo, documentos dos medios de comunicación (xornais, revistas e radiotelevisión), aínda que nos últimos anos comezouse a diversificar as fontes incorporando textos literarios e docentes.

O corpus pode consultarse na seguinte dirección: euskaltzaindia.eus Todos os textos están clasificados (por exemplo , por área de coñecemento e rexistro) e todas as palabras están lematizadas automaticamente paira facilitar as procuras dos usuarios e facer máis válidos os resultados da procura. Así, por exemplo, si buscamos a «conciliación», o sistema mostraranos as aparicións de todas as formas desa palabra: a conciliación, a conciliación, a conciliación, a conciliación…

Os corpus son hoxe en día una ferramenta imprescindible na investigación lingüística e na elaboración de dicionarios. Así, Euskaltzaindia utiliza este corpus como fonte paira alimentar o seu vocabulario normativo, co corpus do Dicionario Xeral Vasco e o XX. Xunto ao Corpus Estatístico do Eúscaro do século XX.

UZEI, o Grupo IXA da UPV/EHU e Elhuyar colaboran neste proxecto desde 2009 co obxectivo de recompilar una mostra representativa do uso actual do eúscaro escrito.

O proceso de elaboración do corpus está semiautomatizado e utilízase tecnoloxía lingüística avanzada. No proxecto, Elhuyar ofrece a súa tecnoloxía de corpus e a súa experiencia en lexicografía.

Contacto

Irune Bengoetxea Lanberri
Komunikazio-arduraduna

688676151

943363040 (Ext. 301)