Aller au contenu principal

La traduction a été créée automatiquement (elia.eus)

Noticia Elhuyar

Observatoire du Lexique, corpus en basque de près de 60 millions de mots

2017 | mars 07

 

Euskaltzaindia a mis à jour l'Observatoire du Lexique avec plusieurs textes. La plupart des nouveaux textes sont disponibles pour la période 2011-2016.

Au total, le corpus

 

Euskaltzaindia a mis à jour l'Observatoire du Lexique avec plusieurs textes. La plupart des nouveaux textes sont disponibles pour la période 2011-2016.

Au total, le corpus réunit en ce moment 58.576.635 mots de texte et, surtout, des documents des médias (journaux, revues et radiotélévision), bien que ces dernières années on ait commencé à diversifier les sources en incorporant des textes littéraires et enseignants.

Le corpus peut être consulté à l'adresse suivante : euskaltzaindia.eus Tous les textes sont classés (par exemple, par zone de connaissance et enregistrement) et tous les mots sont automatiquement lematisés pour faciliter les recherches des utilisateurs et rendre les résultats de recherche plus valides. Ainsi, par exemple, si nous cherchons la «conciliation», le système nous montrera les apparitions de toutes les formes de ce mot: la conciliation, la conciliation, la conciliation, la conciliation…

Les corpus sont aujourd'hui un outil indispensable dans la recherche linguistique et dans l'élaboration de dictionnaires. Ainsi, Euskaltzaindia utilise ce corpus comme source pour alimenter son vocabulaire normatif, avec le corpus du Dictionnaire Général Basque et le XX. À côté du Corpus Statistique de l'Euskera du XXe siècle.

UZEI, le Groupe IXA de l'UPV/EHU et Elhuyar collaborent à ce projet depuis 2009 dans le but de recueillir un échantillon représentatif de l'utilisation actuelle de l'euskera écrit.

Le processus d'élaboration du corpus est semi-automatisé et une technologie linguistique avancée est utilisée. Dans le projet, Elhuyar offre sa technologie de corpus et son expérience en lexicographie.