Pasar al contenido principal
El euskera es la lengua con mayor número de significados en Wiki

El euskera es la lengua con mayor número de significados en Wiki

2019 | Octubre 16
  • Es el sexto en número de líneas (lexemas)
  • Segunda en número de formas de palabras
  • Es la lengua principal en cuanto al número de significados

Gracias a la colaboración de Euskal Wikilarien Kultur Elkartea y Elhuyar, el euskera es el sexto idioma de entre todas las lenguas presentes en Wiki, en número de líneas (lexemas), el segundo en número de formas verbales (teniendo en cuenta todas las formas que de la declinación de cada una de ellas), y es la lengua principal en cuanto al número de significados, por delante del inglés, del castellano y del francés, entre otras.

Wliquidata es una gran base de datos editada en colaboración. Está gestionado por la Fundación Wikimedia, para que pueda ser utilizado en sus proyectos como alimentar a Wikipedia.

Desde la puesta en marcha de la Wlikata en 2012 hemos ido alimentando progresivamente. Entre otros, hace casi dos años incorporamos unos 6.500 conceptos del Diccionario Enciclopédico de la Ciencia y la Tecnología, así como vídeos de Teknopolis.

En los últimos años, Wliquidata ha empezado a guardar nuevos tipos de datos, en muchas lenguas, en una estructura similar a los diccionarios. Toda esta información se guarda dividida en tres grupos: palabras raíz (entradas de vocabulario o lexemas), formas (formas que cada palabra puede adoptar en función del caso declinativo), significados o definiciones.

 

 

Gracias a la colaboración entre la Asociación Cultural Wikilarien Kultur Elkartea y Elhuyar, se han añadido en Wlikita varias palabras o lexemas (de la categoría nombre) del Diccionario del Estudiante de Elhuyar. En total se han añadido 10.000 lexemas, 65 formas de cada uno (en todos los casos de declinación, singular, plural e indefinido) y sus definiciones.

Gracias a este trabajo, ahora es más fácil identificar las palabras en euskera en textos de Wikipedia, por ejemplo, y pronto será posible realizar nuevos desarrollos tecnológicos a partir de estas bases de datos.

El código de programación desarrollado por el equipo de I+D de Elhuyar para este trabajo está disponible en GitHub.


Más información:

Galder Gonzalez Larrañaga @email

Klara Ceberio Berger @email

Contacto

Irune Bengoetxea Lanberri
Responsable de comunicación
943363040 (Ext. 301)