Claves para entender la polémica con Euskorpus
|
El lanzamiento de Euskorpus ha estado rodeado de polémica. El proyecto aspira a situar al euskera en el mundo de la inteligencia artificial pero hay quien acusa de clientelismo a los que respaldan la iniciativa. Veamos.
¿Qué es Euskorpus? Un proyecto financiado por el Gobierno Vasco para «perfeccionar» el corpus digital de textos en euskera, base fundamental para mejorar los «modelos» de inteligencia artificial (IA), también conocidos como LLM (Large Language Model), que son capaces de entender y hablar en ese idioma.
¿Qué es un corpus digital? Es una colección de textos que permite entrenar a las herramientas de IA para que sean capaces de entender e imitar el lenguaje humano. Aquí encajan desde libros hasta artículos en euskera, sin olvidar la transcripción de programas de televisión y radio.
¿Y qué es un LLM? Es una herramienta que utiliza IA para entender e imitar al ser humano. La más conocida es ChatGPT, pero hay más, como Claude (Anthropic, ligado a Amazon), Gemini (Google), la francesa Mistral y la china DeepSeek. Hay incluso un LLM hecho para el euskera, Latxa, desarrollado desde el centro tecnológico Hitz en la UPV en base a Lama, un modelo de código abierto elaborado por Facebook-Meta. Generalmente un LLM sirve para cualquier idioma y ámbito de conocimiento, aunque pueden afinarse para uno concreto, tal y como ha hecho Hitz con Latxa o Mistral con la lengua árabe.
Si ya hay herramientas de IA que entienden y hablan euskera, ¿por qué es necesario Euskorpus? El gran problema de los idiomas minoritarios es la escasez de textos para entrenar a las herramientas de IA. Euskorpus busca precisamente aumentar esta base documental de una forma abierta, para que se puedan beneficiar todas las herramientas del mercado, con independencia de su modelo comercial.
¿Se trata de euskaldunizar a la IA? Es una bonita forma de contarlo, pero no es técnicamente así. La IA habla de por sí cualquier idioma, siempre que haya textos que le permitan aprender. De hecho, Anthropic Claude y DeepSeek se comportan de una manera bastante decente en euskera. Se trata más bien de mejorar esta euskaldunización y de hacerla accesible a todas las organizaciones que quieran desarrollar herramientas.
¿Quién está detrás de Euskorpus? Fundamentalmente el centro tecnológico Vicomtech, cuyo máximo responsable, Julián Flórez, es a su vez el presidente de Euskorpora, la asociación que se ha hecho cargo de Euskorpus. Hay otros socios, cuyo nombre se ha revelado recientemente: Ereil Technologies (spinoff de Vicomtech), Trebe (spinoff de Vicomtech), Euskaltzaindia, Baleuko, Mixer, EiTB, CAF, Grupo Mondragon, Petronor, Euskaltel Fundazioa, Kutxabank, PWC, y Logikaline. Los que tienen contenido propio, como EITB o Baleuko, o tecnología, como Trebe, está claro lo que pueden aportar, pero hay otros que resulta difícil de entender su papel en esta asociación, más allá de hacer un favor.
¿Y qué pinta el Gobierno Vasco? Además de como miembro, es el que pone el dinero. En concreto, para los dos próximos años ha previsto un desembolso de 5,55 millones. Curiosamente, la mayor parte de ellos correrán a cargo de la Consejería de Industria, cuando hasta ahora era la de Cultura la que financiaba la práctica totalidad de las actividades de fomento del euskera en las nuevas tecnologías.
¿Se echa de menos a otros actores? El hecho de que en el consorcio no figuren grandes medios euskaldunes, como Berria o Argia, resulta difícil de entender. Salvo que la concepción inicial sea la de comprarles su contenido para completar el corpus. A nivel tecnológico también faltan algunos actores relevantes, «agentes fundamentales» según Bildu, como Elhuyar o la propia UPV. El hecho de que Pello Otxandiano haya hecho manifestaciones al respecto e incluso una pregunta parlamentaria, vía Lore Martínez, permite deducir cierta intencionalidad política. Elhuyar y Vicomtech hace años que están enfrentados. Sin ir más lejos, las dos entidades han desarrollado traductores automáticos de euskera independientes. Además, Hitz y Elhuyar liberaron hace tiempo un corpus en euskera con millones de documentos que no está claro si se va a integrar en Euskorpus.