Green Home Press
  • Selección Green
  • Bienestar
  • Ciencia
  • Economía
  • Energía
    • Precio de la Luz
  • Tecnología
No Result
View All Result
Writy.
  • Selección Green
  • Bienestar
  • Ciencia
  • Economía
  • Energía
    • Precio de la Luz
  • Tecnología
No Result
View All Result
Green Home Press
No Result
View All Result
Home Tecnología

Una voz que no pertenece a ninguna empresa: la comunidad māori construye su propia IA para proteger su lengua

by David Pérez
4 de junio de 2026
in Tecnología
Anciana māori grabando su voz en te reo Māori ante un micrófono en un salón comunitario de Nueva Zelanda

Una hablante mayor de te reo Māori participa en un proyecto comunitario de inteligencia artificial para preservar su lengua indígena, lejos de las grandes tecnológicas.

Ngaringi Katipa leía en voz alta pasajes de libros. Nada más. Un micrófono, un dialecto māori escasamente documentado —el Waikato-Maniapoto— y horas de grabación cuyo propósito ella misma no alcanzaba a ver del todo en ese momento.

Mientras tanto, ChatGPT, Claude y Perplexity ya escriben y hablan te reo Māori con fluidez. Lo hacen con texto y audio producidos por comunidades māori que fueron recopilados sin permiso, procesados fuera de Nueva Zelanda y devueltos al mundo a través de plataformas propiedad de grandes corporaciones tecnológicas.

Lo que Katipa grabó apunta en una dirección muy distinta.

La lengua que las grandes tecnológicas tomaron sin pedir permiso

Cuando ChatGPT escribe en te reo Māori, lo hace con soltura. Claude y Perplexity también. Pero esa soltura tiene un coste que no asumieron las empresas: el texto y el audio que alimentaron esos modelos fueron recopilados sin el consentimiento de las comunidades māori ni de los investigadores que los generaron. Los datos salieron de Nueva Zelanda, se procesaron en servidores extranjeros y regresaron como producto comercial de compañías que no rinden cuentas ante nadie en Aotearoa.

Te Taka Keegan, profesor asociado de la Universidad de Waikato y codirector de su Instituto de Inteligencia Artificial, lo formula con precisión: «La lengua es el principal vehículo de nuestro conocimiento… y vemos cómo tecnología desarrollada fuera de Aotearoa gana cada vez más control sobre su transmisión». No es un problema técnico. Es de soberanía.

Solo el 4,3 % de los neozelandeses habla māori con fluidez. La lengua es un recurso frágil, y cada sistema que la procesa sin supervisión comunitaria erosiona un poco más el control sobre cómo se transmite y a quién termina beneficiando.

Ngaringi Katipa y las siete horas que cambiaron las reglas

Keegan incorporó a Ngaringi Katipa —traductora, educadora y mentora lingüística— como la voz humana y consintiente del proyecto. No fue una cesión de datos: Katipa fue compensada de forma justa, en parte gracias a una financiación de Google que llegó sin condiciones ni reclamaciones de titularidad.

Las grabaciones empezaron de manera sencilla: Katipa leyendo pasajes de libros. Esas primeras sesiones produjeron 4,5 horas de audio. El corpus se amplió después con listas de palabras y frases elaboradas por Peter Keegan, hermano de Te Taka y experto en lingüística māori, quien incluyó términos poco frecuentes para cubrir el vocabulario más expuesto. El resultado final, una vez depurado y procesado, fue de 7 horas y 45 minutos.

La cifra parece modesta —los estándares del sector recomiendan centenares de horas para entrenar modelos de voz—, pero el equipo eligió el dialecto Waikato-Maniapoto con intención clara. «Es en los dialectos donde se ve la verdadera belleza de la lengua; los vincula a un lugar y a una identidad concreta», explica Keegan. Esa especificidad también acotaba el problema y hacía manejable el volumen de datos necesario.

Los retos técnicos de una lengua donde la duración de una vocal cambia el significado

El māori plantea desafíos fonéticos que los modelos entrenados en inglés no anticipan. La longitud vocálica no es un matiz estilístico: es semántica. Keke significa tarta; kēkē, axila; kekē, crujir. Un error de pronunciación no suena extraño, directamente cambia el significado.

El equipo descartó el enfoque basado en caracteres y apostó por fonemas: convertir el texto en una representación fonética antes de que el modelo comience a aprender. «Darle al modelo las reglas de fonemas desde el principio fue como darle ventaja», explica Kingsley Eng, entonces estudiante de máster de Keegan. Se utilizó la herramienta de código abierto eSpeak NG con un conjunto de reglas māori adaptadas para el proyecto.

Se probaron cuatro arquitecturas neuronales distintas: Matcha-TTS, Tacotron2, Piper y variantes intermedias. La elegida fue Piper, que puede ejecutarse sin conexión en máquinas locales —un detalle relevante para comunidades con infraestructura limitada—. La tasa de error de palabras resultante fue del 6,78 %, considerada «buena» según los estándares actuales. En una prueba con 68 hablantes fluidos, el 35 % no logró distinguir la voz sintética de la humana, incluidos algunos familiares de Katipa que conocen su voz de toda la vida.

Propiedad colectiva: el modelo que ninguna empresa puede reclamar

Desde el punto de vista del derecho de propiedad intelectual convencional, la voz pertenece a Katipa. Keegan rechaza ese marco por insuficiente. «Es un tesoro transmitido por sus ancestros; su papel es protegerlo para sus hijos y sus nietos.» La voz no es un activo individual ni universitario: es un bien colectivo.

Por eso Keegan negocia la custodia del modelo con las tres iwi con las que Katipa está afiliada: Waikato, Maniapoto y Raukawa. «La tutela debe recaer en ellas, no en la universidad», afirma. Para garantizar el acceso técnico sin ceder el control, una empresa de Wellington cedió gratuitamente el alojamiento web y la capacidad de cómputo necesaria para ejecutar el modelo durante un año.

Un plano replicable para lenguas minoritarias de todo el mundo

El proyecto de Waikato no es un caso aislado, pero sí uno de los más explícitos en articular un modelo alternativo: datos mínimos, entrada basada en fonemas, herramientas de código abierto y un marco legal de propiedad comunitaria. Cada decisión técnica estuvo subordinada a esa premisa de soberanía.

Otras iniciativas apuntan en la misma dirección. Te Hiku Media, en el norte de Nueva Zelanda, desarrolló un sistema de reconocimiento de voz māori con un 92 % de precisión, publicado bajo una licencia Kaitiakitanga que restringe su uso al beneficio del pueblo māori. En Barcelona, el proyecto Aina del Barcelona Supercomputing Center lanzó Matxa para el catalán con arquitecturas similares. En Quebec, la iniciativa FLAIR trabaja en modelos de reconocimiento para lenguas indígenas de América del Norte.

La ambición de Keegan va más lejos. No quiere un único modelo de lenguaje māori, sino uno Maniapoto, uno Tūhoe, uno por cada comunidad que habla su propia variante. «He trazado una plantilla para que otras iwi del país puedan hacer lo mismo», afirma. «Estoy dispuesto a ayudarlas.»

Lo que venga a continuación depende de si esas comunidades —y otras en el mundo— encuentran en este proyecto no solo inspiración, sino un procedimiento concreto que puedan seguir. La voz de Katipa fue el primer paso. Los siguientes los darán otros.

  • Aviso Legal
  • Contacto
  • Green Home
  • Política de cookies
  • Política de privacidad
Contacto

© 2025 by GreenHomePress

No Result
View All Result
  • Selección Green
  • Bienestar
  • Ciencia
  • Economía
  • Energía
    • Precio de la Luz
  • Tecnología

© 2025 by GreenHomePress