Los investigadores han descubierto que una cantidad considerable del contenido disponible en línea son en realidad traducciones de textos originales en los idiomas predominantes, principalmente el inglés, que se han traducido en muchos otros idiomas en forma automática a través de Inteligencia Artificial (IA). Los especialistas también identificaron que ese contenido ha sido producido principalmente para obtener ingresos publicitarios, mayormente sobre temas relacionados con consejos simples o cuestiones de desarrollo personal.

Científicos del laboratorio de Inteligencia Artificial (IA) de Amazon Web Services descubrieron que más del 50 % de las oraciones en la web se han traducido a dos o más idiomas, a menudo con una calidad cada vez peor debido a una traducción automática (TA) deficiente. Además de la generación de contenido basura con libre acceso en Internet, el problema principal es que esta práctica limita la producción de grandes modelos de lenguaje para IA en determinados idiomas.

Traducciones automáticas

En el nuevo estudio, publicado recientemente en arXiv, los investigadores generaron un corpus de 6,38 mil millones de oraciones extraídas de Internet. En esa gigantesca cantidad de información, pudieron observar patrones de paralelismo multidireccional, que indican conjuntos de oraciones que son traducciones directas en tres o más idiomas, a partir de una fuente original en alguno de los idiomas predominantes a nivel global, principalmente en inglés.

También revelaron que la mayor parte de Internet está traducida y no corresponde a textos originales en cada idioma, ya que el 57,1 % de las oraciones del corpus eran traducciones paralelas en múltiples direcciones en al menos tres idiomas.

Según un artículo publicado en Vice.com, el contenido traducido se compone mayormente de oraciones más cortas y “más predecibles”, de entre 5 y 10 palabras. Esta simpleza no solo indica el uso de traducciones automáticas, sino además que el material se realiza en mayor medida para posicionar webs y obtener ingresos publicitarios. Los fines comerciales también marcan los temas elegidos, que en líneas generales son cuestiones ligadas a los aspectos que más se buscan en la web, como consejos prácticos o definiciones básicas.

Contenido de baja calidad

En ese sentido, los especialistas indicaron que la mayor parte de las traducciones provino de artículos que se caracterizan como de baja calidad, que requerían poca o ninguna experiencia o esfuerzo previo para su creación. Al mismo tiempo, comprobaron que las traducciones en cadena, realizadas en diferentes idiomas a partir de un primer artículo original, descendían en calidad con cada nueva traducción.

Por si esto fuera poco, el sesgo idiomático es muy evidente: una gran mayoría de las traducciones se originan a partir de textos en los idiomas predominantes a nivel global, con un dominio claro del inglés. De esta forma, las estructuras idiomáticas del inglés o el francés, por ejemplo, se multiplican en las traducciones en otros idiomas, mientras que lenguas menos influyentes, como podría ser un dialecto africano, prácticamente no tienen presencia en la web.

En el mismo sentido, las traducciones automáticas y la baja calidad de los contenidos genera dudas sobre la producción de modelos de lenguaje para IA en idiomas que no sean predominantes, ya que esta clase de sistemas se desarrollan a partir del contenido que capturan en Internet. Como la mayor parte de ese contenido son traducciones de baja calidad provenientes de otros idiomas, los modelos no llegarían a representar fielmente las estructuras de cada idioma en particular.

Referencia

A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism. Brian Thompson et al. ArXiv (2024). DOI:https://doi.org/10.48550/arXiv.2401.05749