Inteligencia Artificial
Podríamos quedarnos sin información para "alimentar" a la IA en 2026
Esto alteraría la trayectoria de la revolución de la Inteligencia Artificial, que se encuentra en pleno auge

Un nuevo análisis indica que el stock de datos lingüísticos de alta calidad para entrenar a los modelos de IA se agotará pronto, probablemente antes de 2026, de acuerdo a las tendencias actuales. / Crédito: kiquebg en Pixabay.
Pablo Javier Piacente
Los investigadores advierten que podríamos quedarnos sin datos para nutrir a la Inteligencia Artificial (IA) en solamente tres años. Los científicos creen que la industria podría estar quedándose sin datos de entrenamiento, el "combustible" que hace funcionar los potentes sistemas de IA. Esto podría frenar el crecimiento de los modelos de Inteligencia Artificial, sobretodo en el caso de los modelos de lenguaje grande o extenso (MLL, según las siglas en inglés).
Un artículo publicado recientemente en The Conversation y un estudio que apareció en 2022 en ArXiv concluyen que existen amplias probabilidades de que la industria ligada a la Inteligencia Artificial (IA) afronte la carencia de datos de alta calidad para alimentar y entrenar a sus modelos sobre 2026. De confirmarse esta situación, se podría producir un freno en el desarrollo de la IA, que actualmente alcanza la cima de su popularidad.
¿La IA se queda sin datos para entrenarse?
La Inteligencia Artificialsustenta su capacidad para construir discursos coherentes y ofrecer soluciones útiles para la humanidad a partir de un “alimento” básico: los datos y la información. Los mismos hacen posible el entrenamiento de los modelos de lenguaje grande (MLL), que han propiciado avances como ChatGPT, la aplicación de chatbot que presenta una conversación fluida similar a la comunicación humana.
De esta manera, la calidad y cantidad de los datos empleados en estos entrenamientos son vitales para el éxito de los sistemas de IA, como indica en The Conversation la especialista Rita Matulionyte, de la Universidad Macquarie, en Australia. Por ejemplo, ChatGPT se entrenó con 570 gigabytes de datos de texto, o alrededor de 300 mil millones de palabras. Pero la cantidad no es suficiente: también se requiere información confiable y precisa.
La calidad de los datos puede marcar el camino que tomará la IA: sistemas artificiales que propician el desarrollo tecnológico y económico o propuestas que pueden volverse hasta peligrosas para la humanidad. Por ejemplo, el texto tomado de las plataformas de redes sociales puede ser sesgado o prejuicioso, o puede incluir desinformación o contenido ilegal que el modelo podría replicar. Cuando Microsoft intentó entrenar su robot de IA utilizando contenido de Twitter, el modelo aprendió a producir resultados racistas y misóginos.
Un cuello de botella a superar
Debido a esto, las empresas que compiten por el dominio del segmento de la IA requieren una cantidad cada vez mayor de datos e información de calidad, provenientes de portales digitales reconocidos, artículos científicos, textos elaborados por expertos e incluso contenido digitalizado que se produjo antes de Internet, disponible en principio en libros o enciclopedias, por ejemplo. Al parecer, esta necesidad creciente podría derivar en la saturación de la oferta disponible.
Según un estudio liderado por el científico Pablo Villalobos, que apareció el año pasado en ArXiv, esta situación propiciará que el texto de alta calidad disponible para el entrenamiento de IA se agote antes de 2026, si continúan las tendencias actuales. Los investigadores también estimaron que los datos lingüísticos de baja calidad se agotarán entre 2030 y 2050, y los datos de imágenes de baja calidad entre 2030 y 2060.
Para hacer frente a este “cuello de botella” que deberá superar la IA, algunas empresas del sector están optando por el llamado contenido sintético, o sea un tipo de contenido elaborado artificialmente para el propio consumo de los sistemas de IA. Al mismo tiempo, los expertos creen que otra posible salida será ofrecer un mayor reconocimiento económico a los creadores de contenidos digitales, cuyo material es aprovechado actualmente de forma gratuita en el entrenamiento de la mayoría de los modelos de IA.
Referencia
Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. Pablo Villalobos et al. ArXiv (2022). DOI:https://doi.org/10.48550/arXiv.2211.04325
- Compromís denuncia que los maceteros verdes de la plaza del Ayuntamiento de València están abandonados en un solar
- El bando fallero prohíbe las verbenas nocturnas en tres comisiones del casco histórico y recomienda no hacerlas a toda Ciutat Vella y Russafa
- El ayuntamiento adquiere un edificio en Patraix que ya tenía los 39 pisos reservados
- La acusación de Acció Cultural pide un vídeo de À Punt en el que se oye a Pradas decir: 'Es una explosión en todas partes: Carlet, Chiva, Utiel
- De astillero a bar de 'picaeta': Casa Pescadores rescata el origen gastronómico del Cabanyal
- El abogado que logró la declaración de Vilaplana pide deducir testimonio contra ella y que se cite al alcalde de Cullera, al que llamó Mazón
- Una joven de 20 años muere atropellada por un camión de reparto en València
- La restauración de San Nicolas, la 'capilla sixtina valenciana', suma reconocimientos