El cuello de botella de mil millones de dólares de la IA: la clave está en la calidad de los datos, no en el modelo | Opinión

CryptoNewsNet2025/09/06 22:42

Mostrar el original

Por:crypto.news

La inteligencia artificial podría ser la próxima industria de un billón de dólares, pero se está acercando silenciosamente a un gran cuello de botella. Mientras todos compiten por construir modelos más grandes y potentes, un problema inminente está siendo mayormente ignorado: podríamos quedarnos sin datos de entrenamiento utilizables en tan solo unos años.

Resumen

La IA se está quedando sin combustible: los conjuntos de datos de entrenamiento han estado creciendo 3,7 veces al año, y podríamos agotar el suministro mundial de datos públicos de calidad entre 2026 y 2032.
El mercado de etiquetado está explotando, pasando de $3.7 mil millones (2024) a $17.1 mil millones (2030), mientras que el acceso a datos humanos del mundo real se reduce tras jardines amurallados y regulaciones.
Los datos sintéticos no son suficientes: los bucles de retroalimentación y la falta de matices del mundo real los convierten en un sustituto riesgoso para los insumos desordenados generados por humanos.
El poder está cambiando hacia los poseedores de datos: con la comoditización de los modelos, el verdadero diferenciador será quién posee y controla conjuntos de datos únicos y de alta calidad.

Según EPOCH AI, el tamaño de los conjuntos de datos de entrenamiento para grandes modelos de lenguaje ha estado creciendo a una tasa de aproximadamente 3,7 veces anualmente desde 2010. A ese ritmo, podríamos agotar el suministro mundial de datos públicos de alta calidad en algún momento entre 2026 y 2032.

Incluso antes de llegar a ese límite, el costo de adquirir y curar datos etiquetados ya se está disparando. El mercado de recolección y etiquetado de datos fue valorado en $3.77 mil millones en 2024 y se proyecta que se dispare a $17.10 mil millones para 2030.

También te puede interesar: El futuro depende de la IA que construyamos: centralizada vs descentralizada | Opinión

Ese tipo de crecimiento explosivo sugiere una oportunidad clara, pero también un claro cuello de botella. Los modelos de IA solo son tan buenos como los datos con los que se entrenan. Sin un flujo escalable de conjuntos de datos frescos, diversos y sin sesgos, el rendimiento de estos modelos se estancará y su utilidad comenzará a degradarse.

Así que la verdadera pregunta no es quién construye el próximo gran modelo de IA. Es quién posee los datos y de dónde provendrán.

El problema de los datos en la IA es más grande de lo que parece

Durante la última década, la innovación en IA ha dependido en gran medida de conjuntos de datos públicos: Wikipedia, Common Crawl, Reddit, repositorios de código open-source y más. Pero ese pozo se está secando rápidamente. A medida que las empresas restringen el acceso a sus datos y los problemas de derechos de autor se acumulan, las firmas de IA se ven obligadas a replantear su enfoque. Los gobiernos también están introduciendo regulaciones para limitar el scraping de datos, y la opinión pública está cambiando en contra de la idea de entrenar modelos de miles de millones de dólares con contenido generado por usuarios sin compensación.

Los datos sintéticos son una solución propuesta, pero es un sustituto riesgoso. Los modelos entrenados con datos generados por modelos pueden llevar a bucles de retroalimentación, alucinaciones y un rendimiento degradado con el tiempo. También está el tema de la calidad: los datos sintéticos a menudo carecen del desorden y los matices de los insumos del mundo real, que es exactamente lo que los sistemas de IA necesitan para funcionar bien en escenarios prácticos.

Eso deja a los datos generados por humanos en el mundo real como el estándar de oro, y cada vez es más difícil de conseguir. La mayoría de las grandes plataformas que recopilan datos humanos, como Meta, Google y X (anteriormente Twitter), son jardines amurallados. El acceso está restringido, monetizado o directamente prohibido. Peor aún, sus conjuntos de datos suelen estar sesgados hacia regiones, idiomas y demografías específicas, lo que lleva a modelos sesgados que fallan en casos de uso diversos del mundo real.

En resumen, la industria de la IA está a punto de chocar con una realidad que ha ignorado durante mucho tiempo: construir un LLM masivo es solo la mitad de la batalla. Alimentarlo es la otra mitad.

Por qué esto realmente importa

Hay dos partes en la cadena de valor de la IA: la creación de modelos y la adquisición de datos. Durante los últimos cinco años, casi todo el capital y la atención se han volcado en la creación de modelos. Pero a medida que llevamos los límites del tamaño de los modelos al máximo, finalmente la atención se está desplazando hacia la otra mitad de la ecuación.

Si los modelos se están convirtiendo en commodities, con alternativas open-source, versiones de menor tamaño y diseños eficientes en hardware, entonces el verdadero diferenciador pasa a ser los datos. Los conjuntos de datos únicos y de alta calidad serán el combustible que defina qué modelos superan a los demás.

También introducen nuevas formas de creación de valor. Los contribuyentes de datos se convierten en partes interesadas. Los desarrolladores tienen acceso a datos más frescos y dinámicos. Y las empresas pueden entrenar modelos que estén mejor alineados con sus audiencias objetivo.

El futuro de la IA pertenece a los proveedores de datos

Estamos entrando en una nueva era de la IA, una en la que quien controle los datos tendrá el verdadero poder. A medida que la competencia por entrenar modelos mejores e inteligentes se intensifica, la mayor limitación no será la computación. Será la obtención de datos que sean reales, útiles y legales de usar.

La pregunta ahora no es si la IA escalará, sino quién alimentará ese crecimiento. No serán solo los científicos de datos. Serán los administradores de datos, agregadores, contribuyentes y las plataformas que los reúnan. Ahí es donde está la próxima frontera.

Así que la próxima vez que escuches sobre una nueva frontera en inteligencia artificial, no preguntes quién construyó el modelo. Preguntá quién lo entrenó y de dónde provinieron los datos. Porque al final, el futuro de la IA no se trata solo de la arquitectura. Se trata del input.

Leer más: El almacenamiento, no el silicio, desencadenará el próximo gran avance de la IA | Opinión

Max Li

Max Li es el fundador y CEO de OORT, la nube de datos para IA descentralizada. El Dr. Li es profesor, ingeniero experimentado e inventor con más de 200 patentes. Su experiencia incluye trabajo en sistemas 4G LTE y 5G con Qualcomm Research y contribuciones académicas en teoría de la información, aprendizaje automático y tecnología blockchain. Es autor del libro titulado “Reinforcement Learning for Cyber-physical Systems”, publicado por Taylor & Francis CRC Press.

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Haz staking y gana nuevos tokens.

APR de hasta 12%. Gana más airdrop bloqueando más.

¡Bloquea ahora!

También te puede gustar

Descubrí cómo ZKsync acelera la seguridad en blockchain

En resumen, ZKsync Lite será retirado para 2026, ya que ha cumplido sus objetivos. El equipo de ZKsync planea una transición estructurada, garantizando la seguridad de los activos. El enfoque futuro se trasladará a ZK Stack y Prividium para una aplicación más amplia.

Cointurk•2025/12/08 14:35