El cuello de botella de mil millones de dólares de la IA: la clave está en la calidad de los datos, no en el modelo | Opinión
La inteligencia artificial podría ser la próxima industria de un billón de dólares, pero se está acercando silenciosamente a un gran cuello de botella. Mientras todos compiten por construir modelos más grandes y potentes, un problema inminente está siendo mayormente ignorado: podríamos quedarnos sin datos de entrenamiento utilizables en tan solo unos años.
- La IA se está quedando sin combustible: los conjuntos de datos de entrenamiento han estado creciendo 3,7 veces al año, y podríamos agotar el suministro mundial de datos públicos de calidad entre 2026 y 2032.
- El mercado de etiquetado está explotando, pasando de $3.7 mil millones (2024) a $17.1 mil millones (2030), mientras que el acceso a datos humanos del mundo real se reduce tras jardines amurallados y regulaciones.
- Los datos sintéticos no son suficientes: los bucles de retroalimentación y la falta de matices del mundo real los convierten en un sustituto riesgoso para los insumos desordenados generados por humanos.
- El poder está cambiando hacia los poseedores de datos: con la comoditización de los modelos, el verdadero diferenciador será quién posee y controla conjuntos de datos únicos y de alta calidad.
Según EPOCH AI, el tamaño de los conjuntos de datos de entrenamiento para grandes modelos de lenguaje ha estado creciendo a una tasa de aproximadamente 3,7 veces anualmente desde 2010. A ese ritmo, podríamos agotar el suministro mundial de datos públicos de alta calidad en algún momento entre 2026 y 2032.
Incluso antes de llegar a ese límite, el costo de adquirir y curar datos etiquetados ya se está disparando. El mercado de recolección y etiquetado de datos fue valorado en $3.77 mil millones en 2024 y se proyecta que se dispare a $17.10 mil millones para 2030.
Ese tipo de crecimiento explosivo sugiere una oportunidad clara, pero también un claro cuello de botella. Los modelos de IA solo son tan buenos como los datos con los que se entrenan. Sin un flujo escalable de conjuntos de datos frescos, diversos y sin sesgos, el rendimiento de estos modelos se estancará y su utilidad comenzará a degradarse.
Así que la verdadera pregunta no es quién construye el próximo gran modelo de IA. Es quién posee los datos y de dónde provendrán.
El problema de los datos en la IA es más grande de lo que parece
Durante la última década, la innovación en IA ha dependido en gran medida de conjuntos de datos públicos: Wikipedia, Common Crawl, Reddit, repositorios de código open-source y más. Pero ese pozo se está secando rápidamente. A medida que las empresas restringen el acceso a sus datos y los problemas de derechos de autor se acumulan, las firmas de IA se ven obligadas a replantear su enfoque. Los gobiernos también están introduciendo regulaciones para limitar el scraping de datos, y la opinión pública está cambiando en contra de la idea de entrenar modelos de miles de millones de dólares con contenido generado por usuarios sin compensación.
Los datos sintéticos son una solución propuesta, pero es un sustituto riesgoso. Los modelos entrenados con datos generados por modelos pueden llevar a bucles de retroalimentación, alucinaciones y un rendimiento degradado con el tiempo. También está el tema de la calidad: los datos sintéticos a menudo carecen del desorden y los matices de los insumos del mundo real, que es exactamente lo que los sistemas de IA necesitan para funcionar bien en escenarios prácticos.
Eso deja a los datos generados por humanos en el mundo real como el estándar de oro, y cada vez es más difícil de conseguir. La mayoría de las grandes plataformas que recopilan datos humanos, como Meta, Google y X (anteriormente Twitter), son jardines amurallados. El acceso está restringido, monetizado o directamente prohibido. Peor aún, sus conjuntos de datos suelen estar sesgados hacia regiones, idiomas y demografías específicas, lo que lleva a modelos sesgados que fallan en casos de uso diversos del mundo real.
En resumen, la industria de la IA está a punto de chocar con una realidad que ha ignorado durante mucho tiempo: construir un LLM masivo es solo la mitad de la batalla. Alimentarlo es la otra mitad.
Por qué esto realmente importa
Hay dos partes en la cadena de valor de la IA: la creación de modelos y la adquisición de datos. Durante los últimos cinco años, casi todo el capital y la atención se han volcado en la creación de modelos. Pero a medida que llevamos los límites del tamaño de los modelos al máximo, finalmente la atención se está desplazando hacia la otra mitad de la ecuación.
Si los modelos se están convirtiendo en commodities, con alternativas open-source, versiones de menor tamaño y diseños eficientes en hardware, entonces el verdadero diferenciador pasa a ser los datos. Los conjuntos de datos únicos y de alta calidad serán el combustible que defina qué modelos superan a los demás.
También introducen nuevas formas de creación de valor. Los contribuyentes de datos se convierten en partes interesadas. Los desarrolladores tienen acceso a datos más frescos y dinámicos. Y las empresas pueden entrenar modelos que estén mejor alineados con sus audiencias objetivo.
El futuro de la IA pertenece a los proveedores de datos
Estamos entrando en una nueva era de la IA, una en la que quien controle los datos tendrá el verdadero poder. A medida que la competencia por entrenar modelos mejores e inteligentes se intensifica, la mayor limitación no será la computación. Será la obtención de datos que sean reales, útiles y legales de usar.
La pregunta ahora no es si la IA escalará, sino quién alimentará ese crecimiento. No serán solo los científicos de datos. Serán los administradores de datos, agregadores, contribuyentes y las plataformas que los reúnan. Ahí es donde está la próxima frontera.
Así que la próxima vez que escuches sobre una nueva frontera en inteligencia artificial, no preguntes quién construyó el modelo. Preguntá quién lo entrenó y de dónde provinieron los datos. Porque al final, el futuro de la IA no se trata solo de la arquitectura. Se trata del input.
Max Li es el fundador y CEO de OORT, la nube de datos para IA descentralizada. El Dr. Li es profesor, ingeniero experimentado e inventor con más de 200 patentes. Su experiencia incluye trabajo en sistemas 4G LTE y 5G con Qualcomm Research y contribuciones académicas en teoría de la información, aprendizaje automático y tecnología blockchain. Es autor del libro titulado “Reinforcement Learning for Cyber-physical Systems”, publicado por Taylor & Francis CRC Press.
Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.
También te puede gustar
Los Ethereum Spot ETFs registran ingresos semanales de $638 millones, liderados por Fidelity
¿Qué pasará la próxima semana cuando las acciones estadounidenses, que han subido un 32% en 5 meses, se encuentren con la Reserva Federal reanudando los recortes de tasas?
Las acciones estadounidenses, que han alcanzado niveles récord, se enfrentan a un punto de inflexión debido a la inminente reanudación de los recortes de tasas por parte de la Reserva Federal, mientras el mercado oscila entre las expectativas de flexibilización y la preocupación por una desaceleración económica.

El equipo de Native Markets gana la licitación de la stablecoin USDH de Hyperliquid y apunta a una fase de prueba "en cuestión de días"
Native Markets, un equipo del ecosistema Hyperliquid, resultó ganador en un proceso de licitación competitivo por el ticker USDH en el exchange de perpetuos y planea lanzar una stablecoin. Varias grandes empresas cripto presentaron ofertas por el ticker, desde actores institucionales como Paxos y BitGo hasta empresas nativas cripto como Ethena y Frax. Native Markets, la primera firma en presentar una propuesta, fue elegida por una supermayoría de dos tercios de los HYPE en staking y planea lanzar el token en una fase de prueba.

Nemo Protocol lanza un programa de tokens de deuda para las víctimas del exploit de $2.6 millones
Nemo, la plataforma DeFi basada en Sui, anunció un plan de compensación que consiste en la distribución de tokens de deuda llamados NEOM. Nemo sufrió un exploit de 2.6 millones de dólares a principios de este mes. Para reembolsar a los usuarios afectados, la plataforma planea asignar los fondos recuperados junto con partes de préstamos de liquidez e inversiones a un fondo de redención.

En tendencia
MásPrecios de las criptos
Más








