Bitget App
Trade smarter
Acquista CryptoMercatiTradingFuturesEarnWeb3PlazaAltro
Trading
Spot
Acquista e vendi crypto
Margine
Amplifica il tuo capitale e l'efficienza dei fondi
Onchain
Trading Onchain, Senza Andare Onchain
Converti e Trading in Blocco
Converti criptovalute con un clic e zero commissioni
Esplora
Launchhub
Ottieni il vantaggio in anticipo e inizia a vincere
Copia
Copia un trader d'élite con un solo clic
Bot
Trading bot IA semplice, veloce e affidabile
Trading
Futures USDT-M
Futures regolati in USDT
Futures USDC-M
Futures regolati in USDC
Futures Coin-M
Futures regolati in criptovalute
Esplora
Guida ai Futures
Un percorso da nuovo utente ad avanzato nel trading sui futures
Promozioni sui Futures
Ti aspettano generosi bonus
Bitget Earn
Una varietà di prodotti per far crescere i tuoi asset
Earn Semplice
Deposita e preleva in qualsiasi momento per ottenere rendimenti flessibili a rischio zero
On-chain Earn
Guadagna profitti ogni giorno senza mettere a rischio il tuo capitale iniziale
Earn Strutturato
Un'innovazione finanziaria solida per gestire le oscillazioni del mercato
VIP e Gestione Patrimoniale
Servizi premium per una gestione patrimoniale smart
Prestiti
Prestiti flessibili con elevata sicurezza dei fondi
Il collo di bottiglia da miliardi di dollari dell’AI: la qualità dei dati, non il modello | Opinione

Il collo di bottiglia da miliardi di dollari dell’AI: la qualità dei dati, non il modello | Opinione

CryptoNewsNetCryptoNewsNet2025/09/06 22:42
Mostra l'originale
Per:crypto.news

L’AI potrebbe essere la prossima industria da mille miliardi di dollari, ma si sta silenziosamente avvicinando a un enorme collo di bottiglia. Mentre tutti corrono per costruire modelli sempre più grandi e potenti, un problema imminente viene in gran parte ignorato: potremmo esaurire i dati di addestramento utilizzabili nel giro di pochi anni.

Riepilogo
  • L’AI sta esaurendo il carburante: i dataset di addestramento sono cresciuti di 3,7 volte all’anno e potremmo esaurire la fornitura mondiale di dati pubblici di qualità tra il 2026 e il 2032.
  • Il mercato dell’etichettatura sta esplodendo da 3,7 miliardi di dollari (2024) a 17,1 miliardi di dollari (2030), mentre l’accesso ai dati umani reali si sta restringendo dietro giardini recintati e regolamentazioni.
  • I dati sintetici non bastano: i loop di feedback e la mancanza di sfumature reali rendono rischioso sostituirli agli input disordinati generati dagli esseri umani.
  • Il potere si sta spostando verso i detentori dei dati: con la commoditizzazione dei modelli, il vero elemento distintivo sarà chi possiede e controlla dataset unici e di alta qualità.

Secondo EPOCH AI, la dimensione dei dataset di addestramento per i large language model è cresciuta a un ritmo di circa 3,7 volte all’anno dal 2010. A questo ritmo, potremmo esaurire la fornitura mondiale di dati pubblici di alta qualità tra il 2026 e il 2032.

Ancor prima di raggiungere questo limite, il costo per acquisire e curare dati etichettati sta già salendo alle stelle. Il mercato della raccolta e dell’etichettatura dei dati è stato valutato a 3,77 miliardi di dollari nel 2024 e si prevede che raggiungerà i 17,10 miliardi di dollari entro il 2030.

Potrebbe interessarti anche: Il futuro dipende dall’AI che costruiamo: Centralized vs decentralized | Opinion

Una crescita così esplosiva suggerisce un’opportunità chiara, ma anche un evidente punto di strozzatura. I modelli AI sono validi solo quanto i dati su cui vengono addestrati. Senza un flusso scalabile di dataset freschi, diversificati e imparziali, le prestazioni di questi modelli si stabilizzeranno e la loro utilità inizierà a degradarsi.

Quindi la vera domanda non è chi costruirà il prossimo grande modello AI. È chi possiede i dati e da dove arriveranno?

Il problema dei dati dell’AI è più grande di quanto sembri

Nell’ultimo decennio, l’innovazione nell’AI si è basata fortemente su dataset pubblicamente disponibili: Wikipedia, Common Crawl, Reddit, repository di codice open-source e altro ancora. Ma questa fonte si sta rapidamente esaurendo. Mentre le aziende limitano l’accesso ai propri dati e le questioni di copyright si accumulano, le società AI sono costrette a ripensare il proprio approccio. Anche i governi stanno introducendo regolamentazioni per limitare il data scraping e il sentimento pubblico si sta spostando contro l’idea di addestrare modelli da miliardi di dollari su contenuti generati dagli utenti senza compenso.

I dati sintetici sono una soluzione proposta, ma rappresentano una sostituzione rischiosa. I modelli addestrati su dati generati da altri modelli possono portare a loop di feedback, allucinazioni e prestazioni degradate nel tempo. C’è anche il problema della qualità: i dati sintetici spesso mancano della complessità e delle sfumature degli input reali, che sono esattamente ciò di cui i sistemi AI hanno bisogno per funzionare bene in scenari pratici.

Questo lascia i dati reali, generati dagli esseri umani, come standard d’oro, e stanno diventando sempre più difficili da reperire. La maggior parte delle grandi piattaforme che raccolgono dati umani, come Meta, Google e X (precedentemente Twitter), sono giardini recintati. L’accesso è limitato, monetizzato o completamente vietato. Peggio ancora, i loro dataset spesso sono sbilanciati verso specifiche regioni, lingue e demografie, portando a modelli distorti che falliscono in casi d’uso reali e diversificati.

In breve, l’industria AI sta per scontrarsi con una realtà che ha a lungo ignorato: costruire un enorme LLM è solo metà della battaglia. Alimentarlo è l’altra metà.

Perché questo conta davvero

La catena del valore dell’AI ha due parti: creazione del modello e acquisizione dei dati. Negli ultimi cinque anni, quasi tutto il capitale e l’hype si sono concentrati sulla creazione dei modelli. Ma mentre spingiamo i limiti delle dimensioni dei modelli, finalmente l’attenzione si sta spostando sull’altra metà dell’equazione.

Se i modelli stanno diventando una commodity, con alternative open-source, versioni più leggere e design efficienti dal punto di vista hardware, allora il vero elemento distintivo diventa il dato. Dataset unici e di alta qualità saranno il carburante che definirà quali modelli supereranno gli altri.

Essi introducono anche nuove forme di creazione di valore. I contributori di dati diventano stakeholder. I costruttori hanno accesso a dati più freschi e dinamici. E le imprese possono addestrare modelli meglio allineati ai loro target di riferimento.

Il futuro dell’AI appartiene ai fornitori di dati

Stiamo entrando in una nuova era dell’AI, in cui chi controlla i dati detiene il vero potere. Mentre la competizione per addestrare modelli migliori e più intelligenti si intensifica, il vincolo più grande non sarà il calcolo. Sarà la provenienza di dati reali, utili e legali da utilizzare.

La domanda ora non è se l’AI scalerà, ma chi alimenterà questa crescita. Non saranno solo i data scientist. Saranno i custodi dei dati, gli aggregatori, i contributori e le piattaforme che li riuniscono. È lì che si trova la prossima frontiera.

Quindi, la prossima volta che senti parlare di una nuova frontiera nell’intelligenza artificiale, non chiederti chi ha costruito il modello. Chiediti chi lo ha addestrato e da dove provengono i dati. Perché alla fine, il futuro dell’AI non riguarda solo l’architettura. Riguarda l’input.

Leggi di più: Lo storage, non il silicio, innescherà la prossima svolta dell’AI | Opinion

Max Li

Max Li è fondatore e CEO di OORT, il data cloud per l’AI decentralizzata. Il Dr. Li è professore, ingegnere esperto e inventore con oltre 200 brevetti. Il suo background include lavori su sistemi 4G LTE e 5G con Qualcomm Research e contributi accademici alla teoria dell’informazione, machine learning e tecnologia blockchain. È autore del libro intitolato “Reinforcement Learning for Cyber-physical Systems,” pubblicato da Taylor & Francis CRC Press.

0

Esclusione di responsabilità: il contenuto di questo articolo riflette esclusivamente l’opinione dell’autore e non rappresenta in alcun modo la piattaforma. Questo articolo non deve essere utilizzato come riferimento per prendere decisioni di investimento.

PoolX: Blocca per guadagnare
Almeno il 12% di APR. Sempre disponibile, ottieni sempre un airdrop.
Blocca ora!

Ti potrebbe interessare anche

Gli afflussi nei Bitcoin ETF raggiungono i 741 milioni di dollari, il livello più alto degli ultimi 2 mesi

Ieri gli ETF su Bitcoin hanno registrato afflussi per 741 milioni di dollari, segnando il maggiore aumento degli ultimi due mesi in un contesto di crescente ottimismo del mercato. Segnali rialzisti tra la volatilità del mercato: gli ETF su Bitcoin stanno guadagnando la fiducia degli investitori.

Coinomedia2025/09/11 22:10
Gli afflussi nei Bitcoin ETF raggiungono i 741 milioni di dollari, il livello più alto degli ultimi 2 mesi