Miliardowy problem AI: kluczowe są dane wysokiej jakości, nie model | Opinia
AI może stać się kolejną branżą wartą biliony dolarów, ale po cichu zbliża się do ogromnego wąskiego gardła. Podczas gdy wszyscy ścigają się, aby budować większe i potężniejsze modele, nadciągający problem pozostaje w dużej mierze nierozwiązany: możemy wyczerpać dostępne dane treningowe już za kilka lat.
- AI kończy się paliwo: Zbiory danych treningowych rosną 3,7-krotnie rocznie i możemy wyczerpać światowe zasoby wysokiej jakości publicznych danych między 2026 a 2032 rokiem.
- Rynek oznaczania danych eksploduje z 3,7 mld USD (2024) do 17,1 mld USD (2030), podczas gdy dostęp do rzeczywistych danych ludzkich maleje z powodu zamkniętych ekosystemów i regulacji.
- Dane syntetyczne to za mało: Pętle sprzężenia zwrotnego i brak niuansów świata rzeczywistego sprawiają, że są ryzykownym substytutem dla chaotycznych, generowanych przez ludzi danych wejściowych.
- Władza przechodzi do posiadaczy danych: Wraz z komodyzacją modeli, prawdziwym wyróżnikiem będzie to, kto posiada i kontroluje unikalne, wysokiej jakości zbiory danych.
Zgodnie z danymi EPOCH AI, rozmiar zbiorów danych treningowych dla dużych modeli językowych rośnie od 2010 roku w tempie około 3,7 razy rocznie. Przy takim tempie możemy wyczerpać światowe zasoby wysokiej jakości, publicznych danych treningowych gdzieś między 2026 a 2032 rokiem.
Nawet zanim dotrzemy do tej granicy, koszt pozyskiwania i kuracji oznaczonych danych już gwałtownie rośnie. Rynek zbierania i oznaczania danych został wyceniony na 3,77 miliarda USD w 2024 roku, a prognozuje się, że wzrośnie do 17,10 miliarda USD do 2030 roku.
Taki gwałtowny wzrost sugeruje wyraźną szansę, ale także wyraźny punkt krytyczny. Modele AI są tak dobre, jak dane, na których są trenowane. Bez skalowalnego strumienia świeżych, zróżnicowanych i nieuprzedzonych zbiorów danych, wydajność tych modeli osiągnie plateau, a ich użyteczność zacznie się pogarszać.
Prawdziwe pytanie nie brzmi więc, kto zbuduje kolejny wielki model AI. Chodzi o to, kto posiada dane i skąd one będą pochodzić?
Problem danych AI jest większy, niż się wydaje
Przez ostatnią dekadę innowacje AI opierały się w dużej mierze na publicznie dostępnych zbiorach danych: Wikipedia, Common Crawl, Reddit, otwarte repozytoria kodu i inne. Ale to źródło szybko wysycha. W miarę jak firmy ograniczają dostęp do swoich danych, a problemy z prawami autorskimi się piętrzą, firmy AI są zmuszone do przemyślenia swojego podejścia. Rządy również wprowadzają regulacje ograniczające scrapowanie danych, a opinia publiczna coraz częściej sprzeciwia się trenowaniu modeli wartych miliardy dolarów na nieopłaconych treściach generowanych przez użytkowników.
Dane syntetyczne są proponowanym rozwiązaniem, ale to ryzykowny substytut. Modele trenowane na danych generowanych przez modele mogą prowadzić do pętli sprzężenia zwrotnego, halucynacji i pogorszenia wydajności z czasem. Jest też kwestia jakości: dane syntetyczne często nie mają chaotyczności i niuansów danych ze świata rzeczywistego, które są dokładnie tym, czego systemy AI potrzebują, by dobrze działać w praktyce.
Pozostają więc dane generowane przez ludzi jako złoty standard, a ich pozyskanie staje się coraz trudniejsze. Większość dużych platform zbierających dane ludzkie, takich jak Meta, Google i X (dawniej Twitter), to zamknięte ekosystemy. Dostęp jest ograniczony, zmonetyzowany lub całkowicie zakazany. Co gorsza, ich zbiory danych często są ukierunkowane na określone regiony, języki i demografie, co prowadzi do uprzedzonych modeli, które zawodzą w różnorodnych przypadkach użycia w świecie rzeczywistym.
Krótko mówiąc, branża AI wkrótce zderzy się z rzeczywistością, którą długo ignorowała: zbudowanie ogromnego LLM to tylko połowa sukcesu. Nakarmienie go to druga połowa.
Dlaczego to naprawdę ma znaczenie
Łańcuch wartości AI składa się z dwóch części: tworzenia modeli i pozyskiwania danych. Przez ostatnie pięć lat niemal cały kapitał i szum medialny koncentrowały się na tworzeniu modeli. Ale w miarę jak przesuwamy granice rozmiaru modeli, uwaga wreszcie przesuwa się na drugą połowę równania.
Jeśli modele stają się towarem, z alternatywami open-source, wersjami o mniejszym rozmiarze i projektami efektywnymi sprzętowo, to prawdziwym wyróżnikiem stają się dane. Unikalne, wysokiej jakości zbiory danych będą paliwem, które zdecyduje, które modele osiągną przewagę.
Wprowadzają one również nowe formy tworzenia wartości. Wkładnicy danych stają się interesariuszami. Twórcy mają dostęp do świeższych i bardziej dynamicznych danych. A przedsiębiorstwa mogą trenować modele lepiej dopasowane do swoich docelowych odbiorców.
Przyszłość AI należy do dostawców danych
Wchodzimy w nową erę AI, w której ten, kto kontroluje dane, posiada prawdziwą władzę. W miarę jak konkurencja o trenowanie lepszych, mądrzejszych modeli się zaostrza, największym ograniczeniem nie będzie moc obliczeniowa. Będzie nim pozyskiwanie danych, które są prawdziwe, użyteczne i legalne do wykorzystania.
Pytanie nie brzmi już, czy AI się rozwinie, ale kto zapewni temu rozwój paliwo. To nie będą tylko naukowcy zajmujący się danymi. To będą zarządcy danych, agregatorzy, wkładnicy i platformy, które ich łączą. Tam leży kolejna granica.
Więc następnym razem, gdy usłyszysz o nowej granicy w sztucznej inteligencji, nie pytaj, kto zbudował model. Zapytaj, kto go trenował i skąd pochodziły dane. Bo ostatecznie przyszłość AI to nie tylko architektura. To dane wejściowe.
Max Li jest założycielem i CEO OORT, chmury danych dla zdecentralizowanego AI. Dr Li jest profesorem, doświadczonym inżynierem i wynalazcą z ponad 200 patentami. Jego doświadczenie obejmuje prace nad systemami 4G LTE i 5G w Qualcomm Research oraz wkład naukowy w teorię informacji, uczenie maszynowe i technologię blockchain. Jest autorem książki zatytułowanej “Reinforcement Learning for Cyber-physical Systems”, wydanej przez Taylor & Francis CRC Press.
Zastrzeżenie: Treść tego artykułu odzwierciedla wyłącznie opinię autora i nie reprezentuje platformy w żadnym charakterze. Niniejszy artykuł nie ma służyć jako punkt odniesienia przy podejmowaniu decyzji inwestycyjnych.
Może Ci się również spodobać
DDC Enterprise nawiązuje współpracę z Wintermute, aby rozwijać swoją strategię Skarbu Bitcoin.
Dzięki tej współpracy DDC uzyska dostęp do płynności OTC i możliwości realizacyjnych Wintermute na rynkach spot i instrumentów pochodnych, przyspieszy rozbudowę skarbu Bitcoin, zbada strategie generowania zysków w celu optymalizacji zarządzania skarbem oraz osiągnie bardziej efektywną realizację transakcji na globalnych rynkach aktywów cyfrowych.

Polymarket wykorzystuje Chainlink do zasilania rynków predykcyjnych w czasie rzeczywistym

Obsesja Michaela Saylora na punkcie Bitcoin: Jak to się wszystko zaczęło
Otwarte pozycje na Solana osiągają 16,6 miliarda dolarów, gdy traderzy wyznaczają cel cenowy SOL powyżej 250 dolarów
Popularne
WięcejCeny krypto
Więcej








