Pamiętasz tajemniczy model edycji obrazów AI „nano-banana”, o którym wszyscy niedawno dyskutowali? W tamtym czasie, na arenie dużych modeli językowych LMArena, był gorąco omawiany dzięki swoim znakomitym wynikom. Eksperci techniczni Google Gemini również kolejno prezentowali swoje możliwości w mediach społecznościowych, a nawet przez pewien czas model ten był uważany za rzekomego Gemini 3.0 Pro.
Teraz Google w końcu odsłonił jego tajemniczą kurtynę.
Wschodnia strefa czasowa UTC+8, 27 sierpnia nad ranem, Google AI Studio oficjalnie wypuściło Gemini 2.5 Flash Image (kryptonim nano banana) 🍌.
Gemini 2.5 Flash Image, na którego premierę czekano od dawna | Źródło: GeekPark
To jak dotąd najbardziej zaawansowany model generowania i edycji obrazów Google – nie tylko niesamowicie szybki, oferujący niemal „błyskawiczne” doświadczenie, ale także osiągający wyniki SOTA na wielu rankingach, a na LMArena zdecydowanie wyprzedzający konkurencję.
Gemini 2.5 Flash Image osiąga SOTA już na starcie | Źródło: LMarena.ai
W technicznym blogu Google wspomina, że Gemini 2.0 Flash już zdobył uznanie deweloperów dzięki niskim opóźnieniom i wysokiej efektywności kosztowej, ale użytkownicy oczekiwali wyższej jakości obrazów i większej kontroli twórczej. Gemini 2.5 Flash Image przynosi właśnie te znaczące ulepszenia: spójność ról została w pełni zachowana, edycja obrazów na podstawie promptów jest bardziej precyzyjna, efekt łączenia wielu obrazów jest naturalny i płynny, a zrozumienie wiedzy o świecie rzeczywistym sprawia, że to nie tylko model, ale wręcz „punkt wyjścia” dla kolejnej generacji przebojowych aplikacji.
GeekPark również natychmiast przetestował ten model. Ku zaskoczeniu, to nie tylko aktualizacja modelu – po raz pierwszy można naprawdę poczuć, że przyszłość AI w edycji zdjęć jest już na wyciągnięcie ręki.
Google AI Studio już udostępnia możliwość testowania | Źródło: GeekPark
Na początku podchodziłem do tego z nastawieniem na zwykłe testy, „zobaczyć, w czym nowy model jest szybszy”. Nie spodziewałem się jednak, że zaledwie kilka godzin testów pozwoli mi zajrzeć w przyszłość kolejnej generacji przebojowych aplikacji.
Dotychczas byliśmy przyzwyczajeni do narzędzi takich jak MeituPic – kilka kliknięć, filtr, zdjęcie szybko staje się ładniejsze. Jednak Gemini 2.5 Flash Image daje zupełnie inne wrażenie. Jest niewiarygodnie szybki, inteligentny jak projektant, który rozumie twoje intencje – wystarczy powiedzieć, jaki efekt chcesz uzyskać, a on w kilka sekund wyczaruje obraz.
Oprócz efektów, prędkość to kolejna wyraźna różnica Gemini 2.5 Flash Image względem wcześniejszych modeli | Źródło: GeekPark
01 Błyskawiczne generowanie, wyniki w kilka sekund
Najbardziej oczywistą cechą nano banana jest prędkość. Wcześniej, korzystając z niektórych otwartych modeli, nawet przy dobrym sprzęcie komputerowym, od wpisania promptu do wygenerowania przyzwoitego obrazu mijało kilkadziesiąt sekund lub dłużej. Dla użytkowników mobilnych ten czas oczekiwania był jeszcze bardziej uciążliwy.
Jednak Gemini 2.5 Flash Image obniża ten próg do poziomu kilku sekund. To, jak twierdzi Google, „najnowocześniejszy, najszybszy i najbardziej wydajny” natywny model multimodalny, w którym wyraźnie włożono wiele pracy w optymalizację. W moich testach, po wpisaniu promptu, wynik pojawiał się po około 3-4 sekundach (UTC+8), a rozdzielczość i szczegóły były bardzo wyraźne.
To doświadczenie przypomina korzystanie z MeituPic: kliknięcie przycisku „upiększ”, efekt widoczny niemal natychmiast. Różnica polega na tym, że MeituPic używa algorytmów do nakładania filtrów, a Gemini 2.5 Flash Image buduje obraz od zera lub gruntownie modyfikuje zdjęcie zgodnie z twoimi wymaganiami. Ta „precyzja na żądanie” jest nie do wyobrażenia w tradycyjnych, żmudnych procesach edycji zdjęć.
Takie potrzeby jak „usunięcie przechodnia z tła” można rozwiązać jednym promptem | Źródło: GeekPark
Jeśli prędkość rozwiązuje problem doświadczenia użytkownika tradycyjnych narzędzi do edycji zdjęć, to „natywna multimodalność” poszerza granice możliwości AI w zakresie obrazów.
Gemini 2.5 Flash Image nie tylko generuje obrazy, ale także rozumie jednocześnie tekst i obraz jako wejście. Oznacza to, że mogę przesłać zdjęcie i prompt tekstowy, a model połączy oba źródła informacji, by zrozumieć, czego naprawdę chcę.
Na przykład przesłałem zdjęcie zrobione na ulicy i poprosiłem: „zmień tło na nocny widok Shinjuku w Tokio” (UTC+8). Model nie tylko rozpoznał główny obiekt na zdjęciu, ale także precyzyjnie wyciął postać i zamienił tło na neonowe ulice Shinjuku. Co ważniejsze, zachował spójność światła i cieni na postaci, unikając efektu „twardego wycięcia”, który często pojawia się przy ręcznej edycji.
Ta zdolność rozumienia przypomina mi funkcję „jednym kliknięciem zmień tło”, którą producenci smartfonów reklamowali w swoich aplikacjach galerii w ostatnich latach. Różnica polega na tym, że dawniej zmiana tła często skutkowała rozmytymi krawędziami i nienaturalnym światłem, przez co efekt był sztuczny. Teraz Gemini 2.5 Flash Image wykorzystuje wiedzę o świecie i rozumienie wizualne, by uzupełnić te szczegóły, osiągając znacznie bardziej naturalny efekt i lepsze zachowanie szczegółów niż tradycyjne narzędzia tekst-do-obrazu/obraz-do-obrazu.
Oryginał & efekt Gemini 2.5 Flash Image | Źródło: GeekPark
Dlatego uważam, że ten model redefiniuje doświadczenie edycji zdjęć: już nie polegamy na ręcznych poprawkach, lecz na naturalnym rozumieniu semantycznym modelu, który „z rozmachem” wykonuje zadania, zwłaszcza w wymagających scenariuszach, takich jak edycja portretów.
W przypadku edycji portretów Gemini 2.5 Flash Image zapewnia naprawdę bezprecedensowe doświadczenie „Vibe Photoshoping” dzięki spójności ról.
W sekundę ratuje programistę przed kompromitacją | Źródło: GeekPark
To doświadczenie przełamuje dotychczasowe wyobrażenia wielu osób o generowaniu obrazów przez AI – „magia”: jeśli prompt jest dobry, efekt jest oszałamiający; jeśli przeciętny, wynik może być zupełnie nietrafiony.
Jednak w Gemini 2.5 Flash Image zauważyłem, że ten „magiczny” aspekt został znacznie zredukowany. Model rozumie prompt dużo precyzyjniej i bliżej intuicji użytkownika – dlatego wiele osób nagle uznaje go za znacznie bardziej użyteczny.
Na przykład powiedziałem: „rozmyj tło, podkreśl postać na pierwszym planie” (UTC+8) – po kilku sekundach otrzymałem dokładnie taki efekt, jakiego chciałem; poprosiłem o „zamianę wyrazu twarzy na uśmiechnięty” – nie tylko usta się uniosły, ale i spojrzenie zostało zmienione, szczegóły były bardzo dopracowane; próbowałem nawet „pokolorować czarno-białe zdjęcie” – wynikowy kolorowy obraz nie był przypadkowy, lecz jak najbardziej zbliżony do historycznej atmosfery zdjęcia.
Ta zdolność „mówisz – masz” przypomina mi sytuację, gdy w MeituPic chciałem tylko wygładzić skórę, a cała twarz zamieniała się w „poziom 10 upiększenia” – sztuczną maskę. Teraz operacje Gemini 2.5 Flash Image są precyzyjne i powściągliwe – model naprawdę rozumie, czego chcesz, i stara się to jak najlepiej odtworzyć.
02 Wzmocnione możliwości, trudno wrócić do starych narzędzi
Dla lepszego porównania zestawiłem ten model z moimi codziennymi narzędziami do edycji zdjęć na urządzeniach mobilnych.
W Snapseed, jeśli chcę rozmyć tło, zwykle muszę przez minutę lub dwie ręcznie zaznaczać obszar pierwszego planu i regulować poziom rozmycia. Nawet przy wprawie nie da się uniknąć poprawek.
W MeituPic, choć jest funkcja rozmycia tła jednym kliknięciem, często rozmywa ona także krawędzie postaci, przez co efekt nie jest naturalny.
W Gemini 2.5 Flash Image wystarczy jedno zdanie – model automatycznie rozpoznaje granicę między postacią a tłem, efekt rozmycia jest naturalny i nie wymaga poprawek.
Podczas zmiany szczegółów obrazu inne części tła nie są „mazane” jak w przypadku wcześniejszych narzędzi AI | Źródło: Twitter
To porównanie pokazuje jedno: Gemini 2.5 Flash Image uwalnia użytkownika od skomplikowanych operacji, przekazując więcej pracy modelowi. Dla zwykłych osób obniża to próg wejścia do edycji zdjęć; dla profesjonalistów oszczędza mnóstwo czasu.
Po testach mam wrażenie, że Gemini 2.5 Flash Image to już nie tylko narzędzie do edycji zdjęć, ale raczej „inteligentny asystent”.
Dotychczas korzystaliśmy z MeituPic jako zbioru gotowych funkcji – filtry, upiększanie, mozaika – każdy przycisk odpowiadał jednej funkcji. Trzeba było wybierać i dostosowywać, aż efekt był zadowalający.
Teraz logika Gemini 2.5 Flash Image jest zupełnie inna. Nie musisz już uczyć się obsługi narzędzia – wystarczy powiedzieć, czego chcesz, a model zrobi to za ciebie.
Ta zmiana wydaje się subtelna, ale w rzeczywistości całkowicie zmienia relację w procesie edycji zdjęć. Kiedyś to my dostosowywaliśmy się do narzędzi, teraz to narzędzia dostosowują się do nas. Ten sposób interakcji to zalążek nowej generacji aplikacji.
Patrząc z dzisiejszej perspektywy, Gemini 2.5 Flash Image jest jeszcze na wczesnym etapie i ma pewne ograniczenia funkcjonalne. Jednak jego prędkość, zrozumienie i wierność efektów pozwalają z optymizmem patrzeć w przyszłość.
A co, jeśli połączymy go z MeituPic? Może otwierasz aplikację, mówisz do telefonu: „popraw mi to zdjęcie, niech skóra wygląda naturalnie”, a po kilku sekundach masz gotowy efekt (UTC+8); może podczas podróży prosisz: „zmień pogodę na słoneczną” (UTC+8), a zdjęcie natychmiast staje się pełne słońca; a nawet w edycji wideo możesz jednym zdaniem zmienić nastrój całego fragmentu.
Ten sposób może wkrótce stać się główną funkcją edycji zdjęć w systemach operacyjnych smartfonów | Źródło: Twitter
Dlatego uważam, że ten model szybko zrewolucjonizuje obecne procesy edycji zdjęć i zdefiniuje kolejną generację „MeituPic”: nie tylko edycja, ale całkowita zmiana sposobu interakcji z obrazami, gdzie AI staje się twoim partnerem w postprodukcji fotografii.
Jednak obecnie Gemini 2.5 Flash Image nie jest jeszcze gotowy, by być uniwersalną aplikacją do edycji zdjęć: nie tylko dlatego, że jego głównym celem jest generowanie obrazów, a nie subtelna edycja istniejących, ale także dlatego, że każde zdjęcie utworzone lub edytowane przez Gemini 2.5 Flash Image zawiera cyfrowy znak wodny SynthID, służący do identyfikacji treści generowanych przez AI na platformach społecznościowych.
03 Punkt zapalny przebojowych aplikacji
Patrząc wstecz, MeituPic stał się aplikacją masową, bo w najprostszy sposób rozwiązał problem, który wszyscy chcieli rozwiązać – sprawił, że zdjęcia wyglądały lepiej.
A Gemini 2.5 Flash Image idzie o krok dalej, przekuwając złożone możliwości AI w doświadczenie „natychmiastowego obrazu” dostępne dla każdego.
Kiedy po raz pierwszy powiedziałem: „rozmyj mi tło” (UTC+8), a po kilku sekundach obraz został naturalnie przetworzony, wiedziałem, że to punkt zapalny przebojowej aplikacji. To nie tylko model, ale podstawowa technologia dla niezliczonych przyszłych produktów.
Funkcja AI do zmiany nieba jednym kliknięciem, która kilka lat temu była hitem wśród użytkowników smartfonów | Źródło: społeczność vivo
Może za kilka lat zapomnimy o kryptonimie Banana, ale zobaczymy coraz więcej narzędzi do edycji zdjęć, które pozwalają „powiedzieć, czego chcesz, i natychmiast to otrzymać” – może staną się one, jak MeituPic, wspomnieniem całego pokolenia użytkowników.
Tyle że tym razem AI popchnie wyobraźnię jeszcze dalej.