DeepSeek z Chin depcze po piętach konkurencji. Na rynku i w branży AI wywołał trzęsienie ziemi
20 stycznia chińska firma DeepSeek udostępniła użytkownikom nowy model sztucznej inteligencji o nazwie DeepSeek R1. Tydzień później wywołał on panikę na amerykańskiej giełdzie. Akcje Nvidii, głównego producenta układów scalonych wykorzystywanych do trenowania na ogromnych zbiorach danych modeli AI, spadły aż o ponad 17 proc. To zaś przełożyło się na rekordową stratę wartości rynkowej firmy w wysokości 600 mld dol.
To wszystko jest o tyle dziwne, że Chińczycy pierwszą wersję swojego dużego modelu językowego (w skrócie LLM; dużymi modelami językowymi są również najpopularniejsze dziś ChatGPT, Gemini i Claude) pokazali już w 2023 r. Zaś o tym, że DeepSeek depcze po piętach czołowym firmom amerykańskim z branży AI, mówiło się i pisało od co najmniej kilku miesięcy.
Co więcej, chińska firma udostępnia swoje modele na licencji MIT, która pozwala na ich swobodne używanie, modyfikowanie i rozpowszechnianie. Ponadto publikuje szczegółowe raporty techniczne opisujące, jak model został wytrenowany. Jedyne, czego nie ujawnia, to dane treningowe – ale i tak jest znacznie bardziej otwarta niż jej najwięksi amerykańscy konkurenci (OpenAI, Google i Anthropic).
DeepSeek. Rynek zareagował nerwowo
Co zatem spowodowało aż takie trzęsienie ziemi? Model R1 osiąga w testach (m.in. matematycznych i programistycznych) wyniki porównywalne z ChatGPT o1 (czyli najnowszą wersją, nie licząc nieudostępnionej jeszcze publicznie o3), ale – według informacji podanych przez DeepSeek – został wytrenowany za jedynie 5,6 mln dol. w ciągu około dwóch miesięcy. To ułamek kosztów ponoszonych przez amerykańskie firmy – dla porównania, szef Anthropic Dario Amodei szacował w 2024 r., że trening ich modeli kosztuje od 100 mln do 1 mld dol.
Co więcej, DeepSeek twierdzi, że wykorzystał do treningu jedynie 2048 połączonych ze sobą procesorów firmy Nvidia, podczas gdy podobnej wielkości modele wymagają zazwyczaj dziesiątek tysięcy takich chipów. To właśnie ta informacja najbardziej zaniepokoiła inwestorów – jeśli sprawne modele AI można tworzyć przy użyciu znacznie mniejszej liczby procesorów, popyt na produkty Nvidii może w przyszłości spaść.
Jednak zdaniem części ekspertów rynek mocno przesadził w swojej reakcji. Po pierwsze, choć DeepSeek rzeczywiście dokonał imponującego wyczynu w zakresie efektywności treningu, to firma nadal używa procesorów Nvidii. Po drugie, ta zwiększona efektywność AI prawdopodobnie doprowadzi do wzrostu, a nie spadku całkowitego zapotrzebowania na moc obliczeniową. Bo im tańsze i wydajniejsze stają się modele AI, tym więcej firm będzie chciało je mieć i wdrażać.
Czytaj też: Gigawaty na gigabajty. AI jest ogromnie prądożerna
Skąd ten sukces DeepSeek?
Co do samego modelu R1 – choć jego osiągnięcia robią wrażenie, to nie można mówić o chińskiej dominacji w wyścigu AI. DeepSeek jest raczej sprawnym naśladowcą, który zoptymalizował znane już rozwiązania. Co więcej, według ekspertów np. model Google Gemini 2.0 Flash Thinking osiąga lepsze wyniki przy niższych kosztach działania. OpenAI szykuje się zaś do wypuszczenia modelu o3, który ma być jeszcze potężniejszy, jeśli chodzi o możliwości „rozumowania”.
Na sukces DeepSeek złożyło się też kilka istotnych elementów. Przede wszystkim nie jest to firma, która zaczęła od zera – jej najnowszy model R1 powstał w oparciu o doświadczenia zdobyte przy tworzeniu poprzednich wersji. Kluczowe znaczenie ma też pochodzenie zespołu informatyków – DeepSeek został założony przez Lianga Wenfenga, który zarządza wartym 8 mld dol. funduszem inwestycyjnym High-Flyer. Od lat używano w nim sztucznej inteligencji do przewidywania zmian cen akcji, co wymagało bardzo efektywnego wykorzystania mocy obliczeniowych procesorów. Gdy Liang założył DeepSeek, skorzystał z najlepszych specjalistów, których miał pod ręką.
Trzecim ważnym czynnikiem było skuteczne zastosowanie tzw. uczenia przez wzmacnianie (reinforcement learning). Właśnie ta metoda stoi za najbardziej spektakularnymi osiągnięciami sztucznej inteligencji – w przeciwieństwie do prostego uczenia przez naśladowanie (gdy AI uczy się powtarzać wzorce z danych treningowych) uczenie przez wzmacnianie pozwala systemowi odkrywać własne strategie rozwiązywania problemów poprzez metodę prób i błędów.
Prawdziwe znaczenie DeepSeek R1 nie polega zatem na zagrożeniu dla amerykańskich firm, ale na pokazaniu, że dobre modele AI można tworzyć przy znacznie mniejszych nakładach finansowych. To wyzwanie dla gigantów takich jak OpenAI czy Anthropic, którzy nie mogą sobie pozwolić na wydawanie setek milionów czy wręcz miliardów dolarów na trening modeli, by potem konkurować z otwartymi rozwiązaniami działającymi za ułamek tych kosztów. Może to przyspieszyć rozwój całej branży AI poprzez wymuszenie większej efektywności.