Nauka

Tłumacz jak w science fiction? Nowy system AI tłumaczy mowę w ponad stu językach

Innowacyjny model sztucznej inteligencji o nazwie SEAMLESSM4T potrafi tłumaczyć mowę i tekst pomiędzy ponad stoma językami. Innowacyjny model sztucznej inteligencji o nazwie SEAMLESSM4T potrafi tłumaczyć mowę i tekst pomiędzy ponad stoma językami. Neeqolah Creative Works / Unsplash
Firma Meta stworzyła model AI, który po raz pierwszy potrafi bezpośrednio tłumaczyć mowę na mowę w aż tak wielu językach. SEAMLESSM4T jest też odporniejszy na szumy tła i dokładniejszy. Naukowcy zadbali także o ograniczenie uprzedzeń płciowych w przekładach.

Babel Fish to mała, żółta rybka, którą wkłada się do ucha, by natychmiast rozumieć każdy język obcy. Babel Fish, żywiąca się energią fal mózgowych swojego nosiciela, oczywiście nie istnieje, gdyż została wymyślona przez Douglasa Adamsa w jego w kultowej powieści „Autostopem przez Galaktykę”. Ale to od przywołania tego fikcyjnego organizmu naukowcy z firmy Meta (dawniej Facebook) rozpoczynają swój artykuł, który ukazał się w najnowszym wydaniu tygodnika „Nature”.

Jak z książki Adamsa

Powody tak nietypowego wstępu do specjalistycznej publikacji są dwa. Po pierwsze, naukowcy chcieli w ten sposób zilustrować społeczne zapotrzebowanie na technologię, która umożliwiałaby natychmiastowe tłumaczenie mowy między dowolnymi językami. Współczesny świat charakteryzuje się bowiem rosnącą łącznością i mobilnością, więc potrzeba takiego narzędzia jest większa niż kiedykolwiek. Po drugie, systemy tłumaczenia komputerowego koncentrują się dziś głównie na tekście.

Dlatego badacze Meta postanowili choć trochę przybliżyć nas do wizji z książki Adamsa. W tym celu opracowali innowacyjny model sztucznej inteligencji o nazwie SEAMLESSM4T, który potrafi tłumaczyć mowę i tekst pomiędzy ponad stoma językami (czyli obsługuje wiele trybów tłumaczenia). Co więcej, jako jeden z pierwszych systemów AI przekłada mowę bezpośrednio na mowę – bez pośredniego etapu w postaci tekstu. To ogromny postęp, bo liczne dotychczasowe systemy („kaskadowe”) działały zwykle w kilku krokach: najpierw zamieniały mowę na tekst, potem tłumaczyły go, a na końcu generowały z niego mowę w docelowym języku.

Czytaj także: AI „knuje” i próbuje „uciekać”? Testy nad ChatGPT wywołują ciarki na plecach

Co potrafi SEAMLESSM4T?

Dokładne możliwości SEAMLESSM4T prezentują się następująco: potrafi przekładać mowę na mowę między 101 językami źródłowymi a 36 docelowymi. Umie też tłumaczyć mowę na tekst ze 101 na 96 języków, tekst na mowę z 96 na 36 języków oraz tekst na tekst między 96 językami. Do tego rozpoznaje mowę w 96 językach, czyli potrafi „zrozumieć”, którym językiem ktoś się posługuje. Co istotne, przewyższa dotychczasowe kaskadowe systemy tłumaczeniowe – w przypadku przekładania mowy na mowę jest o 23 proc. dokładniejszy. Program komputerowy Meta jest też przeciętnie o 50 proc. bardziej odporny na szumy tła (np. rozmowa w hałaśliwym otoczeniu) i różnice w głosach mówców. To istotny postęp, bo właśnie takie realne warunki – np. rozmowy w hałaśliwym otoczeniu czy między osobami o różnych głosach i akcentach – stanowią zwykle największe wyzwanie dla systemów tłumaczących.

SEAMLESSM4T osiąga to wszystko dzięki szkoleniu na ogromnej ilości danych (miliony godzin nagrań mowy i tekstów), w tym 470 tys. godzin automatycznie dopasowanych tłumaczeń mowy. Jednym z kluczowych elementów tego procesu było „wydobywanie” z internetu par szkoleniowych, które są dopasowane pod względem językowym – np. fragmentów audio w jednym języku, które odpowiadają napisom w innym języku. Badacze wykorzystali do tego celu nowatorskie metody, m.in. nauczyli model rozpoznawać, kiedy dwie treści w różnych językach faktycznie dokładnie sobie odpowiadają.

Czytaj także: Najlepsze prognozy pogody tworzy AI. W kilka minut i bez superkomputerów

SEAMLESSM4T - wyzwania i ograniczenia

System ma jednak pewne ograniczenia. Choć obsługa 101 języków robi wrażenie, to wciąż daleko mu do pokrycia wszystkich ok. 7 tys. używanych na świecie. Naukowcy z Meta zwracają także uwagę na specyficzne wyzwania. W przeciwieństwie do tekstu język mówiony to nie tylko słowa, ale także rytm, akcent, intonacja czy ton emocjonalny wypowiedzi. Aby stworzyć systemy tłumaczące, które będą brzmiały naturalnie, potrzebne są dalsze badania nad uwzględnieniem cech mowy wykraczających poza same dźwięki składające się na słowa. Do tego dochodzą trudności z tłumaczeniem slangu czy nazw własnych, które mogą być niekonsekwentne w różnych językach, szczególnie gdy mówimy o językach o niskich zasobach danych treningowych. Autorzy publikacji w „Nature” wspominają również o potrzebie dalszych badań nad systemami o niskim opóźnieniu (low-latency speech translation), które umożliwiałyby tłumaczenie strumieniowe, czyli podobne do symultanicznego – system AI nie czekałby na wypowiedzenie całego zdania, ale zaczynał przekładać je już w trakcie mówienia.

Czytaj także: Gigawaty na gigabajty. AI jest ogromnie prądożerna

Język non-toxic

Szczególnie ważne okazało się też przeciwdziałanie potencjalnej toksyczności, czyli występowaniu w tłumaczeniach wulgaryzmów lub języka, który może wzbudzać nienawiść, przemoc lub nadużycia wobec jednostki czy grupy. Twórcy modelu AI zastosowali dwa rozwiązania tego problemu: odfiltrowywanie toksycznych treści na etapie treningu oraz specjalny mechanizm MinTox, który zmniejsza prawdopodobieństwo ich występowania w przekładzie.

Zespół tworzący SEAMLESSM4T zmierzył się także z wyzwaniem w postaci stronniczości płciowej. Chodzi np. o sytuacje, gdy AI przekłada z języka neutralnego płciowo (jak angielski) na języki wymagające określenia płci (jak hiszpański): tłumacząc wyrażenie „I am a teacher”, trzeba wybrać między formą męską „Soy profesor” a żeńską „Soy profesora”. Choć najnowsza wersja modelu została pod tym względem poprawiona, to wciąż ma on problemy związane z nadmierną generalizacją w kierunku jednej płci.

Czytaj także: Niemowa nienawiści? AI walczy z hejtem. A przynajmniej próbuje

Otwarty dostęp do SEAMLESSM4T

Warto też podkreślić, że Meta udostępniła wszystkie dane i kod komputerowy potrzebne do uruchomienia i optymalizacji tej technologii. Aczkolwiek model AI może być używany wyłącznie do celów niekomercyjnych. To ogromnie ważne, ponieważ pozwala innym badaczom rozwijać i udoskonalać tę technologię.

SEAMLESSM4T może mieć ogromne znaczenie praktyczne – od ułatwiania komunikacji w biznesie międzynarodowym, przez pomoc w nauce języków obcych, po wsparcie w sytuacjach kryzysowych wymagających szybkiego porozumienia między ludźmi mówiącymi różnymi językami. Jak jednak podkreślają naukowcy z Meta, nie chodzi tu o zastąpienie znajomości języków obcych czy profesjonalnych tłumaczy (szczególnie np. w sądach czy w medycynie), ale raczej o stworzenie pomocniczego narzędzia ułatwiającego komunikację tam, gdzie bariera językowa stanowi istotną przeszkodę.

Więcej na ten temat
Reklama

Czytaj także

null
Społeczeństwo

Między sobą żartują: „Jak poznać biegacza? Sam ci o tym powie”. To już cała subkultura

Strava zastąpiła mi Instagram – wyjaśnia Michał. – Wrzucam tam zdjęcia z biegania: jakiś widoczek, zdjęcie butów, zmęczona twarz, kawka po bieganiu, same istotne rzeczy.

Norbert Frątczak
12.01.2025
Reklama

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną