Przejdź do treści Wyszukiwarka
11.01.2024
„Nasz model, MoE-Mamba, przewyższa zarówno Mambę, jak i Transformer-MoE. W szczególności MoE-Mamba osiąga tę samą wydajność co Mamba przy 2,2 razy mniejszej liczbie etapów treningowych, zachowując jednocześnie wzrost wydajności wnioskowania Mamby w porównaniu z Transformerem” – piszą badacze IDEAS NCBR.

„Wstępne wyniki wskazują na bardzo obiecujący kierunek badań, który może pozwolić na skalowanie SSM do dziesiątek miliardów parametrów”.

Zespół badaczy IDEAS NCBR zaprezentował MoE-Mamba, połączenie Mixture of Experts i State Space Models. To wspólna praca Macieja Pióro, Kamila Ciebiery, Krystiana Króla, Jana Ludziejewskiego i Sebastiana Jaszczura, członków zespołów badawczych Piotra Sankowskiego i Piotra Miłosia.

– Przeplatając Mambę wydajnymi warstwami MoE, uzyskujemy to, co najlepsze z obu światów: mnóstwo parametrów, szybkie uczenie i liniową inferencję czasu” – mówi Sebastian Jaszczur. „Wygląda na to, że MoE i Mamba idealnie do siebie pasują”.

Zobacz publikację na arXiv: https://arxiv.org/abs/2401.04081

I na blogu badaczy: https://llm-random.github.io/posts/moe_mamba/

Polecane aktualności

26.04.2024
Strategia AI dla Polski. Czy mamy szansę w wyścigu sztucznej inteligencji? Nowy odcinek podcastu
23.04.2024
Zatrzymać najlepszych – trendy w kształceniu w obszarze sztucznej inteligencji na poziomie doktoranckim
18.04.2024
Jeśli zainwestujemy w AI, za 10, 20 lat będziemy mieli bardziej innowacyjny przemysł