MoE-Mamba. Badacze IDEAS NCBR łączą dwie architektury LLM

11.01.2024

„Nasz model, MoE-Mamba, przewyższa zarówno Mambę, jak i Transformer-MoE. W szczególności MoE-Mamba osiąga tę samą wydajność co Mamba przy 2,2 razy mniejszej liczbie etapów treningowych, zachowując jednocześnie wzrost wydajności wnioskowania Mamby w porównaniu z Transformerem” – piszą badacze IDEAS NCBR.

„Wstępne wyniki wskazują na bardzo obiecujący kierunek badań, który może pozwolić na skalowanie SSM do dziesiątek miliardów parametrów”.

Zespół badaczy IDEAS NCBR zaprezentował MoE-Mamba, połączenie Mixture of Experts i State Space Models. To wspólna praca Macieja Pióro, Kamila Ciebiery, Krystiana Króla, Jana Ludziejewskiego i Sebastiana Jaszczura, członków zespołów badawczych Piotra Sankowskiego i Piotra Miłosia.

– Przeplatając Mambę wydajnymi warstwami MoE, uzyskujemy to, co najlepsze z obu światów: mnóstwo parametrów, szybkie uczenie i liniową inferencję czasu” – mówi Sebastian Jaszczur. „Wygląda na to, że MoE i Mamba idealnie do siebie pasują”.

Zobacz publikację na arXiv: https://arxiv.org/abs/2401.04081

I na blogu badaczy: https://llm-random.github.io/posts/moe_mamba/