„Wstępne wyniki wskazują na bardzo obiecujący kierunek badań, który może pozwolić na skalowanie SSM do dziesiątek miliardów parametrów”.
Zespół badaczy IDEAS NCBR zaprezentował MoE-Mamba, połączenie Mixture of Experts i State Space Models. To wspólna praca Macieja Pióro, Kamila Ciebiery, Krystiana Króla, Jana Ludziejewskiego i Sebastiana Jaszczura, członków zespołów badawczych Piotra Sankowskiego i Piotra Miłosia.
– Przeplatając Mambę wydajnymi warstwami MoE, uzyskujemy to, co najlepsze z obu światów: mnóstwo parametrów, szybkie uczenie i liniową inferencję czasu” – mówi Sebastian Jaszczur. „Wygląda na to, że MoE i Mamba idealnie do siebie pasują”.
Zobacz publikację na arXiv: https://arxiv.org/abs/2401.04081
I na blogu badaczy: https://llm-random.github.io/posts/moe_mamba/