Przejdź do treści Wyszukiwarka
03.12.2024
Przyjrzyjmy się bliżej publikacji "Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control," która otrzymała wyróżnienie spotlight na konferencji NeurIPS 2024 w Vancouver.

Współautorami publikacji Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control są: Michał Nauman (podczas jej pisania pracował w IDEAS NCBR), Mateusz Ostaszewski (Politechnika Warszawska), Krzysztof Jankowski (Uniwersytet Warszawski), Piotr Miłoś (Instytut Matematyczny PAN, UW, IDEAS NCBR), Marek Cygan (UW, Nomagic).

Publikację można znaleźć tutaj: https://arxiv.org/abs/2405.16158

Robot-pies w środowisku wirtualnym działający przy użyciu jednego z wcześniej używanych algorytmów

Robot-pies w środowisku wirtualnym działający przy użyciu BRO

Algorytm BRO jest przeznaczony do trenowania robotów w symulacjach, takich jak dobrze znane środowisko DeepMind Control Suite. W wirtualnych środowiskach algorytm uczy się kontrolować symulacje robotów o różnej morfologii (na przykład robota humanoidalnego lub robota-psa). Ma za zadanie nauczyć się, jak poruszać robotem, nie posiadając wcześniejszej wiedzy o świecie. Jeśli algorytm taki jak BRO dobrze sprawdza się w złożonej symulacji, możemy założyć, że będzie się również szybko uczył w świecie rzeczywistym – ponieważ symulacje mogą ściśle odzwierciedlać scenariusze ze świata rzeczywistego.

W jednym z testów BRO miał za zadanie nauczyć się, jak poruszać się tak szybko, jak to możliwe. W ciągu zaledwie trzech godzin zrobił postępy od pełzania do biegania, bez wcześniejszego zrozumienia, jak powinno wyglądać bieganie. W pewnym sensie można powiedzieć, że algorytm „odkrył”, jak biegać samodzielnie.

BRO tym się różni od tradycyjnych metod, że większość systemów uczenia się przez wzmacnianie (reinforcement learning) wymaga ogromnych ilości danych oraz metody prób i błędów, aby uczyć się skutecznie. Jednak BRO ulepsza te metody, zwiększając rozmiar algorytmu i czyniąc go bardziej elastycznym w różnych zadaniach. Wykorzystując silne reguły (regularization) do kierowania procesem uczenia się i strategię eksploracji, która zachęca do próbowania nowych rzeczy, BRO wydajniej wykorzystuje dane. W rezultacie działa lepiej, wykonując mniej pracy i potrzebując mniej czasu na obliczenia, co pozwala go ocenić jako duży krok naprzód w dziedzinie robotyki i sztucznej inteligencji.

Na gifach zobacz różnicę pomiędzy wirtualnymi robotami-psami, obsługiwanymi przez jeden z innych algorytmów (GIF 1) i BRO (GIF 2). Robot-pies BRO biega wyraźnie lepiej.

Zobacz wszystkie publikacje, których współautorami są badacze IDEAS NCBR, na NeurIPS 2024.

Polecane aktualności

27.01.2025
Jak generatywna AI będzie wdrażana w firmach?
24.01.2025
Nagrania z Warsaw IACR Summer School on Post-Quantum Cryptography dostępne online
07.01.2025
Dzięki AI Polska mogłaby konkurować z najlepszymi na świecie