Każdego dnia podejmujemy wiele decyzji, czy to w życiu osobistym, czy też podczas pracy w przedsiębiorstwach i instytucjach. Często skutki danej decyzji są nieoczywiste. Co więcej, są one rozciągnięte w czasie, a tym samym wzajemnie na siebie oddziałują, wzmacniają się, osłabiają lub korygują. Aby postępować racjonalnie, czy też inteligentnie, musimy analizować sekwencje decyzji.
Wierzymy, że rozwój technik pozwalających na skuteczne analizowanie i podejmowanie sekwencji decyzji pozwoli tworzyć inteligentne i autonomiczne systemy. Przełoży się to na wiele praktycznych rozwiązań, począwszy od sterowania robotami czy samochodami autonomicznymi, a kończąc na wielokrokowych procedurach decyzyjnych lub dedukcyjnych, takich jak dowody matematyczne.
Temat ten jest fascynujący z naukowego punktu widzenia, gdyż leży na przecięciu wielu dziedzin uczenia maszynowego. Aby badać go we właściwy sposób, potrzebujemy rozwinąć techniki planowania, metody uczenia ze wzmocnieniem, a także umiejętnie korzystać z dobrodziejstw uczenia głębokiego i nowoczesnych modeli językowych. Liczymy na to, że z czasem postęp w zakresie tych technik i ich umiejętne zastosowanie doprowadzą do powstania rozwiązań o dużym stopniu uniwersalności, które będzie można „ściągnąć z półki” i zaaplikować do szerokiej gamy problemów.
Czy androidy mogą mieć zdrowy rozsądek?
Philip K. Dick pyta w tytule swej kultowej książki „czy androidy śnią o elektrycznych owcach?”. Chcemy na początek zadać prostsze pytanie: czy androidy mogą mieć zdrowy rozsądek? Zbudowanie sztucznego ekwiwalentu zdrowego rozsądku może mieć fundamentalny wpływ na paradygmat, w ramach którego budujemy systemy automatyczne.
Automatyzacja i autonomia są jednym z głównych motorów postępu gospodarczo-technologicznego. Jednak w wielu przypadkach automatyzacja jest płytka, np. roboty na taśmach przemysłowych operują w ściśle zdefiniowanym i kontrolowanym środowisku, w przeciwieństwie do chaotycznego środowiska świata codziennego (np. drony poruszające się w przestrzeni miejskiej). Jak możemy to zmienić? Potrzebujemy fundamentalnej redefinicji metod sterowania. Nie mogą być one oparte o ręcznie napisane skrypty, jak to się dzieje na taśmach produkcyjnych, natomiast muszą elastycznie reagować na zmiany słabo zdefiniowane (lub trudne do ręcznego skalowania).
W ramach prac mojego zespołu rozwijamy metody i modele, które mają cechy funkcjonalnego ekwiwalentu zdrowego rozsądku. Ich istotnymi cechami jest generalizacja zero-shot i możliwość adaptacji bez zapominania. Generalizacja zero-shot to możliwość operowania w sytuacjach nietestowanych podczas treningu, co można uznać za sztuczny odpowiednik zdrowego rozsądku. Jednym z najważniejszych osiągnięć informatyki ostatnich lat jest to, że generalizację taką można uzyskać poprzez umiejętne skalowanie modeli i ilości danych. Adaptacja bez zapominania obejmuje, zgodnie z utartą terminologią uczenia ciągłego (continual learning), możliwość nabywania nowych umiejętności w szybki sposób (tj. transfer wiedzy z poprzednich zadań) i braku zapominania (wiele umiejętności modelu będzie wykorzystywanych sporadycznie).