Przejdź do treści Wyszukiwarka

W ostatnich latach renderowanie neuronowe stało się czołową i szybko rozwijającą się dziedziną badań nad grafiką komputerową. Jedną z przełomowych innowacji w tym obszarze jest koncepcja Neural Radiance Fields (NeRF), która zrewolucjonizowała modelowanie 3D. NeRF umożliwia tworzenie skomplikowanych scen 3D o wysokiej jakości, przy użyciu jedynie niewielkiego zestawu obrazów treningowych i odpowiadających im pozycji kamery. NeRF wykorzystuje zależności między istniejącymi widokami i podstawowe techniki grafiki komputerowej, takie jak śledzenie promieni (ang. ray tracing), w celu tworzenia realistycznych scen.

NeRF

NeRF wykorzystuje klasyczne architektury sieci neuronowych w pełni powiązanych. Sieci te przetwarzają współrzędne 5D obejmujące pozycje kamer i lokalizacje przestrzenne, aby wygenerować kolor i przezroczystość dla każdego punktu w scenie. Funkcja kosztu w przypadku NeRF czerpie inspirację z konwencjonalnych technik renderowania objętościowego. Informacja o kolorze każdego promienia przechodzącego przez scenę zapisywana jest w wagach sieci neuronowej.

Architektura NeRF uzyskuje znakomite wyniki w generowaniu wysokiej jakości scen 3D. Napotyka jednak wyzwania związane głównie z czasem treningu oraz inferencją w czasie rzeczywistym. Uczenie i inferencja modeli NeRF mogą pochłaniać niezwykle dużo czasu, co ogranicza ich zastosowanie w rzeczywistych sytuacjach.

Gaussian Splatting

W porównaniu z NeRF, Gaussian Splatting (GS) oferuje porównywalną jakość renderowania przy krótszym czasie uczenia i inferencji. GS osiąga to poprzez rezygnację z sieci neuronowych i zamiast tego koduje informacje o obiekcie w zestawie rozkładów Gaussa. GS modeluje sceny 3D za pomocą zbioru trójwymiarowych rozkładów Gaussa, zdefiniowanych przez położenie (średnie), macierz kowariancji, przezroczystość i kolor, reprezentowane przez harmoniki sferyczne (SH). Algorytm GS tworzy reprezentację sceny 3D poprzez szereg etapów optymalizacji wspomnianych parametrów. Kluczem do wydajności GS jest proces renderowania, który wykorzystuje projekcje komponentów Gaussa. Te komponenty można wykorzystać podobnie jak klasyczne siatki, co pozwala na szybki proces renderowania modeli, szczególnie w przypadku scen dynamicznych. Jednakże warunkowanie GS jest trudne, ponieważ duże sceny 3D wymagają dużej liczby komponentów Gaussa.

Zarówno NeRF, jak i GS mają wyraźne zalety i wady. Głównym celem naszego zespołu jest opracowanie nowych reprezentacji zarówno dla NeRF, jak i GS, aby sprostać podstawowym wyzwaniom w renderowaniu neuronowym.

– Przemysław Spurek

Research Team Leader


Przemysław Spurek

Przemysław Spurek jest liderem zespołu badawczego Renderowanie neuronowe w IDEAS NCBR oraz badaczem w grupie GMUM działającej na Uniwersytecie Jagiellońskim w Krakowie. W 2014 roku obronił doktorat w zakresie nauczania maszynowego i teorii informacji. W 2023 roku uzyskał stopień doktora habilitowanego i został zatrudniony na stanowisku profesora uczelni. Publikował artykuły na prestiżowych konferencjach międzynarodowych takich jak NeurIPS, ICML, IROS, AISTATS, ECML. Jest współautorem książki Głębokie uczenie. Wprowadzenie będącej kompendium wiedzy o podstawach sztucznej inteligencji. Był kierownikiem grantów NCN PRELUDIUM, SONATA, OPUS i SONATA BIS. Obecnie jego badania koncentrują się głównie na zagadnieniach renderowania neuronowego, w szczególności w zakresie modeli NeRF oraz Gaussian Splatting.

  • 2023 nagroda naukowa Rektora UJ
  • Paper Award na IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2023)
  • Contributed talks podczas NeurIPS 2022 Workshop on Meta-Learning 2022

  • SONATA BIS, Modele generatywne 3D oparte na reprezentacji NeRF (przyznany)
  • OPUS, Hipersieci w metodach głębokiego metauczenia (Grant NCN nr 2021/43/B/ST6/01456).
  • OPUS, Generowanie rzeczywistych obrazów za pomocą modeli opartych na architekturze autoenkodera (Grant NCN nr2019/33/B/ST6/00894).
  • SONATA Budowanie algorytmów grupowania danych w oparciu o uogólnione rozkłady normalne oraz rozkłady nie gaussowskie (Grant NCN nr 2015/19/D/ST6/01472).
  • PRELUDIUM Środek ciężkości pamięci (Grant NCN nr 2013/09/N/ST6/01178).

Inne grupy i zespoły badawcze

  • Grafika komputerowa Grafika komputerowa, subdyscyplina informatyki, tradycyjnie zajmuje się algorytmami cyfrowej syntezy i manipulacji treściami wizualnymi i geometrycznymi.
    Przemysław Musialski
  • Diagnostyka patologii medycznych Naszym celem jest kształtowanie przyszłości diagnostyki medycznej poprzez opracowanie rozwiązań opartych na sztucznej inteligencji. W pracach badawczych koncentrujemy się na analizie obrazowych danych medycznych, takich jak dane radiologiczne oraz histopatologiczne (digital pathology).
    Żaneta Świderska-Chadaj
  • Zrównoważona wizja komputerowa dla maszyn autonomicznych Nasze rozwiązania potencjalnie mogłyby być wykorzystywane w dronach jako narzędzie wspierające ochronę parków narodowych, w tym zwierząt przed kłusownictwem.
    Bartosz Zieliński