3D Gaussian Splatting: Fotorealistische Szenen aus Photos in Minuten

Stell dir vor, du machst 50 Fotos von einem Raum mit deinem Smartphone – und 20 Minuten später hast du eine fotorealistische, frei begehbare 3D-Szene, in der du dich mit der Maus umsehen kannst wie in einem Video. Vor drei Jahren brauchtest du dafür Spezialkameras, Studio-Equipment und einen Computergraphik-Profi. Heute reicht ein Open-Source-Tool und eine handelsübliche GPU. Die Technik dahinter heißt 3D Gaussian Splatting (3DGS) – und sie gehört aktuell zu den spannendsten Entwicklungen in der Computergraphik seit der Einführung von NeRF.

Was ist Gaussian Splatting?

Die Grundidee ist verblüffend einfach: Statt eine 3D-Szene aus Dreiecken (klassische Meshes) oder Voxeln (3D-Pixel) aufzubauen, wird sie aus abertausenden kleinen, verschwommenen 3D-Punkten – sogenannten Gauss-Splats – zusammengesetzt. Jeder dieser Splats hat:

Eine Position (x, y, z) im Raum
Eine Form (eine 3D-Gauß-Glockenkurve – daher der Name)
Eine Farbe und Transparenz
Eine Orientierung (Rotation im Raum)

Wird eine Szene aus vielen Photos aufgenommen, berechnet ein Optimierungsverfahren Millionen dieser Splats so, dass sie zusammen das Originalbild möglichst exakt reproduzieren. Das Ergebnis sieht nicht nur aus wie ein Foto – es ist mathematisch gesehen ein Foto, nur eben als 3D-Reparatur gespeichert.

3DGS vs. NeRF: Was ist der Unterschied?

Wer sich mit dem Thema beschäftigt, stolpert schnell über NeRF (Neural Radiance Fields). Beide Techniken verwandeln Photos in 3D-Szenen, aber sie unterscheiden sich fundamental:

NeRF nutzt ein neuronales Netz, das für jeden Punkt im Raum eine Farbe und Dichte vorhersagt. Brillante Qualität, aber langsam (Minuten pro Bild) und schwer zu bearbeiten.
3DGS nutzt explizite 3D-Gauß-Funktionen. Splatting (das "Verspritzen" der Punkte auf den Bildschirm) ist Echtzeit-fähig – 30+ FPS auf einer normalen GPU sind Standard.

Für die meisten Anwendungsfälle – Produktvisualisierung, Echtzeit-Demos, Architektur, Gaming-Vorproduktion – ist 3DGS inzwischen die erste Wahl. NeRF bleibt relevant, wenn höchste geometrische Genauigkeit gefragt ist (Medizin, wissenschaftliche Rekonstruktion).

Die wichtigsten GitHub-Repos

Die Open-Source-Landschaft rund um 3D Gaussian Splatting ist bemerkenswert aktiv. Hier die Repos, die du kennen solltest:

graphdeco-inria/gaussian-splatting – Das Original-Repo der INRIA-Forschergruppe um Bernhard Kerbl, das die Revolution 2023 mit dem SIGGRAPH-Paper "3D Gaussian Splatting for Real-Time Radiance Field Rendering" ausgelöst hat. CUDA-basiert, Referenzimplementierung. ~20k Stars, ~3k Forks.
nerfstudio-project/gsplat – Eine moderne, modularisierte PyTorch-Reimplementierung mit besserer Dokumentation und Multi-GPU-Support. Ideal, wenn du mit eigenen Daten experimentieren willst. ~2.5k Stars.
playcanvas/splat-renderer – WebGL-basierter Renderer für fertige Splat-Szenen. Damit kannst du 3DGS-Szenen direkt im Browser anzeigen, ohne eigene Engine. Perfekt für Web-Demos.
MrNeRF/awesome-3D-Gaussian-Splatting – Die zentrale kuratierte Liste mit Papers, Datensätzen, Tools und Folgeprojekten. Pflicht-Lesezeichen.
city-super/Scaffold-GS – Weiterentwicklung mit "Scaffold"-Strukturen für riesige Szenen (Stadtteile, ganze Wälder). Löst das Skalierungsproblem des Originals.
hustvl/4DGS – 4D-Erweiterung: Splats, die sich über die Zeit verändern. Erste Schritte Richtung dynamischer 3D-Rekonstruktion (z.B. tanzende Personen aus Videos).
autonomousvision/gaussian-splatting-lightning – Hochoptimierte Variante mit Blitzschneller Konvergenz (~5 Minuten statt 30–60).

So funktioniert der Workflow in der Praxis

Der typische End-to-End-Prozess von Photos zu einer fertigen 3D-Szene besteht aus vier Schritten:

1. Capture: 50–200 Photos des Objekts oder Raums aus möglichst vielen Blickwinkeln aufnehmen. Smartphone reicht für erste Versuche; bessere Ergebnisse mit Systemkamera und bekannter Brennweite.
2. Structure-from-Motion (SfM): Tools wie COLMAP berechnen aus den Photos die Kamerapositionen und einen initialen Sparse-Punktwolken-Input. Das ist die Grundlage für die 3DGS-Optimierung.
3. Training: Das 3DGS-Tool optimiert Millionen von Gauß-Splats iterativ. Auf einer RTX 4090 dauert das für eine typische Innenraum-Szene etwa 30–60 Minuten.
4. Rendering: Die finale Szene wird in einer komprimierten Datei (.ply, .splat oder .ksplat) gespeichert und kann mit Open-Source-Viewern (PlayCanvas, supersplat, luma-web-viewer) in Echtzeit dargestellt werden.

Anwendungsfälle, die jetzt schon funktionieren

3DGS ist nicht mehr nur Forschung – die ersten produktiven Anwendungen sind live:

E-Commerce: Produktvisualisierung ohne Fotostudio. Shopify-Plugins wie 3DGS-Snap erlauben Händlern, ein Produkt zu fotografieren und embedded 3D anzubieten.
Architektur & Immobilien: Matterport-Konkurrenten wie KIRI Engine und Polycam bieten 3DGS-Pipelines als Cloud-Service an.
Robotik & autonome Systeme: Sim-to-Real-Trainingsdaten aus 3DGS-Szenen. NeurIPS 2025 hat gezeigt, dass damit trainierte Policies in echten Räumen erstaunlich robust funktionieren.
Kultur & Denkmalpflege: Forschungsteams der ETH Zürich und der TU München haben 2025 historische Stätten in 3DGS rekonstruiert – inklusive Echtzeit-Annotation für Restauratoren.
KI-generierte 3D-Inhalte: Die nächste Welle sind Modelle, die 3DGS-Szenen direkt aus Text-Prompts erzeugen (z.B. GaussianDreamer, GSGen). Funktioniert noch wackelig, aber das Tempo der Veröffentlichungen ist atemberaubend.

Limitierungen, die du kennen solltest

3DGS ist nicht perfekt – die wichtigsten Einschränkungen heute:

Statisch: Standard-3DGS kann nur unbewegte Szenen. Für dynamische Inhalte brauchst du 4DGS oder andere Erweiterungen.
Speicherbedarf: Eine mittelgroße Szene belegt zwischen 200 MB und 2 GB. Kompression ist aktiv Forschungsthema.
Editierbarkeit: Im Gegensatz zu Meshes sind Splats schwer zu bearbeiten. Einzelne Objekte aus der Szene zu entfernen oder zu modifizieren ist möglich, aber umständlich.
Reflexionen und Transparenz: Funktioniert, aber mit sichtbaren Artefakten. Spiegelnde Oberflächen und Gläser sind eine eigene Disziplin.

Fazit

3D Gaussian Splatting ist 2026 die praktischste Methode, um aus Photos begehbare 3D-Szenen zu erzeugen – in Minuten bis Stunden, nicht Tagen.
Das Original-Repo von INRIA ist der Startpunkt, gsplat die beste modulare Variante, playcanvas/splat-renderer der einfachste Web-Viewer.
Die spannendste offene Forschungsfrage: dynamische 4D-Szenen und text-to-3DGS-Generierung.
Für produktive Anwendungen gibt es inzwischen kommerzielle Anbieter (Polycam, KIRI Engine, Luma AI) – der Markt konsolidiert sich gerade.