Drei Wege, ein Ziel

Background Removal ist 2026 keine Spezial-Software-Domäne mehr. Drei technisch grundverschiedene Ansätze laufen heute browser-lokal — alle ohne dass das Bild den Rechner verlässt. Die drei: klassisches Chroma Keying für kontrollierte Greenscreen-Setups, MediaPipe Selfie Segmentation für Webcam-Streams und kleine Bilder, und ONNX-/WebGPU-basierte ML-Modelle (RemBG, BiRefNet, BRIA RMBG) für beliebige Foto-Inhalte.

Eine kurze Einordnung der grundlegenden Technik findest du im Lexikon-Eintrag Chroma Keying; dieser Beitrag geht in die praktische Tiefe.

1. Chroma Keying — der Klassiker

Die ursprüngliche Technik: Pixel einer definierten Farbe (typisch Greenscreen-Grün oder Bluescreen-Blau) werden transparent. Der Algorithmus ist einfach genug für eine Canvas-Schleife: jedes Pixel im RGB- oder HSV-Raum mit der Ziel-Farbe vergleichen, bei Treffer Alpha auf 0 setzen. In Production-Code kommen noch Spill-Suppression (grüne Halos um Haare entfernen) und Edge-Refinement dazu.

Performance: Bei einem 1920×1080-Foto auf einer Mid-Range-CPU etwa 50–80 ms in JavaScript, 5–10 ms via WebGPU-Compute-Shader. Genauigkeit: exzellent bei sauberen Greenscreen-Setups, katastrophal bei gemischten Hintergründen. Wann: Live-TV, Stream-Overlay (OBS), Studio-Produktfotos, alles mit kontrollierter Lichtsituation.

Wann nicht: alltägliche Smartphone-Fotos. Ohne Greenscreen ist die Technik praktisch nutzlos — was Background Removal in der Smartphone-Ära so populär machte, ist erst die ML-Welle der späten 2010er.

2. MediaPipe Selfie Segmentation

Google veröffentlichte 2020 die MediaPipe Selfie Segmentation als Open-Source-Modell für Browser, Android und iOS. Ein leichtgewichtiges TensorFlow-Lite- Modell (~3 MB) klassifiziert pixelweise „Person" vs. „Hintergrund". Es kam ursprünglich aus Google-Meet-Hintergrund-Blur und wurde später freigegeben.

Performance:in Chrome auf einer M2-CPU etwa 15 ms pro Frame, bei 1280×720-Stream > 30 FPS. WebGPU-Acceleration in Chrome 121+ macht das nochmal schneller. Genauigkeit: sehr gut für Selfie-Komposition (Personen mittig, gut beleuchtet, Webcam-Distanz). Versagt bei komplexen Posen, Gruppenfotos, Personen im Profil. Wann: Webcam-Effekte (Google Meet, Zoom), Stream-Overlays, Selfie-Sticker, einfache Portrait-Background-Wechsel.

MediaPipe ist die richtige Wahl, wenn du Latenz brauchst (Echtzeit-Video) und ein Smartphone-Selfie-Szenario abdeckst. Für statische Fotos mit beliebigen Motiven sind die nächsten Modelle besser.

3. RemBG, BiRefNet, BRIA RMBG — die KI-Modelle

Drei spezialisierte ML-Modelle dominieren 2026 das Foto-Background-Removal. Alle drei basieren auf U-Net-artigen Architekturen mit Aufmerksamkeits-Mechanismen und sind deutlich präziser als MediaPipe, brauchen aber mehr Speicher und CPU/GPU.

  • RemBG (u2net): der Open-Source-Klassiker. Modell ~170 MB, läuft als ONNX in onnxruntime-web. Brauchbare Qualität für die meisten Fotos.
  • BiRefNet: 2024-Modell aus akademischer Forschung. Deutlich präziser bei Haar-, Fell- und feinen Strukturen. Modell ~200 MB.
  • BRIA RMBG 2.0: kommerziell trainiertes Modell mit Lizenzlizenz für nicht-kommerzielle Nutzung (Stand 2026). Beste Allgemein-Qualität, aber Lizenz-Aufwand für Produktiv-Einsatz.

Performance: auf einer M2-CPU brauchen alle drei für ein 1024×1024-Bild 2–5 Sekunden, mit WebGPU 0,5–1 Sekunde, mit dedizierter GPU 0,2–0,5 Sekunden. Für Echtzeit-Video also nicht geeignet, für „Klick-und-Warte"- Workflows in Web-Apps perfekt. Genauigkeit: auf typischen Smartphone-Selfies und Produktfotos vergleichbar mit Adobe Photoshops „Subject Select"- Feature, oft sogar besser bei Haaren und transparenten Stoffen.

Browser-Deployment-Stack 2026

Praktisch sieht eine moderne Browser-Background-Removal-Pipeline so aus:

  1. Bild lokal akzeptieren via <input type="file">oder Drag-and-Drop. Das Bild bleibt im Browser.
  2. Modell laden via onnxruntime-web (oder transformers.js für Hugging-Face-Workflows). Modell-Größe macht den ersten Run langsam (~3–5 Sekunden Cold-Start), spätere Runs nutzen Cache.
  3. WebGPU-Acceleration aktivieren, falls verfügbar. Faktor 5–10× schneller als WASM-CPU-Pfad.
  4. Inference im Web Worker, damit der UI-Thread nicht blockiert. Wichtig für INP (siehe unseren CWV-Beitrag).
  5. Ergebnis als RGBA-Bild in einem OffscreenCanvaszusammenfügen, dann als PNG oder WebP exportieren.

Datenschutz: warum lokal entscheidend ist

Background-Removal ist ein klassischer Anwendungsfall, in dem Datenschutz strukturell wichtig ist. Das Bild zeigt eine Person — typisch dich selbst oder deine Familie. Eine Cloud-API (remove.bg, Photoroom-API) sieht jeden Upload, speichert ihn möglicherweise, kann es zur Modell-Verbesserung verwenden. Browser-lokale Modelle eliminieren diese Vertrauens-Frage strukturell.

Für sensible Bild-Workflows ohne Upload setze ich auch auf andere lokale Tools — der Wasserzeichen-Generator, der EXIF-Editor, der Icon Studio arbeiten alle browser-lokal.

Wann welche Technik?

  • Echtzeit-Webcam mit fixer Person mittig: MediaPipe. 30 FPS, gute Genauigkeit.
  • Studio-Produktfoto mit Greenscreen: Chroma Keying. Schneller und präziser als jedes ML-Modell.
  • Alltägliches Smartphone-Selfie, statisches Bild: BiRefNet oder BRIA RMBG.
  • Produktfotos (Marketplace, Etsy, E-Commerce): RemBG oder BiRefNet, danach manuelle Nachbearbeitung in einem Editor.
  • Batch-Job > 100 Bilder: serverseitig (Sharp + RemBG-CLI oder spezialisierter Dienst). Browser ist für Batch zu langsam.
  • Komplexe Inhalte (Haare, Fell, transparente Stoffe): BiRefNet schlägt bei Haaren oft sogar Adobe Photoshop CC 2024.

Die ehrliche Limitierung

Selbst die besten Modelle 2026 versagen bei drei Szenarien zuverlässig: Glas und stark reflektierende Oberflächen (Modell verwechselt Reflexionen mit Vordergrund), sehr ähnliche Vorder- und Hintergrund-Farben (typisch: Person mit dunklem Pullover vor dunkler Wand), und Mehrfach-Personen-Szenen, in denen das Modell nur eine als Vordergrund auswählt. Hier kommst du um manuelle Korrekturen oder dedizierte Subject-Selection-Werkzeuge nicht herum.

2026: WebGPU als Game-Changer

Die wichtigste Performance-Veränderung der letzten 12 Monate ist die breite WebGPU- Verfügbarkeit (siehe Lexikon-Eintrag). Modelle, die 2022 noch 5 Sekunden brauchten, laufen 2026 in einer Sekunde. Das macht Browser-Background-Removal alltagstauglich — vorher war es eher ein „Geduld haben"-Workflow.

Was als nächstes kommt: SAM-2 (Segment Anything Model 2) von Meta wird gerade auf Browser-Inference portiert. Sobald das Modell stabil läuft, sind interaktive Background-Removal-Tools mit Klick-und-Verfeinern-UX in Reichweite — der bisher größte Schwachpunkt der ML-Workflows.

Quellen

MediaPipe — Image Segmenter · RemBG-Projekt · BiRefNet-Projekt · BRIA RMBG 2.0 auf Hugging Face · ONNX Runtime Web · transformers.js · W3C WebGPU Spec · Wikipedia — Chroma key · Meta — Segment Anything Model 2.