8.3 KiB
Roadmap: Wie viele Kameras braucht die Pose-Rekonstruktion wirklich?
Ziel
Untersuchen, ob die vollständige Roboter-Pose mit 3 Kameras ausreichend präzise rekonstruiert werden kann, verglichen mit der aktuellen Konfiguration mit 6–8 Kameras.
Die Kernfrage ist:
X-Achse: Anzahl verwendeter Kameras Y-Achse: Genauigkeit der rekonstruierten Pose, gemessen als Fingerspitzen-Abweichung in mm
1. Was dafür bekannt sein muss
Bevor die Auswertung sinnvoll ist, sollten diese Punkte klar dokumentiert sein:
1.1 Datenbasis
- Wie viele Szenen existieren insgesamt?
- Welche Posen decken die Szenen ab?
- Sind die Szenen gleichmäßig über den Arbeitsraum verteilt oder nur ein Teilbereich?
- Gibt es Wiederholungen derselben Pose unter leicht anderen Bedingungen?
1.2 Kamera-Setup
- Welche Kameras sind in jeder Szene aktiv?
- Sind alle Kameras synchronisiert?
- Sind alle Kameras kalibriert?
- Sind intrinsische und extrinsische Parameter pro Kamera vorhanden?
- Gibt es Ausfälle, verdeckte Sicht oder variable Bildqualität?
1.3 Ground Truth
- Wie werden die „echten“ Roboter-Posen gespeichert?
- Ist die Ground Truth in einem konsistenten Koordinatensystem verfügbar?
- Ist die Fingerspitzenposition direkt ableitbar oder muss sie aus der Pose berechnet werden?
- Welche Referenz gilt als Wahrheit: Robotermodell, Encoder-Daten, Simulation oder beides?
1.4 Rekonstruktionspipeline
-
Welche Zwischenresultate liefert die Pipeline?
- Detektion im Bild
- Modellanpassung
- 2D/3D-Keypoints
- vollständige Pose
-
Ist die Pipeline deterministisch oder stochastisch?
-
Welche Fehlerquellen sind bereits bekannt?
1.5 Bewertungsmetrik
- Wird nur die Fingerspitze bewertet oder auch weitere Gelenkpunkte?
- Ist die Abweichung als mittlere Distanz, Median, RMSE oder 95%-Quantil interessant?
- Soll die Auswertung pro Szene, pro Kamera-Subset und aggregiert über alle Szenen erfolgen?
2. Was umgesetzt werden muss
2.1 Dateninventur und Datenformat
Zuerst sollte eine saubere Übersicht aller Szenen entstehen:
- Szenen-ID
- verfügbare Kameras
- Zeitstempel / Synchronisationsstatus
- Ground-Truth-Pose
- rekonstruierte Pose
- Bildqualität oder Sichtbarkeitsstatus
Empfehlung: ein tabellarisches Metadatenformat, z. B. CSV, JSON oder eine kleine Datenbank.
2.2 Subset-Definition für Kameras
Für den Vergleich muss festgelegt werden, welche 3 Kameras verwendet werden.
Mögliche Varianten:
- feste Auswahl der besten 3 Kameras
- alle Kombinationen aus 3 Kameras
- Auswahl nach Sichtbarkeit / Geometrie / Robustheit
Wichtig: Die Wahl der 3 Kameras beeinflusst das Ergebnis stark. Deshalb sollte nicht nur eine Kombination getestet werden, sondern möglichst mehrere.
2.3 Rekonstruktion pro Kameraset
Die Pipeline muss für verschiedene Kamerakombinationen erneut laufen:
- 3 Kameras
- 4 Kameras
- 5 Kameras
- 6 Kameras
- 7 Kameras
- 8 Kameras
Optional zusätzlich:
- jede einzelne Kamera weglassen, um die Sensitivität zu messen
- nur die geometrisch günstigsten Kameras verwenden
2.4 Fehlerberechnung
Für jede Szene und jedes Kameraset:
- Rekonstruierte Pose erzeugen
- Fingerspitze aus rekonstruierter Pose bestimmen
- Ground-Truth-Fingerspitze bestimmen
- Abstand in Millimetern berechnen
- Ergebnis speichern
Empfohlenes Ergebnisformat pro Versuch:
- Szene
- Kameraset-ID
- Anzahl Kameras
- Fingerpunkt-Fehler [mm]
- weitere optionale Metriken, z. B. Gelenkfehler, Sichtbarkeitsrate, Rekonstruktionsqualität
2.5 Aggregation und Auswertung
Am Ende sollten Kennzahlen über alle Szenen berechnet werden:
- Mittelwert des Fehlers
- Median des Fehlers
- Standardabweichung
- 95%-Konfidenzintervall oder Bootstrap-Intervall
- Fehlerverteilung pro Kamerazahl
Zusätzlich hilfreich:
- Boxplots je Kamerazahl
- Fehlerbalken mit Konfidenzintervallen
- Plot der besten / schlechtesten Kamerakombinationen
3. Empfohlene Auswertungslogik
3.1 Vergleich nach Kamerazahl
Für jede Kamerazahl k:
- alle relevanten Kamerakombinationen testen oder eine definierte Auswahl bilden
- Fehler pro Szene berechnen
- Ergebnisse aggregieren
So entsteht die Kurve:
- 3 Kameras → mittlere Abweichung
- 4 Kameras → mittlere Abweichung
- ...
- 8 Kameras → mittlere Abweichung
3.2 Vergleich nach Kamerakombination
Nicht nur die Anzahl zählt, sondern auch die Anordnung.
Deshalb sollte zusätzlich ausgewertet werden:
- welche 3-Kamera-Kombination am besten ist
- ob bestimmte Kameras besonders wichtig sind
- ob eine gute Geometrie wichtiger ist als reine Anzahl
3.3 Robustheit über Szenen
Die Frage ist nicht nur „Was ist im Mittel gut?“, sondern auch:
- Gibt es Szenen, in denen 3 Kameras deutlich scheitern?
- Gibt es Posen, bei denen schon 3 Kameras reichen?
- Ist der Fehler bei bestimmten Roboterausrichtungen systematisch höher?
4. Praktische Umsetzungsschritte
Phase A: Datengrundlage sichern
- Alle Szenen inventarisieren
- Kamerazustand pro Szene prüfen
- Ground Truth und Rekonstruktionen in ein konsistentes Format bringen
- Ein eindeutiges Schema für Szenen- und Kameraset-IDs definieren
Phase B: Vergleichsdesign festlegen
- Festlegen, ob alle 3er-Kombinationen getestet werden oder nur ausgewählte Sets
- Definieren, welche Kameraauswahl als Referenz dient
- Fehlermaß final festlegen
Phase C: Batch-Auswertung bauen
- Pipeline über mehrere Kamerasets automatisieren
- Ergebnisse versionieren und speichern
- Laufzeit und Fehler robust protokollieren
Phase D: Statistische Analyse
- Pro Kamerazahl Mittelwert, Median und Streuung berechnen
- Signifikanztests oder Bootstrap-Vergleiche zwischen Kamerazahlen durchführen
- Ausreißer identifizieren
Phase E: Visualisierung und Entscheidung
- Plot „Anzahl Kameras vs. Fehler in mm“
- Plot pro Szene oder pro Posegruppe
- Entscheidungsregel ableiten, ab wann zusätzliche Kameras kaum noch Verbesserungen bringen
5. Wichtige Fragen, die vorab beantwortet sein sollten
- Welche 3 Kameras sind gemeint: beliebige, beste, feste oder geometrisch ausgewählte?
- Sind alle Kameras pro Szene vorhanden oder gibt es Lücken?
- Wie genau wird die Fingerspitze aus der Robotermodell-Pose berechnet?
- Soll der Fehler nur an einem Punkt oder über mehrere Posepunkte bewertet werden?
- Wie wird mit Szenen umgegangen, in denen eine Rekonstruktion scheitert?
- Ist die Messung in Simulationsdaten, Realwelt oder gemischt?
- Soll die Auswertung pro Szene oder über alle Szenen gepoolt erfolgen?
6. Empfohlenes Ergebnis der Analyse
Am Ende sollte die Auswertung mindestens diese Ergebnisse liefern:
- eine Tabelle mit Fehlern pro Szene und Kameraset
- ein Diagramm „Kameraszahl vs. mittlere Fingerspitzen-Abweichung“
- eine Aussage, ob 3 Kameras praktisch ausreichend sind
- eine Aussage, welche Kameras oder Geometrien besonders wichtig sind
- eine Empfehlung für ein Minimal-Setup mit akzeptabler Genauigkeit
7. Mögliche Entscheidungslogik
Eine einfache Entscheidungsregel könnte sein:
- 3 Kameras sind ausreichend, wenn der mittlere Fehler nur wenig schlechter ist als bei 6–8 Kameras
- die Verteilung der Fehler bei 3 Kameras darf nicht zu viele Ausreißer enthalten
- das System muss für die meisten Szenen stabil bleiben
Beispiel für eine praktische Schwelle:
- maximal zulässige mittlere Abweichung
- maximal zulässiger Fehler in 95% der Fälle
- maximaler Verlust gegenüber der Vollkonfiguration
Diese Schwelle sollte fachlich mit der Anwendung abgestimmt werden.
8. Nächste konkrete Arbeitspakete
- Metadaten aller Szenen konsolidieren
- Ground Truth und Rekonstruktionsausgabe vereinheitlichen
- Kameraset-Strategie festlegen
- Batch-Runner für mehrere Kamerakonfigurationen bauen
- Fingerpunkt-Fehler je Szene berechnen
- Aggregation und Plots erstellen
- Ergebnis interpretieren und Empfehlung ableiten
9. Kurzfassung
Die Kernaufgabe ist nicht nur ein einfacher Plot, sondern ein systematischer Vergleich verschiedener Kamerasets. Dafür braucht es:
- saubere Ground Truth
- konsistente Kamerakalibrierung
- definierte Kamerakombinationen
- automatisierte Rekonstruktion
- robuste Fehlerberechnung in mm
- aggregierte Analyse über alle Szenen
Erst dann lässt sich belastbar sagen, ob 3 Kameras genügen oder ob die zusätzlichen Kameras einen messbaren Mehrwert bringen.