Files

chk 5ad956be81 Claude: Lens-Distortions

2026-06-02 11:37:29 +02:00

8.3 KiB

Raw Permalink Blame History

Roadmap: Wie viele Kameras braucht die Pose-Rekonstruktion wirklich?

Ziel

Untersuchen, ob die vollständige Roboter-Pose mit 3 Kameras ausreichend präzise rekonstruiert werden kann, verglichen mit der aktuellen Konfiguration mit 6–8 Kameras.

Die Kernfrage ist:

X-Achse: Anzahl verwendeter Kameras Y-Achse: Genauigkeit der rekonstruierten Pose, gemessen als Fingerspitzen-Abweichung in mm

1. Was dafür bekannt sein muss

Bevor die Auswertung sinnvoll ist, sollten diese Punkte klar dokumentiert sein:

1.1 Datenbasis

Wie viele Szenen existieren insgesamt?
Welche Posen decken die Szenen ab?
Sind die Szenen gleichmäßig über den Arbeitsraum verteilt oder nur ein Teilbereich?
Gibt es Wiederholungen derselben Pose unter leicht anderen Bedingungen?

1.2 Kamera-Setup

Welche Kameras sind in jeder Szene aktiv?
Sind alle Kameras synchronisiert?
Sind alle Kameras kalibriert?
Sind intrinsische und extrinsische Parameter pro Kamera vorhanden?
Gibt es Ausfälle, verdeckte Sicht oder variable Bildqualität?

1.3 Ground Truth

Wie werden die „echten“ Roboter-Posen gespeichert?
Ist die Ground Truth in einem konsistenten Koordinatensystem verfügbar?
Ist die Fingerspitzenposition direkt ableitbar oder muss sie aus der Pose berechnet werden?
Welche Referenz gilt als Wahrheit: Robotermodell, Encoder-Daten, Simulation oder beides?

1.4 Rekonstruktionspipeline

Welche Zwischenresultate liefert die Pipeline?
- Detektion im Bild
- Modellanpassung
- 2D/3D-Keypoints
- vollständige Pose
Ist die Pipeline deterministisch oder stochastisch?
Welche Fehlerquellen sind bereits bekannt?

1.5 Bewertungsmetrik

Wird nur die Fingerspitze bewertet oder auch weitere Gelenkpunkte?
Ist die Abweichung als mittlere Distanz, Median, RMSE oder 95%-Quantil interessant?
Soll die Auswertung pro Szene, pro Kamera-Subset und aggregiert über alle Szenen erfolgen?

2. Was umgesetzt werden muss

2.1 Dateninventur und Datenformat

Zuerst sollte eine saubere Übersicht aller Szenen entstehen:

Szenen-ID
verfügbare Kameras
Zeitstempel / Synchronisationsstatus
Ground-Truth-Pose
rekonstruierte Pose
Bildqualität oder Sichtbarkeitsstatus

Empfehlung: ein tabellarisches Metadatenformat, z. B. CSV, JSON oder eine kleine Datenbank.

2.2 Subset-Definition für Kameras

Für den Vergleich muss festgelegt werden, welche 3 Kameras verwendet werden.

Mögliche Varianten:

feste Auswahl der besten 3 Kameras
alle Kombinationen aus 3 Kameras
Auswahl nach Sichtbarkeit / Geometrie / Robustheit

Wichtig: Die Wahl der 3 Kameras beeinflusst das Ergebnis stark. Deshalb sollte nicht nur eine Kombination getestet werden, sondern möglichst mehrere.

2.3 Rekonstruktion pro Kameraset

Die Pipeline muss für verschiedene Kamerakombinationen erneut laufen:

3 Kameras
4 Kameras
5 Kameras
6 Kameras
7 Kameras
8 Kameras

Optional zusätzlich:

jede einzelne Kamera weglassen, um die Sensitivität zu messen
nur die geometrisch günstigsten Kameras verwenden

2.4 Fehlerberechnung

Für jede Szene und jedes Kameraset:

Rekonstruierte Pose erzeugen
Fingerspitze aus rekonstruierter Pose bestimmen
Ground-Truth-Fingerspitze bestimmen
Abstand in Millimetern berechnen
Ergebnis speichern

Empfohlenes Ergebnisformat pro Versuch:

Szene
Kameraset-ID
Anzahl Kameras
Fingerpunkt-Fehler [mm]
weitere optionale Metriken, z. B. Gelenkfehler, Sichtbarkeitsrate, Rekonstruktionsqualität

2.5 Aggregation und Auswertung

Am Ende sollten Kennzahlen über alle Szenen berechnet werden:

Mittelwert des Fehlers
Median des Fehlers
Standardabweichung
95%-Konfidenzintervall oder Bootstrap-Intervall
Fehlerverteilung pro Kamerazahl

Zusätzlich hilfreich:

Boxplots je Kamerazahl
Fehlerbalken mit Konfidenzintervallen
Plot der besten / schlechtesten Kamerakombinationen

3. Empfohlene Auswertungslogik

3.1 Vergleich nach Kamerazahl

Für jede Kamerazahl k:

alle relevanten Kamerakombinationen testen oder eine definierte Auswahl bilden
Fehler pro Szene berechnen
Ergebnisse aggregieren

So entsteht die Kurve:

3 Kameras → mittlere Abweichung
4 Kameras → mittlere Abweichung
...
8 Kameras → mittlere Abweichung

3.2 Vergleich nach Kamerakombination

Nicht nur die Anzahl zählt, sondern auch die Anordnung.

Deshalb sollte zusätzlich ausgewertet werden:

welche 3-Kamera-Kombination am besten ist
ob bestimmte Kameras besonders wichtig sind
ob eine gute Geometrie wichtiger ist als reine Anzahl

3.3 Robustheit über Szenen

Die Frage ist nicht nur „Was ist im Mittel gut?“, sondern auch:

Gibt es Szenen, in denen 3 Kameras deutlich scheitern?
Gibt es Posen, bei denen schon 3 Kameras reichen?
Ist der Fehler bei bestimmten Roboterausrichtungen systematisch höher?

4. Praktische Umsetzungsschritte

Phase A: Datengrundlage sichern

Alle Szenen inventarisieren
Kamerazustand pro Szene prüfen
Ground Truth und Rekonstruktionen in ein konsistentes Format bringen
Ein eindeutiges Schema für Szenen- und Kameraset-IDs definieren

Phase B: Vergleichsdesign festlegen

Festlegen, ob alle 3er-Kombinationen getestet werden oder nur ausgewählte Sets
Definieren, welche Kameraauswahl als Referenz dient
Fehlermaß final festlegen

Phase C: Batch-Auswertung bauen

Pipeline über mehrere Kamerasets automatisieren
Ergebnisse versionieren und speichern
Laufzeit und Fehler robust protokollieren

Phase D: Statistische Analyse

Pro Kamerazahl Mittelwert, Median und Streuung berechnen
Signifikanztests oder Bootstrap-Vergleiche zwischen Kamerazahlen durchführen
Ausreißer identifizieren

Phase E: Visualisierung und Entscheidung

Plot „Anzahl Kameras vs. Fehler in mm“
Plot pro Szene oder pro Posegruppe
Entscheidungsregel ableiten, ab wann zusätzliche Kameras kaum noch Verbesserungen bringen

5. Wichtige Fragen, die vorab beantwortet sein sollten

Welche 3 Kameras sind gemeint: beliebige, beste, feste oder geometrisch ausgewählte?
Sind alle Kameras pro Szene vorhanden oder gibt es Lücken?
Wie genau wird die Fingerspitze aus der Robotermodell-Pose berechnet?
Soll der Fehler nur an einem Punkt oder über mehrere Posepunkte bewertet werden?
Wie wird mit Szenen umgegangen, in denen eine Rekonstruktion scheitert?
Ist die Messung in Simulationsdaten, Realwelt oder gemischt?
Soll die Auswertung pro Szene oder über alle Szenen gepoolt erfolgen?

6. Empfohlenes Ergebnis der Analyse

Am Ende sollte die Auswertung mindestens diese Ergebnisse liefern:

eine Tabelle mit Fehlern pro Szene und Kameraset
ein Diagramm „Kameraszahl vs. mittlere Fingerspitzen-Abweichung“
eine Aussage, ob 3 Kameras praktisch ausreichend sind
eine Aussage, welche Kameras oder Geometrien besonders wichtig sind
eine Empfehlung für ein Minimal-Setup mit akzeptabler Genauigkeit

7. Mögliche Entscheidungslogik

Eine einfache Entscheidungsregel könnte sein:

3 Kameras sind ausreichend, wenn der mittlere Fehler nur wenig schlechter ist als bei 6–8 Kameras
die Verteilung der Fehler bei 3 Kameras darf nicht zu viele Ausreißer enthalten
das System muss für die meisten Szenen stabil bleiben

Beispiel für eine praktische Schwelle:

maximal zulässige mittlere Abweichung
maximal zulässiger Fehler in 95% der Fälle
maximaler Verlust gegenüber der Vollkonfiguration

Diese Schwelle sollte fachlich mit der Anwendung abgestimmt werden.

8. Nächste konkrete Arbeitspakete

Metadaten aller Szenen konsolidieren
Ground Truth und Rekonstruktionsausgabe vereinheitlichen
Kameraset-Strategie festlegen
Batch-Runner für mehrere Kamerakonfigurationen bauen
Fingerpunkt-Fehler je Szene berechnen
Aggregation und Plots erstellen
Ergebnis interpretieren und Empfehlung ableiten

9. Kurzfassung

Die Kernaufgabe ist nicht nur ein einfacher Plot, sondern ein systematischer Vergleich verschiedener Kamerasets. Dafür braucht es:

saubere Ground Truth
konsistente Kamerakalibrierung
definierte Kamerakombinationen
automatisierte Rekonstruktion
robuste Fehlerberechnung in mm
aggregierte Analyse über alle Szenen

Erst dann lässt sich belastbar sagen, ob 3 Kameras genügen oder ob die zusätzlichen Kameras einen messbaren Mehrwert bringen.

8.3 KiB Raw Permalink Blame History Unescape Escape