Neurowissenschaftliche Studien zeigten, dass das menschliche Gehirn mittels 3D Repräsentation von Objekten arbeitet und diese Informationen - es ist noch unklar wie - speichert um die vom Menschen gewohnte, auf hohem Level praktizierte Objekterkennung zu erreichen. Oft kommen im Bereich der Bildverarbeitung mehrere Kameras zur Generierung von 3D Daten aus 2D Bildern zum Einsatz. Wenn mehrere Kameras ein überlappendes Bildfeld und eine so genannte „Wide Baseline“ besitzen, wird die Rekonstruktion des zu überwachenden Objektes unter Verwendung von korrespondierenden Punkten unmöglich, da keine korrespondierenden Punkte gefunden werden (z.B. wenn die beiden Kamerabilder die rechte und die linke Seite eines Autos oder Fußgängers zeigt). Zusätzlich werden die Bilder eines Videos meist einzeln betrachtet, was zur Folge hat, dass die Trajektorien der verfolgten Objekte über die Zeit nicht konsistent sind. Ziel dieses Projekts ist die Entwicklung eines in Echtzeit arbeitenden Frameworks, das zur Lösung dieser beiden Probleme beiträgt und eine neue Art der Klassifizierung und einer Abschätzung der 3D Pose von bewegten und starren Objekten unter Verwendung von 3D Modellen in Kombination mit Videos als Eingangssignalen präsentiert. Im ersten Schritt wird eine grobe Klassifizierung und Schätzung der 3D Pose von bewegten und starren Objekten durchgeführt. Einige (z.B. 100) der wahrscheinlichsten Posen und Klassen werden danach für jedes Bild eines Videos berechnet. Im nächsten Schritt wird dann die endgültige Pose und Klasse bestimmt, sodass bestimmte Kriterien (z.B. Die Pose darf sich zwischen zwei Frames nur marginal ändern, die Klasse gar nicht) eingehalten werden. Die Schätzungen werden zusätzlich über räumlich verschiedene Kamerabilder verfeinert, was zu einem robusten Ergebnis führen soll. Applikationen sind im Bereich der Videoüberwachung angesiedelt und können für folgende Szenarien verwendet werden: - Städtische Verkehrsanalyse: Das Framework kann auf Parkplätzen, Garagen usw. verwendet werden, um die verschiedenen Verkehrsteilnehmer zu klassifizieren und deren Trajektorien zu bestimmen. - Sicherheitsszenarien: Anormale Verhalten von Personen können detektiert und Alarme automatisch an das Sicherheitspersonal weitergeleitet werden. Durch die massive Anzahl an Überwachungskameras ist es unmöglich für einen Mensch, mehrere Objekte auf mehreren Monitoren zu verfolgen. Das Framework würde die Arbeit für diese Personen erleichtern, indem nur bei sicherheitskritischen Ereignissen ein Alarm ausgelöst wird und so das gesamte Videomaterial auf einen Bruchteil an zu überwachendem Material eingeschränkt wird.