InSitu - Integriertes Situiertes Visuelles Szenen- und Sprachverstehen für Mensch-Roboter Interaktion

01.03.2011 - 28.02.2015

Forschungsförderungsprojekt

Während Service Robotik in den letzten Jahren ständig Fortschritte in Feldern wie Bildverarbeitung, Manipulation und Navigation macht, sind wir immer noch weit entfernt von natürlicher Mensch-Roboter Interaktion. Das liegt unter anderem daran, daß zwei wichtige Modalitäten oft isoliert betrachtet werden, nämlich visuelles und Sprach-Verstehen. Stellen wir uns ein Szenario vor, wo ein Mensch einen Roboter anweist Objekte in einem Wohnzimmer zurück an ihre Plätze stellen. Für einen Menschen, der in ähnlicher Weise instruiert würde, wäre es eher ungewöhnlich die Aufgabenbeschreibung stumm mit geschlossenen Augen entegenzunehmen, und dann die Szene zu betrachten, um die linguistischen Ausdrücke mit visuellen Referenten zu vergleichen. Jedoch arbeiten genau so meist Roboter mit getrennten Subsystemen. Natürliche Interaktion läuft aber nicht so ab. Während sie einen Roboter instruieren, werden Menschen automatisch zu einem betreffenden Objekt hinsehen oder auf es zeigen um geteilte Aufmerksamkeit zu erreichen. Weiters wird ein Mensch auch kurze Rückmeldungen erwarten, daß der Roboter verstanden hat (wie "OK" oder "yes, I see") oder effizient um Klarstellung bittet (" - the red one on the table?"). Solche Rückmeldungen sind oft schon nötig während eine Äußerung getätigt wird, und können verbal sein, durch Hinsehen oder schon durch den Start einer passenden Aktion, wie z.b. nach einem roten Buch zu greifen nachdem der erste Teil einer Äußerung "Put the red book ..." gehört wurde. In interaktiven Szenarien wie diesem können visuelle Verarbeitung und Sprach-Verarbeitung einander gegenseitig inkrementell eingrenzen. Zum Beispiel kann das visuelle Verstehen einer Szene das Verstehen von mehrdeutigen oder unter-spezifizerten Ausdrücken unterstützen, während diese verarbeitet werden: "the red book on the floor" wird eher ein Buch sein, das der Sprecher sieht, und nicht eines hinter hinter ihrem Rücken. Auch syntaktisch mehrdeutige Sätze wie "put the book on the table on the shelf" werden klar sobald der Roboter in Buch auf dem Tisch detekiert, und somit visuell beobachtete Relationen nutzt um die syntaktische und semantische Analyse einzugrenzen. Andererseits kann die verbale Beschreibung einer Szene die visuelle Verarbeitung auf die releventen Elemente richten, z.B. "Put the red [hier richtet sich die visuelle Aufmerksamkeit aud rote Bildregionen] shoe on [hier richtet sich Aufmerksameit auf horizontale Ablageflächen] the box". Weiters können auch nicht-sprachliche Hinweise wie Blickrichtung oder Zeigebewegungen inkrementell mit teilweise verstandenen Äußerungen integriert werden, um die Aufmerksamkeit auf jene Elemente zu richten, die für die augenblickliche Diskurs-Situation relevant sind. Visuelles und Sprach-Verstehen sind somit eng gekoppelt und bilden die Vision-Language Loop. In dieser Schleife steuert Sprache das visuelle Verstehen durch Modulation der Aufmerksamkeit und visuell rekonstruierte Szenen-Elemente werden als Referenten an das Sprach-Verstehen zurückgeführt. Diese Prozesse sind zeitlich eng verwoben, um Teil-Interpretationen optimal in beiden Richtungen nutzen zu können. InSitu begegnet dem Problem der Integration von visuellem und Sprach-Verstehen in einer neuartigen Weise, Damit Roboter menschen-ähnliche Leistungen erreichen in solch einfachen, natürlichen Interaktionen müssen visuelle, sprachliche und auch Aktions-Subsysteme der Roboter Architektur sehr eng integriert werden. Das erfordert gleichzeitiges Verarbeiten von Bild, Sprach-Verararbeitung und Aktionen, wobei die eingesetzten Algorithmen fähig sein müssen neue Informationen jederzeit inkrementell in die laufende Verarbeitung einzubinden. Es erfordert weiterhin ein Software Framework das diese nahtlose Integration von Algorithmen auf einem sehr feinen zeitlichen Niveau, bis zu einigen zehn Millisekunden, unterstützt.

Personen

Projektleiter_in

Michael Zillich (E376)

Projektmitarbeiter_innen

Ekaterina Potapova (E376)

Institut

E376 - Institut für Automatisierungs- und Regelungstechnik

Förderungmittel

FWF - Österr. Wissenschaftsfonds (National) Fonds zur Förderung der wissenschaftlichen Forschung (FWF)

Forschungsschwerpunkte

Cognitive and adaptive Automation and Robotics: 100%

Schlagwörter

Deutsch	Englisch
Service Robotik	Service Robotics
Mensch Maschine Interaktion	Human Robot Interaction
Visuelles Verstehen	Visual Scene Understanding
Sprach-Verstehen	Natural Language Understanding

Externe Partner_innen

Tufts University

Publikationen

Publikationsliste