Bitte warten...
Bitte warten...
English
Hilfe
Login
Forschungsportal
Suche
Forschungsprofile
Forschungsprojekte
Projektvollmacht
Lehre
Forschung
Organisation
InSitu - Integriertes Situiertes Visuelles Szenen- und Sprachverstehen für Mensch-Roboter Interaktion
01.03.2011 - 28.02.2015
Forschungsförderungsprojekt
Während Service Robotik in den letzten Jahren ständig Fortschritte in Feldern wie Bildverarbeitung, Manipulation und Navigation macht, sind wir immer noch weit entfernt von natürlicher Mensch-Roboter Interaktion. Das liegt unter anderem daran, daß zwei wichtige Modalitäten oft isoliert betrachtet werden, nämlich visuelles und Sprach-Verstehen. Stellen wir uns ein Szenario vor, wo ein Mensch einen Roboter anweist Objekte in einem Wohnzimmer zurück an ihre Plätze stellen. Für einen Menschen, der in ähnlicher Weise instruiert würde, wäre es eher ungewöhnlich die Aufgabenbeschreibung stumm mit geschlossenen Augen entegenzunehmen, und dann die Szene zu betrachten, um die linguistischen Ausdrücke mit visuellen Referenten zu vergleichen. Jedoch arbeiten genau so meist Roboter mit getrennten Subsystemen. Natürliche Interaktion läuft aber nicht so ab. Während sie einen Roboter instruieren, werden Menschen automatisch zu einem betreffenden Objekt hinsehen oder auf es zeigen um geteilte Aufmerksamkeit zu erreichen. Weiters wird ein Mensch auch kurze Rückmeldungen erwarten, daß der Roboter verstanden hat (wie "OK" oder "yes, I see") oder effizient um Klarstellung bittet (" - the red one on the table?"). Solche Rückmeldungen sind oft schon nötig während eine Äußerung getätigt wird, und können verbal sein, durch Hinsehen oder schon durch den Start einer passenden Aktion, wie z.b. nach einem roten Buch zu greifen nachdem der erste Teil einer Äußerung "Put the red book ..." gehört wurde. In interaktiven Szenarien wie diesem können visuelle Verarbeitung und Sprach-Verarbeitung einander gegenseitig inkrementell eingrenzen. Zum Beispiel kann das visuelle Verstehen einer Szene das Verstehen von mehrdeutigen oder unter-spezifizerten Ausdrücken unterstützen, während diese verarbeitet werden: "the red book on the floor" wird eher ein Buch sein, das der Sprecher sieht, und nicht eines hinter hinter ihrem Rücken. Auch syntaktisch mehrdeutige Sätze wie "put the book on the table on the shelf" werden klar sobald der Roboter in Buch auf dem Tisch detekiert, und somit visuell beobachtete Relationen nutzt um die syntaktische und semantische Analyse einzugrenzen. Andererseits kann die verbale Beschreibung einer Szene die visuelle Verarbeitung auf die releventen Elemente richten, z.B. "Put the red [hier richtet sich die visuelle Aufmerksamkeit aud rote Bildregionen] shoe on [hier richtet sich Aufmerksameit auf horizontale Ablageflächen] the box". Weiters können auch nicht-sprachliche Hinweise wie Blickrichtung oder Zeigebewegungen inkrementell mit teilweise verstandenen Äußerungen integriert werden, um die Aufmerksamkeit auf jene Elemente zu richten, die für die augenblickliche Diskurs-Situation relevant sind. Visuelles und Sprach-Verstehen sind somit eng gekoppelt und bilden die Vision-Language Loop. In dieser Schleife steuert Sprache das visuelle Verstehen durch Modulation der Aufmerksamkeit und visuell rekonstruierte Szenen-Elemente werden als Referenten an das Sprach-Verstehen zurückgeführt. Diese Prozesse sind zeitlich eng verwoben, um Teil-Interpretationen optimal in beiden Richtungen nutzen zu können. InSitu begegnet dem Problem der Integration von visuellem und Sprach-Verstehen in einer neuartigen Weise, Damit Roboter menschen-ähnliche Leistungen erreichen in solch einfachen, natürlichen Interaktionen müssen visuelle, sprachliche und auch Aktions-Subsysteme der Roboter Architektur sehr eng integriert werden. Das erfordert gleichzeitiges Verarbeiten von Bild, Sprach-Verararbeitung und Aktionen, wobei die eingesetzten Algorithmen fähig sein müssen neue Informationen jederzeit inkrementell in die laufende Verarbeitung einzubinden. Es erfordert weiterhin ein Software Framework das diese nahtlose Integration von Algorithmen auf einem sehr feinen zeitlichen Niveau, bis zu einigen zehn Millisekunden, unterstützt.
Personen
Projektleiter_in
Michael Zillich
(E376)
Projektmitarbeiter_innen
Ekaterina Potapova
(E376)
Institut
E376 - Institut für Automatisierungs- und Regelungstechnik
Förderungsmittel
FWF - Österr. Wissenschaftsfonds (National)
Fonds zur Förderung der wissenschaftlichen Forschung (FWF)
Forschungsschwerpunkte
Information and Communication Technology
Schlagwörter
Deutsch
Englisch
Service Robotik
Service Robotics
Mensch Maschine Interaktion
Human Robot Interaction
Visuelles Verstehen
Visual Scene Understanding
Sprach-Verstehen
Natural Language Understanding
Externe Partner_innen
Tufts University
Publikationen
Publikationsliste