I³ - 3D-Lippenableser

Spracherkennung mittels visueller 3D-Bilderfassung der Sprechbewegungen

 

Die Erkennung von Sprache geschieht überwiegend über den hörbaren Schall. Mit dem McGurk-Effekt wurde aber nachgewiesen, dass jeder Mensch zusätzlich visuelle Eindrücke in die Sprachwahrnehmung integriert und das Sprachverständnis erhöht. Professionelle Lippenleser sind sogar in der Lage, ausschließlich aus den Gesichtsbewegungen die Sprache zu erkennen. Die maschinelle Spracherkennung aus akustischen Signalen ist bereits kommerziell als Software verfügbar und in vielen Anwendungen integriert. Für Situationen, in denen das akustische Signal gestört oder gar nicht verfügbar ist (z. B. in lauten Umgebungen, stumme Personen), wird ein maschinelles Lippenlesen benötigt.

Das I³-Vorhaben "3D-Lippenableser" führte in diesem Rahmen Untersuchungen zum maschinellen Lippenlesen mittels schnellen 3D-Messverfahren durch.

Publikationen

„Fast 3D NIR sensor for facial measurement and lip-reading“
at SPIE Commercial + Scientific Sensing and Imaging – 09.-13. April 2017 Anaheim