Nachrichten, Gerüchte, Meldungen und Berichte aus der IT-Szene

Redaktion: Heinz Schmitz

Worte per Animation in den Mund legen

24.10.2015 00:00

Beide Personen werden von einer Kamera gefilmt, die zusätzlich zu normalen Bildinformationen auch Tiefendaten aufnimmt. Solche Kameras (z.B. Microsoft Kinect TM) vermessen also zusätzlich die Entfernung jedes Bildpunktes zur Szene. Basierend auf diesen Daten, werden in einem Vorverarbeitungsschritt, für beide Personen die Parameter eines Gesichtsmodells geschätzt, so dass Kopfgeometrie und Reflektanz in einer mathematischen Beschreibung vorliegen. Danach wird die Mimik und Lippenbewegung beider Personen analysiert und von einem Gesichtsmodell auf das andere übertragen, und im Zielvideo fotorealistisch dargestellt. Dank jahrelanger erfolgreicher Forschung sind die Algorithmen zur Berechnung mittlerweile so effizient, dass sie auf gut ausgestatteten Standardrechnern in Echtzeit ablaufen können. Dies ist durch eine geschickte Verlagerung der teils aufwändigen Rekonstruktionsschritte auf moderne Graphikhardware möglich. Mögliche Anwendungen sehen Justus Thies (Universität Erlangen-Nürnberg) und Dr. Michael Zollhöfer (MPI für Informatik) in der visuellen Verbesserung von Nachvertonungen, also wenn der Protagonist in einer Sprache spricht, aber der Zuschauer eine andere Sprache hört, wie z.B. bei fremdsprachigen Spielfilmen. Dazu werden die Lippenbewegungen mit der Synchronsprache abgeglichen.

Offiziell wird das Verfahren, welches die Mimik und Lippenbewegungen einer Person in Echtzeit auf das Video-Signal einer anderen Person überträgt, im November auf der Computergraphik-Konferenz „SIGGRAPH ASIA“ in Kobe (Japan) vorgestellt. Das Verfahren ist das Resultat einer fruchtbaren Zusammenarbeit von zwei deutschen Informatik-Forschungsgruppen, die eine von Prof. Marc Stamminger an der Universität Erlangen-Nürnberg, die andere von Prof. Christian Theobalt am MPI für Informatik in Saarbrücken. Dritter Partner im Bund ist die Forschungsgruppe um Prof. Matthias Nießner an der Universität von Stanford.

Die Forscher arbeiten seit langem an Fragen der Grundlagenforschung im Bereich Bildverste-hen, insbesondere an neuen Methoden um dynamische Szenenmodelle (Geometrie, Reflektanz von Objekten) aus Videos zu schätzen. Dazu führt Professor Theobalt aus: „Insbesondere geht es darum, Modelle aus Videodaten von nur wenigen, oder gar nur einer Kamera zu berechnen, um eine mathematisch, möglichst realitätsgetreue Beschreibung von starren, beweglichen aber auch deformierbaren Körpern innerhalb einer Szene zu schätzen. Dies ist ein sehr schwieriges und sehr rechenaufwändiges Problem, und die entwickelten Methoden sind auch anderweitig einsetzbar.

Grundsätzlich sind die Arbeiten als ein Baustein für Techniken zu verstehen, die es Computern ermöglichen die bewegte Welt um sich herum zu erfassen, und mit vielen Anwen-dungen in der Robotik oder Augmented/Virtual Reality zu interagieren”. Die Arbeit zeigt aber auch, dass mittlerweile selbst die täuschend echte Manipulation von Live-Video-Streams in den Bereich des Möglichen kommt. So, wie jeder heute weiß, dass Bilder und Filme für Werbe- oder auch Propagandazwecke verfälscht werden können, müssen auch bei vermeintlichen Live-Videos Manipulationsmöglichkeiten beachtet werden.

Siehe auch:

http://people.mpi-inf.mpg.de/~mzollhoef/Papers/SGASIA2015_RR/page.html

Zurück