Wenn wir ein Objekt greifen, kommen in der Regel mehrere Regionen der Finger und der Hand mit der Oberfläche des Objekts in Kontakt. Die Rekonstruktion solcher Kontaktregionen ist eine Herausforderung. In dieser Arbeit stellen wir eine Methode zur approximativen Schätzung der Kontaktregionen vor, indem markerbasiertes Motion Capture mit bestehender Deep-Learning-basierter Handnetzrekonstruktion kombiniert wird.
Um ein Objekt erfolgreich zu greifen, müssen wir geeignete Kontaktbereiche für unsere Hände auf der Oberfläche des Objekts auswählen. Die Identifizierung solcher Regionen ist jedoch eine Herausforderung. In diesem Dokument wird ein Workflow zur Schätzung der Kontaktregionen aus markerbasierten Tracking-Daten beschrieben. Die Teilnehmer greifen reale Objekte, während wir die 3D-Position sowohl der Objekte als auch der Hand, einschließlich der Fingergelenke, verfolgen. Wir bestimmen zunächst die Euler-Gelenkwinkel anhand einer Auswahl von Track-Markern, die auf dem Handrücken positioniert sind. Anschließend verwenden wir modernste Algorithmen zur Rekonstruktion von Handnetzen, um ein Netzmodell der Hand des Teilnehmers in der aktuellen Pose und der 3D-Position zu erstellen.
Durch die Verwendung von Objekten, die entweder 3D-gedruckt oder 3D-gescannt wurden und somit sowohl als reale Objekte als auch als Netzdaten verfügbar sind, können die Hand- und Objektnetze gemeinsam registriert werden. Dies wiederum ermöglicht die Schätzung ungefährer Kontaktbereiche durch Berechnung der Schnittpunkte zwischen dem Handnetz und dem co-registrierten 3D-Objektnetz. Mit der Methode kann abgeschätzt werden, wo und wie Menschen Objekte unter verschiedenen Bedingungen greifen. Daher könnte die Methode für Forscher von Interesse sein, die sich mit visueller und haptischer Wahrnehmung, motorischer Steuerung, Mensch-Computer-Interaktion in virtueller und erweiterter Realität und Robotik befassen.
Die Fähigkeit, Objekte zu greifen und zu manipulieren, ist eine Schlüsselfähigkeit, die es dem Menschen ermöglicht, die Umwelt nach seinen Wünschen und Bedürfnissen umzugestalten. Die effektive Steuerung von mehrgelenkigen Händen ist jedoch eine anspruchsvolle Aufgabe, die ein ausgeklügeltes Steuerungssystem erfordert. Dieses motorische Steuerungssystem wird durch verschiedene Formen des sensorischen Inputs gesteuert, unter denen das Sehen an erster Stelle steht. Durch das Sehen können Individuen die Objekte in der Umgebung identifizieren und ihre Position und physikalischen Eigenschaften einschätzen und diese Objekte dann mit Leichtigkeit erreichen, greifen und manipulieren. Das Verständnis des komplexen Systems, das den Input an der Netzhaut mit den motorischen Befehlen verbindet, die die Hände steuern, ist eine zentrale Herausforderung der sensomotorischen Neurowissenschaften. Um die Funktionsweise dieses Systems zu modellieren, vorherzusagen und zu verstehen, müssen wir es zunächst im Detail untersuchen können. Dies erfordert hochgenaue Messungen sowohl der visuellen Eingänge als auch der Handmotorausgänge.
Die bisherige Motion-Tracking-Technologie hat der Erforschung des menschlichen Greifens eine Reihe von Einschränkungen auferlegt. Zum Beispiel neigen Systeme, die Kabel erfordern, die an den Händen der Teilnehmer befestigt sind1,2, dazu, den Bewegungsumfang der Finger einzuschränken, was möglicherweise die Greifbewegungen oder die Messungen selbst verändert. Trotz dieser Einschränkungen konnten in der bisherigen Forschung mehrere Faktoren identifiziert werden, die das visuell geführte Greifen beeinflussen. Einige dieser Faktoren sind die Objektform 3,4,5,6, die Oberflächenrauheit 7,8,9 oder die Ausrichtung eines Objekts relativ zur Hand 4,8,10. Um jedoch frühere technologische Einschränkungen zu überwinden, wurden in der Mehrzahl dieser früheren Forschungen einfache Stimuli und stark eingeschränkte Aufgaben verwendet, so dass der Schwerpunkt hauptsächlich auf einzelnen Faktoren 3,4,6,7,10 lag, zweistellige Präzisionsgriffe3,4,6,9,11,12, 13,14,15,16,17,18, einzelne Objekte19 oder sehr einfache 2D-Formen 20,21. Wie sich bisherige Befunde über solche reduzierten und künstlichen Laborbedingungen hinaus verallgemeinern lassen, ist nicht bekannt. Darüber hinaus wird die Messung des Hand-Objekt-Kontakts häufig auf die Schätzung von Fingerkontaktpunkten22 reduziert. Diese Vereinfachung kann angemessen sein, um eine kleine Teilmenge von Griffen zu beschreiben, bei denen nur die Fingerspitzen mit einem Objekt in Kontakt sind. Bei den meisten Griffen in der realen Welt kommen jedoch große Bereiche der Finger und der Handfläche mit einem Objekt in Kontakt. Darüber hinaus hat eine kürzlich durchgeführte Studie23 gezeigt, dass Objekte unter Verwendung eines haptischen Handschuhs daran erkannt werden können, wie ihre Oberfläche auf die Hand auftrifft. Dies unterstreicht, wie wichtig es ist, die ausgedehnten Kontaktbereiche zwischen den Händen und den gegriffenen Gegenständen zu untersuchen, nicht nur die Kontaktpunkte zwischen den Gegenständen und den Fingerspitzen22.
Die jüngsten Fortschritte in der Bewegungserfassung und der 3D-Handmodellierung haben es uns ermöglicht, frühere Einschränkungen zu überwinden und das Greifen in seiner ganzen Komplexität zu untersuchen. Passives markerbasiertes Motion Tracking ist jetzt mit millimetergroßen Markern verfügbar, die am Handrücken des Teilnehmers angebracht werden können, um Gelenkbewegungen zu verfolgen24. Darüber hinaus sind automatische Marker-Identifikationsalgorithmen für passive Markersysteme nun robust genug, um die aufwändige manuelle Nachbearbeitung von Markerdaten nahezu überflüssig zu machen25,26,27. Markerlose Lösungen erreichen auch beeindruckende Leistungen bei der Verfolgung von Tierkörperteilen in Videos28. Diese Motion-Tracking-Verfahren erlauben somit endlich zuverlässige und nicht-invasive Messungen komplexer mehrstelliger Handbewegungen24. Solche Messungen können Aufschluss über die Gelenkkinematik geben und die Kontaktpunkte zwischen der Hand und einem Objekt abschätzen. Darüber hinaus hat sich die Computer-Vision-Community in den letzten Jahren mit dem Problem befasst, Modelle der menschlichen Hände zu konstruieren, die die Weichteilverformungen beim Greifen von Objekten und sogar beim Selbstkontakt zwischen Handteilenreplizieren können 29,30,31,32. Solche 3D-Netzrekonstruktionen können aus verschiedenen Arten von Daten abgeleitet werden, wie z.B. Videomaterial 33,34, Skelettgelenke (abgeleitet aus markerbasiertem 35 oder markerlosem Tracking 36) und Tiefenbildern 37. Der erste wichtige Fortschritt auf diesem Gebiet wurde von Romero et al.38 geliefert, die ein parametrisches Handmodell (MANO) aus über 1.000 Handscans von 31 Probanden in verschiedenen Posen ableiteten. Das Modell enthält Parameter sowohl für die Pose als auch für die Form der Hand, was die Regression von verschiedenen Datenquellen zu einer vollständigen Handrekonstruktion erleichtert. Die neuere Lösung DeepHandMesh29 baut auf diesem Ansatz auf, indem sie ein parametrisiertes Modell durch Deep Learning erstellt und eine Penetrationsvermeidung hinzufügt, die physische Interaktionen zwischen Handteilen genauer nachbildet. Durch die Kombination solcher Handnetzrekonstruktionen mit 3D-verfolgten Objektnetzen ist es nun möglich, Kontaktbereiche nicht nur auf der Oberfläche von Objekten32, sondern auch auf der Oberfläche der Hand abzuschätzen.
Hier schlagen wir einen Workflow vor, der das High-Fidelity-3D-Tracking von Objekten und Handgelenken mit neuartigen Algorithmen zur Rekonstruktion von Handnetzen kombiniert. Die Methode liefert detaillierte Karten von Hand-Objekt-Kontaktflächen. Diese Messungen werden sensomotorischen Neurowissenschaftlern helfen, unser theoretisches Verständnis des visuell gesteuerten Greifens des Menschen zu erweitern. Darüber hinaus könnte die Methode für Forscher in angrenzenden Bereichen nützlich sein. Beispielsweise können Mensch-Faktor-Forscher diese Methode nutzen, um bessere Mensch-Maschine-Schnittstellensysteme in virtueller und erweiterter Realität zu konstruieren18. High-Fidelity-Messungen des menschlichen Greifverhaltens können Robotikern auch dabei helfen, von Menschen inspirierte Robotergreifsysteme zu entwerfen, die auf den Prinzipien der interaktiven Wahrnehmung basieren 39,40,41,42,43. Wir hoffen daher, dass diese Methode dazu beitragen wird, die Greifforschung in neurowissenschaftlichen und technischen Bereichen voranzubringen, von spärlichen Beschreibungen stark eingeschränkter Aufgaben bis hin zu umfassenderen Charakterisierungen naturalistischer Greifverhaltensweisen mit komplexen Objekten und realen Aufgaben. Der Gesamtansatz ist in Abbildung 1 dargestellt.
Abbildung 1: Die wichtigsten Schritte des vorgeschlagenen Verfahrens . (A) Motion-Capture-Kameras bilden eine Werkbank aus mehreren Blickwinkeln ab. (B) Ein Stimulusobjekt wird aus einem triangulierten Netzmodell 3D-gedruckt. (C) Vier kugelförmige reflektierende Marker werden auf die Oberfläche des realen Objekts geklebt. Ein halbautomatisches Verfahren identifiziert vier korrespondierende Punkte auf der Oberfläche des Netzobjekts. Diese Entsprechung ermöglicht es uns, das Netzmodell in die 3D-verfolgte Position des realen Objekts zu übersetzen. (D) Reflektierende Marker werden mit doppelseitigem Klebeband an verschiedenen Orientierungspunkten auf dem Handrücken eines Teilnehmers befestigt. (E) Das Motion-Capture-System erfasst die Trajektorien des verfolgten Objekts und der Handmarkierungen im 3D-Raum während eines einzigen Versuchs. (F) Ein teilnehmerspezifisches Handskelett wird mit Hilfe von 3D-Computergrafiksoftware konstruiert. Die Skelettgelenkposen werden dann für jedes Bild jedes Versuchs in einem Experiment durch inverse Kinematik geschätzt. (G) Gelenkposen werden in eine modifizierte Version von DeepHandMesh29 eingegeben, die ein geschätztes 3D-Handnetz in der aktuellen 3D-Pose und -Position ausgibt. (H) Schließlich verwenden wir die Netzüberschneidung, um die Hand-Objekt-Kontaktbereiche zu berechnen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Wir schlagen eine Methode vor, die die Schätzung von Kontaktregionen für Hand-Objekt-Interaktionen bei mehrstelligen Griffen ermöglicht. Da eine vollständige Verfolgung der gesamten Oberfläche einer Hand derzeit nicht möglich ist, schlagen wir vor, eine Rekonstruktion eines Handnetzes zu verwenden, dessen Haltung durch spärliche Schlüsselpunkte auf der Hand bestimmt wird. Um diese spärlichen Schlüsselpunkte zu verfolgen, verwendet unsere Lösung ein forschungstaugliches Motion-Capture-System, das auf passivem Marker-Tracking basiert. Natürlich könnten auch andere Motion-Capture-Systeme mit der vorgeschlagenen Methode eingesetzt werden, vorausgesetzt, sie liefern ausreichend genaue 3D-Positionsdaten. Wir raten von aktiven Marker-Motion-Capture-Systemen (wie z.B. dem beliebten, aber eingestellten Optotrak Certus) ab, da diese das Anbringen von Kabeln und/oder elektronischen Geräten an den Händen der Teilnehmer erfordern, was die Bewegungen einschränken oder zumindest zu weniger typischen Griffen führen kann, da die Teilnehmer bewusster auf die Haltung ihrer Hände aufmerksam gemacht werden. Motion-Tracking-Handschuhe mit Trägheitsmesseinheiten können eine Möglichkeit sein, obwohl bekannt ist, dass diese Systeme unter Drift leiden, auch Handbewegungen einschränken können und es nicht zulassen, dass die Handoberfläche vollständig und direkt mit den Objektoberflächen in Kontakt kommt. Kommerzielle markerlose Hand-Tracking-Lösungen (z. B. die Leap Motion46,47,48) können ebenfalls eine Möglichkeit sein, obwohl es möglicherweise nicht möglich ist, Objektpositionen mit diesen Systemen allein zu verfolgen. Die vielversprechendste Alternative zu einem forschungstauglichen Motion-Capture-System sind quelloffene, markerlose Tracking-Lösungen (z. B. Mathis et al.28). Wenn solche Systeme mit mehreren gemeinsam registrierten Kameras49 verwendet werden, könnten sie potenziell Handgelenkpositionen und Objektpositionen in 3D verfolgen, ohne dass Markierungen, Handschuhe oder Kabel erforderlich sind. Diese Lösungen, wie auch dieses markerbasierte System, können jedoch unter Datenverlustproblemen aufgrund von Okklusionen leiden.
Einschränkungen und zukünftige Richtungen
Da die mit dieser Methode erhaltenen Handrekonstruktionen nicht vollständig genau sind, gibt es einige Einschränkungen bei den Arten von Experimenten, für die die Methode verwendet werden sollte. Abweichungen in der Handnetzrekonstruktion von Ground Truth manifestieren sich in Abweichungen in den geschätzten Hand-Objekt-Kontaktregionen. Die Anwendung dieser Methode zur Ableitung absoluter Maße würde daher eine Bewertung der Genauigkeit der Schätzungen der Kontaktregion erfordern. Aber auch ungefähre Schätzungen können bei Versuchsplänen innerhalb der Teilnehmer nützlich sein, da die potenziellen Verzerrungen der Methode wahrscheinlich unterschiedliche Versuchsbedingungen innerhalb eines Teilnehmers in ähnlicher Weise beeinflussen. Daher sollten statistische Analysen und Schlussfolgerungen nur für Maße wie die Unterschiede in der Kontaktfläche zwischen Bedingungen durchgeführt werden, bei denen die Richtung einer Wirkung mit der jeweiligen Ground Truth korreliert. In zukünftigen Forschungsarbeiten planen wir, unseren Ansatz weiter zu validieren, indem wir beispielsweise die Schätzungen der Kontaktregion mit thermischen Fingerabdrücken auf Objekten vergleichen, die mit thermochromer Farbe bedeckt sind.
Die meisten Verarbeitungsschritte von der Datenerfassung bis zur finalen Kontaktbereichsschätzung sind vollautomatisiert und leisten somit wichtige Beiträge zu einem standardisierten Verfahren zur Hand-Objekt-Kontaktbereichsschätzung. Eine initiale Anpassung der individualisierten Skelette an die 3D-Positionen der getrackten Marker muss jedoch noch manuell durchgeführt werden, um eine Skelettdefinition für jeden Teilnehmer zu erhalten. Wenn die Anzahl der Teilnehmer an einem Experiment zunimmt, steigt auch die Anzahl der manuellen Anpassungen, und dies ist derzeit der zeitaufwändigste Schritt im Verfahren und erfordert eine gewisse Vertrautheit mit dem manuellen Rigging in der Autodesk Maya-Software. In Zukunft wollen wir diesen Schritt automatisieren, um menschliche Einflüsse auf das Verfahren zu vermeiden, indem wir ein automatisches Skelettkalibrierungsverfahren hinzufügen.
Der hier beschriebene Workflow basiert auf der Hardware und Software von Qualisys (z. B. dem QTM-Skelett-Solver). Dies schränkt derzeit die Zugänglichkeit unserer Methode auf Labore ein, die einen ähnlichen Aufbau haben. Prinzipiell lässt sich das Verfahren aber auf jede Quelle von Motion-Capture-Daten anwenden. Um die Zugänglichkeit zu erweitern, suchen wir in der laufenden Arbeit nach Alternativen, die unseren Workflow verallgemeinern und ihn weniger abhängig von bestimmten Hardware- und Softwarelizenzen machen sollten.
Eine weitere wichtige Einschränkung der Methode besteht darin, dass sie in ihrer jetzigen Form nur auf starre (nicht verformbare) Objekte angewendet werden kann. In Zukunft könnte diese Einschränkung durch Methoden zur Erfassung der Oberflächenform des gegriffenen Objekts bei der Verformung überwunden werden. Darüber hinaus ist die Methode aufgrund ihrer ungefähren Natur derzeit nicht gut für sehr kleine oder dünne Objekte geeignet.
Zusammenfassend lässt sich sagen, dass wir durch die Integration von modernstem Motion Tracking mit High-Fidelity-Handoberflächenmodellierung eine Methode zur Schätzung von Hand-Objekt-Kontaktbereichen während des Greifens und der Manipulation bereitstellen. In der zukünftigen Forschung planen wir, diese Methode einzusetzen, um visuell gesteuertes Greifverhalten beim Menschen zu untersuchen und zu modellieren16. Darüber hinaus planen wir, diese Tools mit Eye-Tracking 46,50,51,52 und Virtual-/Augmented-Reality-Systemen 53,54,55 zu integrieren, um die visuell gesteuerte motorische Steuerung von Hand- und Augenbewegungen in realen und virtuellen naturalistischen Umgebungen zu untersuchen 18,46,56,57 . Aus diesen Gründen könnte die vorgeschlagene Methode für Forscher von Interesse sein, die die haptische Wahrnehmung58, die motorische Steuerung und die Mensch-Computer-Interaktion in virtueller und erweiterter Realität untersuchen. Schließlich könnten genaue Messungen der menschlichen Greiffähigkeiten in die Entwicklung robuster Robotersysteme einfließen, die auf den Prinzipien der interaktiven Wahrnehmung basieren 39,40,41,42,43 und könnten translationale Anwendungen für Prothesen der oberen Gliedmaßen haben.
The authors have nothing to disclose.
Diese Forschung wurde gefördert durch die Deutsche Forschungsgemeinschaft (DFG: Teilprojekt Nr. 222641018-SFB/TRR 135 TP C1 und IGK-1901 “Das Gehirn in Aktion”) und durch den Forschungscluster “The Adaptive Mind”, gefördert durch das Exzellenzprogramm des Hessischen Ministeriums für Wissenschaft und Kunst. Die Autoren danken dem Qualisys-Support-Team, zu dem auch Mathias Bankay und Jeffrey Thingvold gehören, für die Unterstützung bei der Entwicklung unserer Methoden. Die Autoren danken auch Michaela Jeschke dafür, dass sie als Handmodell posiert hat. Alle Daten und Analyseskripte zur Reproduktion der Methode und der im Manuskript präsentierten Ergebnisse sind auf Zenodo verfügbar (doi: 10.5281/zenodo.7458911).
Anaconda Python distribution | (Anaconda 5.3.1 or later); https://repo.anaconda.com/archive/ | scripts and functions were generated in Python version 3.7 | |
Autodesk Maya | Autodesk, Inc. | Maya2022; https://www.autodesk.com/products/maya/overview | 3D computer graphics application. |
Blender | Blender Foundation | Blender 2.92; https://download.blender.org/release/ | 3D computer graphics application. |
Computer Workstation | N/A | N/A | OS: Windows 10 or higher. |
DeepHandMesh | Meta Platforms, Inc. (Meta Open Source) | https://github.com/facebookresearch/DeepHandMesh | Pre-trained hand mesh generation tool. |
Miqus M5 | Qualisys Ab | https://www.qualisys.com/cameras/miqus/ | Passive marker motion tracking camera (8 units). |
Miqus video camera | Qualisys Ab | https://www.qualisys.com/cameras/miqus-video/ | Color video camera, synchronized with Miquis M5 tracking cameras (6 units). |
Project repository | N/A | Data and Code Repository | Data and code to replicate the current project. The repository is currently under construction, but we provide a private link where reviewers can download the current and most up-to-date version of the repository. The final repository will be made publicly available upon acceptance. |
Python 3 | Python Software Foundation | Python Version 3.7 | Python3 and associated built-in libraries. |
QTM Connect for Maya | Qualisys Ab | https://github.com/qualisys/QTM-Connect-For-Maya | Stream skeleton, rigid bodies and marker data from QTM to Maya |
QTM Qualisys Track Manager | Qualisys Ab | Qualisys Track Manager 2021.2; https://www.qualisys.com/software/qualisys-track-manager/ | Motion capture software |
Qualisys SDK for Python | Qualisys Ab | https://github.com/qualisys/qualisys_python_sdk | Implements communication between QTM and Python |