Bir nesneyi kavradığımızda, parmakların ve elin birden fazla bölgesi tipik olarak nesnenin yüzeyiyle temas eder. Bu tür temas bölgelerini yeniden inşa etmek zordur. Burada, işaretleyici tabanlı hareket yakalamayı mevcut derin öğrenme tabanlı el ağı rekonstrüksiyonu ile birleştirerek temas bölgelerini yaklaşık olarak tahmin etmek için bir yöntem sunuyoruz.
Bir nesneyi başarılı bir şekilde kavramak için, nesnenin yüzeyindeki ellerimiz için uygun temas bölgelerini seçmeliyiz. Ancak, bu tür bölgeleri tanımlamak zordur. Bu makalede, işaretleyici tabanlı izleme verilerinden iletişim bölgelerini tahmin etmeye yönelik bir iş akışı açıklanmaktadır. Katılımcılar gerçek nesneleri kavrarken, parmakların eklemleri de dahil olmak üzere hem nesnelerin hem de elin 3B konumunu izleriz. Ortak Euler açılarını ilk olarak elin arkasına yerleştirilmiş paletli işaretleyicilerden belirliyoruz. Daha sonra, katılımcının elinin mevcut pozda ve 3D konumunda bir örgü modeli oluşturmak için son teknoloji el ağı rekonstrüksiyon algoritmalarını kullanıyoruz.
3B yazdırılmış veya 3B taranmış nesnelerin kullanılması – ve bu nedenle hem gerçek nesneler hem de örgü verileri olarak kullanılabilir – el ve nesne ağlarının birlikte kaydedilmesini sağlar. Buna karşılık, bu da el ağı ile birlikte kayıtlı 3B nesne ağı arasındaki kesişimleri hesaplayarak yaklaşık temas bölgelerinin tahmin edilmesini sağlar. Bu yöntem, insanların çeşitli koşullar altında nesneleri nerede ve nasıl kavradıklarını tahmin etmek için kullanılabilir. Bu nedenle, yöntem görsel ve dokunsal algı, motor kontrolü, sanal ve artırılmış gerçeklikte insan-bilgisayar etkileşimi ve robotik üzerine çalışan araştırmacılar için ilgi çekici olabilir.
Nesneleri kavrama ve manipüle etme kapasitesi, insanların çevreyi kendi istek ve ihtiyaçlarına göre yeniden şekillendirmelerini sağlayan önemli bir yetenektir. Bununla birlikte, çok eklemli elleri etkili bir şekilde kontrol etmek, sofistike bir kontrol sistemi gerektiren zorlu bir görevdir. Bu motor kontrol sistemi, aralarında görmenin çok önemli olduğu çeşitli duyusal girdi biçimleri tarafından yönlendirilir. Görme yoluyla, bireyler ortamdaki nesneleri tanımlayabilir ve konumlarını ve fiziksel özelliklerini tahmin edebilir ve daha sonra bu nesnelere kolaylıkla ulaşabilir, kavrayabilir ve manipüle edebilir. Retinadaki girdiyi elleri kontrol eden motor komutlarla birleştiren karmaşık sistemi anlamak, sensorimotor sinirbilimin önemli bir zorluğudur. Bu sistemin nasıl çalıştığını modellemek, tahmin etmek ve anlamak için öncelikle onu ayrıntılı olarak inceleyebilmeliyiz. Bu, hem görsel girişlerin hem de el motoru çıkışlarının yüksek doğruluklu ölçümlerini gerektirir.
Geçmiş hareket izleme teknolojisi, insan kavrama çalışmalarına bir takım sınırlamalar getirmiştir. Örneğin, katılımcıların ellerine bağlı kablolar gerektiren sistemler1,2, parmak hareketlerinin aralığını kısıtlama eğilimindedir, bu da kavrama hareketlerini veya ölçümleri potansiyel olarak değiştirir. Bu sınırlamalara rağmen, önceki araştırmalar görsel olarak yönlendirilmiş kavramayı etkileyen çeşitli faktörleri tanımlayabilmiştir. Bu faktörlerden bazıları, nesne şekli 3,4,5,6, yüzey pürüzlülüğü 7,8,9 veya bir nesnenin ele göre yönelimi 4,8,10’dur. Bununla birlikte, önceki teknolojik sınırlamaların üstesinden gelmek için, bu önceki araştırmanın çoğunluğu basit uyaranlar ve oldukça kısıtlı görevler kullanmıştır, bu nedenle ağırlıklı olarak bireysel faktörlere odaklanmıştır 3,4,6,7,10, iki basamaklı hassas çeneler3,4,6,9,11,12, 13,14,15,16,17,18, tek nesneler19 veya çok basit 2B şekiller 20,21. Önceki bulguların bu kadar azaltılmış ve yapay laboratuvar koşullarının ötesinde nasıl genelleştiği bilinmemektedir. Ek olarak, el-nesne temasının ölçümü genellikle22 basamaklı temas noktalarının tahminine indirgenir. Bu basitleştirme, yalnızca parmak uçlarının bir nesneyle temas halinde olduğu küçük bir kavrama alt kümesini tanımlamak için uygun olabilir. Bununla birlikte, gerçek dünyadaki kavramaların çoğunda, parmakların ve avuç içinin geniş bölgeleri bir nesneyle temas eder. Ayrıca, yakın tarihli bir çalışma23, dokunsal bir eldiven kullanarak, nesnelerin yüzeylerinin ele nasıl çarptığıyla tanınabileceğini göstermiştir. Bu, sadece nesneler ve parmak uçları arasındaki temas noktalarını değil, eller ve kavranan nesneler arasındaki genişletilmiş temas bölgelerini incelemenin önemini vurgulamaktadır22.
Hareket yakalama ve 3D el modellemesindeki son gelişmeler, önceki sınırlamaları aşmamıza ve kavramayı tüm karmaşıklığıyla incelememize izin verdi. Pasif işaretleyici tabanlı hareket izleme artık eklem hareketlerini izlemek için katılımcının ellerinin arkasına takılabilen milimetre boyutlu işaretleyicilerle kullanılabilir24. Ayrıca, pasif işaretleyici sistemleri için otomatik işaretleyici tanımlama algoritmaları, işaretleyici verilerinin 25,26,27 numaralı kapsamlı manuel son işleme ihtiyacını neredeyse ortadan kaldıracak kadar sağlamdır. İşaretsiz çözümler, video28’deki hayvan vücudu parçalarının izlenmesinde de etkileyici performans seviyelerine ulaşıyor. Bu nedenle, bu hareket izleme yöntemleri, sonunda, karmaşık çok basamaklı el hareketlerinin güvenilir ve invaziv olmayan ölçümlerine izin verir24. Bu tür ölçümler bizi eklem kinematiği hakkında bilgilendirebilir ve el ile bir nesne arasındaki temas noktalarını tahmin etmemizi sağlayabilir. Ek olarak, son yıllarda, bilgisayarlı görme topluluğu, nesne kavrama sırasında ve hatta el parçaları arasındaki kendi kendine temas sırasında yumuşak doku deformasyonlarını çoğaltabilen insan ellerinin modellerini oluşturma problemiyle uğraşmaktadır 29,30,31,32. Bu tür 3B örgü rekonstrüksiyonları, video görüntüleri 33,34, iskelet eklemleri (işaretleyici tabanlı 35 veya işaretsiz izleme36’dan türetilmiştir) ve derinlik görüntüleri 37 gibi farklı veri türlerinden türetilebilir. Bu alandaki ilk önemli ilerleme, çeşitli pozlarda 31 denekten 1.000’den fazla el taramasından parametrik bir el modeli (MANO) türeten Romero ve ark.38 tarafından sağlanmıştır. Model, elin hem pozu hem de şekli için parametreler içerir ve farklı veri kaynaklarından tam el rekonstrüksiyonuna regresyonu kolaylaştırır. Daha yeni DeepHandMesh29 çözümü, derin öğrenme yoluyla parametrik bir model oluşturarak ve el parçaları arasındaki fiziksel etkileşimleri daha doğru bir şekilde kopyalayan penetrasyondan kaçınma ekleyerek bu yaklaşıma dayanmaktadır. Bu tür el örgüsü rekonstrüksiyonlarını 3D izlenen nesne ağlarıyla birleştirerek, sadece nesne32’nin yüzeyindeki temas bölgelerini değil, aynı zamanda elin yüzeyindeki temas bölgelerini de tahmin etmek artık mümkündür.
Burada, nesnelerin ve el eklemlerinin yüksek doğrulukta 3D takibini yeni el ağı rekonstrüksiyon algoritmalarıyla bir araya getiren bir iş akışı öneriyoruz. Yöntem, el-nesne temas yüzeylerinin ayrıntılı haritalarını verir. Bu ölçümler, sensorimotor sinirbilimcilere, insanın görsel olarak yönlendirilen kavraması hakkındaki teorik anlayışımızı genişletmede yardımcı olacaktır. Ayrıca, yöntem bitişik alanlardaki araştırmacılar için yararlı olabilir. Örneğin, insan faktörü araştırmacıları bu yöntemi sanal ve artırılmış gerçeklikte daha iyi insan-makine arayüz sistemleri oluşturmak için kullanabilirler18. İnsan kavrama davranışlarının yüksek doğruluklu ölçümleri, robotistlere etkileşimli algı ilkelerine dayanan insandan ilham alan robotik kavrama sistemleri tasarlamada da yardımcı olabilir 39,40,41,42,43. Bu nedenle, bu yöntemin, sinirbilim ve mühendislik alanlarında, son derece kısıtlı görevlerin seyrek açıklamalarından, karmaşık nesneler ve gerçek dünyadaki görevlerle natüralist kavrama davranışlarının daha eksiksiz karakterizasyonlarına kadar kavrama araştırmalarının ilerlemesine yardımcı olacağını umuyoruz. Genel yaklaşım Şekil 1’de özetlenmiştir.
Şekil 1: Önerilen yöntemdeki temel adımlar . (A) Hareket yakalama kameraları bir tezgahı birden fazla açıdan görüntüler. (B) Bir uyaran nesnesi, üçgen bir örgü modelinden 3B yazdırılır. (C) Dört küresel yansıtıcı işaretleyici, gerçek nesnenin yüzeyine yapıştırılır. Yarı otomatik bir prosedür, ağ nesnesinin yüzeyinde karşılık gelen dört noktayı tanımlar. Bu yazışma, örgü modelini gerçek nesnenin 3D izlenen konumuna roto-çevirmemizi sağlar. (D) Yansıtıcı işaretleyiciler, çift taraflı bant kullanılarak katılımcının elinin arkasındaki farklı işaretlere tutturulur. (E) Hareket yakalama sistemi, tek bir deneme sırasında izlenen nesnenin ve el işaretleyicilerinin 3B alanındaki yörüngeleri alır. (F) Katılımcıya özel bir el iskeleti, 3D bilgisayar grafik yazılımı kullanılarak oluşturulur. İskelet eklem pozları daha sonra ters kinematik yoluyla bir deneyde her denemenin her karesi için tahmin edilir. (G) Eklem pozları, mevcut 3D poz ve pozisyonda tahmini bir 3D el ağı çıkışı veren DeepHandMesh29’un değiştirilmiş bir versiyonuna girilir. (H) Son olarak, el-nesne temas bölgelerini hesaplamak için örgü kesişimini kullanıyoruz. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Çok basamaklı kavrama sırasında el-nesne etkileşimleri için temas bölgelerinin tahmin edilmesini sağlayan bir yöntem öneriyoruz. Bir elin tüm yüzeyinin tam olarak izlenmesi şu anda zor olduğundan, pozu eldeki seyrek kilit noktalarla belirlenen bir el ağının yeniden yapılandırılmasını öneriyoruz. Bu seyrek kilit noktaları izlemek için çözümümüz, pasif işaretleyici izlemeye dayanan araştırma sınıfı bir hareket yakalama sistemi kullanır. Tabii ki, yeterince doğru 3D konum verileri vermeleri koşuluyla, önerilen yöntemle diğer hareket yakalama sistemleri de kullanılabilir. Aktif işaretleyici hareket yakalama sistemlerine (popüler ancak üretimi durdurulmuş Optotrak Certus gibi) karşı tavsiyede bulunuyoruz, çünkü bunlar katılımcıların ellerine kabloların ve / veya elektronik cihazların takılmasını gerektirir, bu da hareketleri kısıtlayabilir veya en azından katılımcıların ellerinin pozunun daha bilinçli bir şekilde farkında olmaları nedeniyle daha az tipik kavramalar sağlayabilir. Atalet ölçüm birimleri kullanan hareket izleme eldivenleri, bu sistemlerin sürüklenmeden muzdarip olduğu bilinmesine rağmen, el hareketlerini de kısıtlayabilir ve elin yüzeyinin nesne yüzeyleriyle tam ve doğrudan temas etmesine izin vermese de, bir olasılık olabilir. Ticari işaretsiz el izleme çözümleri (örneğin, Leap Motion46,47,48) de bir olasılık olabilir, ancak nesne konumlarını yalnızca bu sistemlerle izlemek mümkün olmayabilir. Araştırma sınıfı bir hareket yakalama sistemine en umut verici alternatif seçenek, açık kaynaklı, işaretsiz izleme çözümleri (örneğin, Mathis ve ark.28) tarafından verilmektedir. Birden fazla ortak kayıtlı kamera49 ile kullanıldığında, bu tür sistemler işaretçilere, eldivenlere veya kablolara ihtiyaç duymadan el eklem konumlarını ve nesne konumlarını 3D olarak potansiyel olarak izleyebilir. Bununla birlikte, bu çözümlerin yanı sıra bu işaretleyici tabanlı sistem, tıkanmalar nedeniyle veri kaybı sorunlarından muzdarip olabilir.
Sınırlamalar ve gelecekteki yönler
Bu yöntemle elde edilen el rekonstrüksiyonları tam olarak doğru olmayacağından, yöntemin kullanılması gereken deney türlerinde bazı sınırlamalar vardır. El örgüsü rekonstrüksiyonlarında zemin gerçeğinden sapmalar, tahmini el/nesne temas bölgelerindeki sapmalarda kendini gösterecektir. Bu nedenle, mutlak önlemler elde etmek için bu yöntemin uygulanması, temas bölgesi tahminlerinin doğruluğunun değerlendirilmesini gerektirecektir. Bununla birlikte, yaklaşık tahminler bile katılımcı içi deneysel tasarımlarda hala yararlı olabilir, çünkü yöntemin potansiyel önyargılarının bir katılımcı içindeki farklı deneysel koşulları benzer şekilde etkilemesi muhtemeldir. Bu nedenle, istatistiksel analizler ve çıkarımlar yalnızca koşullar arasındaki temas alanındaki farklılıklar gibi ölçümler üzerinde yapılmalıdır; burada bir etkinin yönü ilgili temel gerçekle ilişkili olacaktır. Gelecekteki araştırmalarda, örneğin temas bölgesi tahminlerini termokromik boya ile kaplanmış nesneler üzerindeki termal parmak izleriyle karşılaştırarak yaklaşımımızı daha da doğrulamayı planlıyoruz.
Veri toplamadan son temas bölgesi tahminine kadar çoğu işleme adımı tamamen otomatiktir ve bu nedenle el-nesne temas bölgesi tahmini için standartlaştırılmış bir prosedüre yönelik önemli katkılar sunar. Bununla birlikte, bireyselleştirilmiş iskeletlerin izlenen işaretleyicilerin 3B konumlarına ilk uyumu, her katılımcı için bir iskelet tanımı elde etmek için manuel olarak gerçekleştirilmelidir. Bir denemenin katılımcı sayısı arttıkça, manuel uyumların sayısı da artar ve bu şu anda prosedürdeki en çok zaman alan adımdır ve Autodesk Maya Yazılımı’nda manuel donanıma biraz aşinalık gerektirir. Gelecekte, otomatik bir iskelet kalibrasyon prosedürü ekleyerek prosedür üzerinde insan etkisini önlemek için bu adımı otomatikleştirmeyi amaçlıyoruz.
Burada açıklanan iş akışı, Qualisys donanım ve yazılımına (örneğin, QTM iskelet çözücü) dayanır. Bu, şu anda yöntemimizin erişilebilirliğini benzer bir kuruluma sahip laboratuvarlarla sınırlamaktadır. Bununla birlikte, prensip olarak, yöntem herhangi bir hareket yakalama verisi kaynağına uygulanabilir. Erişilebilirliği genişletmek için, devam eden çalışmalarda, iş akışımızı genelleştirmesi ve belirli donanım ve yazılım lisanslarına daha az bağımlı hale getirmesi gereken alternatifleri araştırıyoruz.
Yöntemin bir diğer önemli sınırlaması, mevcut haliyle, yalnızca katı (deforme olmayan) nesnelere uygulanabilmesidir. Gelecekte, bu sınırlama, kavranan nesnenin deforme olurken yüzey şeklini kaydetme yöntemleri kullanılarak aşılabilir. Ek olarak, yaklaşık doğası nedeniyle, yöntem şu anda çok küçük veya ince nesneler için uygun değildir.
Sonuç olarak, son teknoloji hareket takibini yüksek doğrulukta el yüzeyi modellemesi ile entegre ederek, kavrama ve manipülasyon sırasında el-nesne temas bölgelerini tahmin etmek için bir yöntem sunuyoruz. Gelecekteki araştırmalarda, insanlarda görsel olarak yönlendirilen kavrama davranışını araştırmak ve modellemek için bu yöntemi kullanmayı planlıyoruz16. Ayrıca, bu araçları gerçek ve sanal doğal ortamlarda görsel olarak yönlendirilen el ve göz hareketi motor kontrolünü araştırmak için göz izleme 46,50,51,52 ve sanal/artırılmış gerçeklik sistemleri 53,54,55 ile entegre etmeyi planlıyoruz 18,46,56,57. Bu nedenlerden dolayı, önerilen yöntem, sanal ve artırılmış gerçeklikte dokunsal algı58, motor kontrolü ve insan-bilgisayar etkileşimini inceleyen araştırmacılar için ilgi çekici olabilir. Son olarak, insanın kavrama yeteneklerinin doğru ölçümleri, etkileşimli algı 39,40,41,42,43 ilkelerine dayanan sağlam robotik sistemlerin tasarımını bilgilendirebilir ve üst ekstremite protezleri için translasyonel uygulamalara sahip olabilir.
The authors have nothing to disclose.
Bu araştırma Deutsche Forschungsgemeinschaft (DFG, Alman Araştırma Vakfı: proje No. 222641018-SFB/TRR 135 TP C1 ve IRTG-1901 “Beyin İş Başında”) ve Hessen Yüksek Öğretim, Bilim, Araştırma ve Sanat Bakanlığı Mükemmellik Programı tarafından finanse edilen “Uyarlanabilir Zihin” Araştırma Kümesi tarafından finanse edilmiştir. Yazarlar, Mathias Bankay ve Jeffrey Thingvold da dahil olmak üzere Qualisys destek ekibine, yöntemlerimizi geliştirmedeki yardımları için teşekkür eder. Yazarlar ayrıca Michaela Jeschke’ye el modeli olarak poz verdiği için teşekkür ediyor. Yöntemin ve makalede sunulan sonuçların çoğaltılmasına yönelik tüm veri ve analiz senaryoları Zenodo’da mevcuttur (doi: 10.5281/zenodo.7458911).
Anaconda Python distribution | (Anaconda 5.3.1 or later); https://repo.anaconda.com/archive/ | scripts and functions were generated in Python version 3.7 | |
Autodesk Maya | Autodesk, Inc. | Maya2022; https://www.autodesk.com/products/maya/overview | 3D computer graphics application. |
Blender | Blender Foundation | Blender 2.92; https://download.blender.org/release/ | 3D computer graphics application. |
Computer Workstation | N/A | N/A | OS: Windows 10 or higher. |
DeepHandMesh | Meta Platforms, Inc. (Meta Open Source) | https://github.com/facebookresearch/DeepHandMesh | Pre-trained hand mesh generation tool. |
Miqus M5 | Qualisys Ab | https://www.qualisys.com/cameras/miqus/ | Passive marker motion tracking camera (8 units). |
Miqus video camera | Qualisys Ab | https://www.qualisys.com/cameras/miqus-video/ | Color video camera, synchronized with Miquis M5 tracking cameras (6 units). |
Project repository | N/A | Data and Code Repository | Data and code to replicate the current project. The repository is currently under construction, but we provide a private link where reviewers can download the current and most up-to-date version of the repository. The final repository will be made publicly available upon acceptance. |
Python 3 | Python Software Foundation | Python Version 3.7 | Python3 and associated built-in libraries. |
QTM Connect for Maya | Qualisys Ab | https://github.com/qualisys/QTM-Connect-For-Maya | Stream skeleton, rigid bodies and marker data from QTM to Maya |
QTM Qualisys Track Manager | Qualisys Ab | Qualisys Track Manager 2021.2; https://www.qualisys.com/software/qualisys-track-manager/ | Motion capture software |
Qualisys SDK for Python | Qualisys Ab | https://github.com/qualisys/qualisys_python_sdk | Implements communication between QTM and Python |