Artificial Intelligence-Based System for Detecting Attention Levels in Students

Luis Marquez-Carpintero; Monica Pina-Navarro; Sergio Suescun-Ferrandiz; Felix Escalona; Francisco Gomez-Donoso; Rosabel Roig-Vila; Miguel Cazorla

doi:10.3791/65931

JoVE Journal > Engineering

Please note that all translations are automatically generated. Click here for the English version.

Ingeniería

Auf künstlicher Intelligenz basierendes System zur Erkennung des Aufmerksamkeitsniveaus von Schülern

Published: December 15, 2023

doi:

10.3791/65931

Luis Marquez-Carpintero, Monica Pina-Navarro, Sergio Suescun-Ferrandiz, Felix Escalona, Francisco Gomez-Donoso, Rosabel Roig-Vila, Miguel Cazorla

¹University Institute for Computer Research,University of Alicante, ²Department of General and Specific Didactics,University of Alicante

Summary

In diesem Artikel wird ein auf künstlicher Intelligenz basierendes System vorgeschlagen, das automatisch erkennt, ob die Schüler auf den Unterricht achten oder abgelenkt sind. Dieses System soll Lehrern helfen, die Aufmerksamkeit der Schüler aufrechtzuerhalten, ihren Unterricht zu optimieren und dynamisch Änderungen vorzunehmen, damit sie ansprechender sind.

Abstract

Das Aufmerksamkeitsniveau der Schüler in einem Klassenzimmer kann durch den Einsatz von Techniken der künstlichen Intelligenz (KI) verbessert werden. Durch die automatische Identifizierung des Aufmerksamkeitsniveaus können Lehrer Strategien anwenden, um die Konzentration der Schüler wiederherzustellen. Dies kann durch verschiedene Informationsquellen erreicht werden.

Eine Quelle ist die Analyse der Emotionen, die sich in den Gesichtern der Schüler widerspiegeln. KI kann Emotionen wie Neutralität, Ekel, Überraschung, Traurigkeit, Angst, Glück und Wut erkennen. Darüber hinaus kann auch die Blickrichtung der Schüler möglicherweise auf ihren Aufmerksamkeitsgrad hinweisen. Eine weitere Quelle ist die Beobachtung der Körperhaltung der Schüler. Durch den Einsatz von Kameras und Deep-Learning-Techniken kann die Körperhaltung analysiert werden, um das Maß an Aufmerksamkeit zu bestimmen. Zum Beispiel können Schüler, die krumm sitzen oder ihren Kopf auf ihre Schreibtische legen, ein geringeres Maß an Aufmerksamkeit haben. Smartwatches, die an die Schüler verteilt werden, können biometrische und andere Daten liefern, einschließlich Herzfrequenz- und Trägheitsmessungen, die auch als Aufmerksamkeitsindikatoren verwendet werden können. Durch die Kombination dieser Informationsquellen kann ein KI-System so trainiert werden, dass es den Aufmerksamkeitsgrad im Klassenzimmer erkennt. Die Integration der verschiedenen Datentypen stellt jedoch eine Herausforderung dar, die die Erstellung eines beschrifteten Datensatzes erfordert. Expertenbeiträge und vorhandene Studien werden für eine genaue Kennzeichnung herangezogen. In diesem Artikel schlagen wir die Integration solcher Messungen und die Erstellung eines Datensatzes und eines potenziellen Aufmerksamkeitsklassifikators vor. Um der Lehrkraft Feedback zu geben, erforschen wir verschiedene Methoden, wie z.B. Smartwatches oder direkte Computer. Sobald der Lehrer sich der Aufmerksamkeitsprobleme bewusst wird, kann er seinen Unterrichtsansatz anpassen, um die Schüler wieder zu motivieren und zu motivieren. Zusammenfassend lässt sich sagen, dass KI-Techniken das Aufmerksamkeitsniveau der Schüler automatisch identifizieren können, indem sie ihre Emotionen, Blickrichtung, Körperhaltung und biometrischen Daten analysieren. Diese Informationen können Lehrenden helfen, den Lehr-Lern-Prozess zu optimieren.

Introduction

In modernen Bildungsumgebungen ist die genaue Bewertung und Aufrechterhaltung der Aufmerksamkeit der Schüler entscheidend für effektives Lehren und Lernen. Traditionelle Methoden zur Messung des Engagements, wie z. B. Selbstauskünfte oder subjektive Beobachtungen von Lehrern, sind jedoch zeitaufwändig und anfällig für Verzerrungen. Um diese Herausforderung zu bewältigen, haben sich Techniken der künstlichen Intelligenz (KI) als vielversprechende Lösungen für die automatisierte Aufmerksamkeitserkennung herausgestellt. Ein wichtiger Aspekt für das Verständnis des Engagements der Schüler ist die Emotionserkennung¹. KI-Systeme können Gesichtsausdrücke analysieren, um Emotionen wie Neutralität, Ekel, Überraschung, Traurigkeit, Angst, Glück und Wut^{zu identifizieren 2}.

Auch die Blickrichtung und die Körperhaltung sind entscheidende Indikatoren für die Aufmerksamkeit der Schülerinnen^{und Schüler 3}. Durch den Einsatz von Kameras und fortschrittlichen Algorithmen für maschinelles Lernen können KI-Systeme genau verfolgen, wohin die Schüler schauen, und ihre Körperhaltung analysieren, um Anzeichen von Desinteresse oder Müdigkeit zu erkennen⁴. Darüber hinaus verbessert die Einbeziehung biometrischer Daten die Genauigkeit und Zuverlässigkeit der Aufmerksamkeitserkennung⁵. Durch das Sammeln von Messwerten wie Herzfrequenz und Blutsauerstoffsättigung durch Smartwatches, die von Schülern getragen werden, können objektive Aufmerksamkeitsindikatoren erhalten werden, die andere Informationsquellen ergänzen.

In diesem Artikel wird ein System vorgeschlagen, das den Aufmerksamkeitsgrad einer Person mithilfe von Farbkameras und anderen verschiedenen Sensoren bewertet. Es kombiniert Emotionserkennung, Blickrichtungsanalyse, Bewertung der Körperhaltung und biometrische Daten, um Pädagogen ein umfassendes Set an Tools zur Optimierung des Lehr-Lern-Prozesses und zur Verbesserung des Engagements der Schüler zur Verfügung zu stellen. Durch den Einsatz dieser Tools können Pädagogen ein umfassendes Verständnis des Lehr-Lern-Prozesses erlangen und das Engagement der Schüler verbessern, wodurch die gesamte Bildungserfahrung optimiert wird. Durch den Einsatz von KI-Techniken ist es sogar möglich, diese Daten automatisiert auszuwerten.

Das Hauptziel dieser Arbeit ist es, das System zu beschreiben, das es uns ermöglicht, alle Informationen zu erfassen und, sobald sie erfasst sind, ein KI-Modell zu trainieren, das es uns ermöglicht, die Aufmerksamkeit der gesamten Klasse in Echtzeit zu gewinnen. Obwohl in anderen Arbeiten bereits vorgeschlagen wurde, Aufmerksamkeit anhand visueller oder emotionaler Informationen zu erregen⁶, schlägt diese Arbeit den kombinierten Einsatz dieser Techniken vor, der einen ganzheitlichen Ansatz bietet, der den Einsatz komplexerer und effektiverer KI-Techniken ermöglicht. Darüber hinaus beschränken sich die bisher verfügbaren Datensätze entweder auf eine Reihe von Videos oder auf biometrische Daten. Die Literatur enthält keine Datensätze, die vollständige Daten mit Bildern des Gesichts oder des Körpers des Schülers, biometrischen Daten, Daten zur Position des Lehrers usw. liefern. Mit dem hier vorgestellten System ist es möglich, diese Art von Datensatz zu erfassen.

Das System ordnet jedem Schüler zu jedem Zeitpunkt ein gewisses Maß an Aufmerksamkeit zu. Dieser Wert ist ein Wahrscheinlichkeitswert für Aufmerksamkeit zwischen 0% und 100%, der als niedriges Aufmerksamkeitsniveau (0%-40%), mittleres Aufmerksamkeitsniveau (40%-75%) und hohes Aufmerksamkeitsniveau (75%-100%) interpretiert werden kann. Im gesamten Text wird diese Wahrscheinlichkeit der Aufmerksamkeit als das Aufmerksamkeitsniveau, die Aufmerksamkeit der Schüler oder die Frage, ob die Schüler abgelenkt sind oder nicht, bezeichnet, aber diese beziehen sich alle auf den gleichen Ausgabewert unseres Systems.

Im Laufe der Jahre ist der Bereich der automatischen Engagement-Erkennung aufgrund seines Potenzials, die Bildung zu revolutionieren, erheblich gewachsen. Forscher haben verschiedene Ansätze für diesen Forschungsbereich vorgeschlagen.

Ma et ^al.7 stellten eine neuartige Methode vor, die auf einer Neural Turing Machine zur automatischen Engagement-Erkennung basiert. Sie extrahierten bestimmte Merkmale wie Blick, Gesichtsbewegungseinheiten, Kopf- und Körperhaltung, um eine umfassende Darstellung der Engagement-Erkennung zu erstellen.

EyeTab⁸, ein weiteres innovatives System, verwendet Modelle, um mit beiden Augen zu schätzen, wohin jemand schaut. Es wurde speziell entwickelt, um reibungslos auf einem Standard-Tablet ohne Änderungen zu funktionieren. Dieses System nutzt bekannte Algorithmen für die Verarbeitung von Bildern und die Analyse von Computer Vision. Ihre Pipeline zur Blickschätzung umfasst einen Haar-ähnlichen, merkmalsbasierten Augendetektor sowie einen RANSAC-basierten Limbusellipsenanpassungsansatz.

Sanghvi et ^al.9 schlagen einen Ansatz vor, der auf sehbasierten Techniken beruht, um ausdrucksstarke Haltungsmerkmale automatisch aus Videos zu extrahieren, die aus einer Seitenansicht aufgenommen wurden, und das Verhalten der Kinder zu erfassen. Es wird eine erste Evaluation durchgeführt, die das Training mehrerer Erkennungsmodelle unter Verwendung kontextualisierter affektiver Haltungsausdrücke umfasst. Die erzielten Ergebnisse zeigen, dass Haltungsmuster die Auseinandersetzung der Kinder mit dem Roboter effektiv vorhersagen können.

In anderen Arbeiten, wie z.B. Gupta et ^al.10, wird eine Deep-Learning-basierte Methode eingesetzt, um das Echtzeit-Engagement von Online-Lernenden zu erkennen, indem ihre Gesichtsausdrücke analysiert und ihre Emotionen klassifiziert werden. Der Ansatz nutzt die Erkennung von Gesichtsemotionen, um einen Engagement-Index (EI) zu berechnen, der zwei Engagement-Zustände vorhersagt: engagiert und unengagiert. Verschiedene Deep-Learning-Modelle, darunter Inception-V3, VGG19 und ResNet-50, werden evaluiert und verglichen, um das effektivste prädiktive Klassifizierungsmodell für die Echtzeit-Erkennung von Interaktionen zu identifizieren.

In Altuwairqi et ^al.11 stellen die Forscher einen neuartigen automatischen multimodalen Ansatz zur Bewertung des Engagements von Schülern in Echtzeit vor. Um genaue und zuverlässige Messungen zu gewährleisten, integrierte und analysierte das Team drei verschiedene Modalitäten, die das Verhalten der Schüler erfassen: Gesichtsausdrücke für Emotionen, Tastenanschläge auf der Tastatur und Mausbewegungen.

Guillén et ^al.12 schlagen die Entwicklung eines Überwachungssystems vor, das die Elektrokardiographie (EKG) als primäres physiologisches Signal verwendet, um das Vorhandensein oder Fehlen von kognitiver Aufmerksamkeit bei Individuen während der Ausführung einer Aufgabe zu analysieren und vorherzusagen.

Alban et ^al.13 verwenden ein neuronales Netzwerk (NN), um Emotionen zu erkennen, indem sie die Herzfrequenz (HR) und die elektrodermale Aktivität (EDA) verschiedener Teilnehmer sowohl im Zeit- als auch im Frequenzbereich analysieren. Sie stellen fest, dass eine Zunahme des Root-Mean-Square of Successive Differences (RMSDD) und der Standardabweichung von Normal-zu-Normal-Intervallen (SDNN), gepaart mit einer Abnahme der durchschnittlichen HR, auf eine erhöhte Aktivität im sympathischen Nervensystem hinweist, die mit Angst verbunden ist.

Kajiwara et ^al.14 schlagen ein innovatives System vor, das tragbare Sensoren und tiefe neuronale Netze verwendet, um das Ausmaß der Emotionen und des Engagements von Arbeitern vorherzusagen. Das System folgt einem dreistufigen Prozess. Zunächst erfassen und sammeln tragbare Sensoren Daten über Verhaltensweisen und Pulswellen. Anschließend werden Zeitreihenmerkmale auf der Grundlage der gewonnenen Verhaltens- und physiologischen Daten berechnet. Schließlich werden tiefe neuronale Netze verwendet, um die Zeitreihenmerkmale einzugeben und Vorhersagen über die Emotionen und das Engagement der Person zu treffen.

In anderen Forschungen, wie z.B. Costante et ^al.15, wird ein Ansatz vorgeschlagen, der auf einem neuartigen transfermetrischen Lernalgorithmus basiert, der das Vorwissen über einen vordefinierten Satz von Gesten nutzt, um die Erkennung von benutzerdefinierten Gesten zu verbessern. Diese Verbesserung wird mit minimaler Abhängigkeit von zusätzlichen Trainingsgebieten erreicht. In ähnlicher Weise wird ein sensorgestütztes Rahmenwerk zur Erkennung menschlicher Aktivitäten¹⁶ vorgestellt, um das Ziel der unpersönlichen Erkennung komplexer menschlicher Aktivitäten zu adressieren. Signaldaten, die von am Handgelenk getragenen Sensoren gesammelt werden, werden in dem entwickelten Framework zur Erkennung menschlicher Aktivitäten verwendet, wobei vier RNN-basierte DL-Modelle (Long-Short Term Memorys, Bidirectional Long-Short Term Memorys, Gated Recurrent Units und Bidirectional Gated Recurrent Units) verwendet werden, um die Aktivitäten des Benutzers des tragbaren Geräts zu untersuchen.

Protocol

Das folgende Protokoll folgt den Richtlinien der Ethikkommission für die Humanforschung der Universität Alicante mit der genehmigten Protokollnummer UA-2022-11-12. Für dieses Experiment und für die Verwendung der Daten hier wurde von allen Teilnehmern eine Einverständniserklärung eingeholt. 1. Hardware-, Software- und Klasseneinrichtung Stellen Sie einen Router mit WiFi-Funktion (die Experimente wurden mit einem DLink DSR 1000AC durchgeführt) an der gewünscht…

Representative Results

Die Zielgruppe dieser Studie sind Bachelor- und Masterstudierende, so dass die Hauptaltersgruppe zwischen 18 und 25 Jahren liegt. Diese Population wurde ausgewählt, weil sie mit elektronischen Geräten mit weniger Ablenkungen umgehen kann als jüngere Schüler. Insgesamt umfasste die Gruppe 25 Personen. Diese Altersgruppe kann die zuverlässigsten Ergebnisse liefern, um den Vorschlag zu testen. Die Ergebnisse des Aufmerksamkeitsniveaus, das dem Lehrer gezeigt wird, bestehen aus 2 Teilen. Teil…

Discussion

In dieser Arbeit wird ein System vorgestellt, das das Aufmerksamkeitsniveau eines Schülers in einem Klassenzimmer mithilfe von Kameras, Smartwatches und Algorithmen der künstlichen Intelligenz misst. Diese Informationen werden anschließend dem Lehrer vorgelegt, damit er sich ein Bild vom allgemeinen Zustand der Klasse machen kann.

Einer der wichtigsten kritischen Schritte des Protokolls ist die Synchronisierung der Smartwatch-Informationen mit dem Farbkamerabild, da diese unterschiedliche F…

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde mit Mitteln des Programa Prometeo, Projekt-ID CIPROM/2021/017, entwickelt. Prof. Rosabel Roig ist Vorsitzende der UNESCO “Bildung, Forschung und digitale Inklusion”.

Materials

4 GPUs Nvidia A40 Ampere	NVIDIA	TCSA40M-PB	GPU for centralized model processing server
FusionServer 2288H V5	X-Fusion	02311XBK	Platform that includes power supply and motherboard for centralized model processing server
Memory Card Evo Plus 128 GB	Samsung	MB-MC128KA/EU	Memory card for the operation of the raspberry pi 4b 2gb. One for each raspberry.
NEMIX RAM – 512 GB Kit DDR4-3200 PC4-25600 8Rx4 EC	NEMIX	M393AAG40M32-CAE	RAM for centralized model processing server
Processor Intel Xeon Gold 6330	Intel	CD8068904572101	Processor for centralized model processing server
Raspberry PI 4B 2GB	Raspberry	1822095	Local server that receives requests from the clocks and sends them to the general server. One every two students.
Samsung Galaxy Watch 5 (40mm)	Samsung	SM-R900NZAAPHE	Clock that monitors each student's activity. For each student.
Samsung MZQL23T8HCLS-00B7C PM9A3 3.84Tb Nvme U.2 PCI-Express-4 x4 2.5inch Ssd	Samsung	MZQL23T8HCLS-00B7C	Internal storage for centralized model processing server
WebCam HD Pro C920 Webcam FullHD	Logitech	960-001055	Webcam HD. One for each student plus two for student poses.

Referencias

Hasnine, M. N., et al. Students’ emotion extraction and visualization for engagement detection in online learning. Procedia Comp Sci. 192, 3423-3431 (2021).
Khare, S. K., Blanes-Vidal, V., Nadimi, E. S., Acharya, U. R. Emotion recognition and artificial intelligence: A systematic review (2014-2023) and research recommendations. Info Fusion. 102, 102019 (2024).
Bosch, N. Detecting student engagement: Human versus machine. UMAP ’16: Proc the 2016 Conf User Model Adapt Personal. , 317-320 (2016).
Araya, R., Sossa-Rivera, J. Automatic detection of gaze and body orientation in elementary school classrooms. Front Robot AI. 8, 729832 (2021).
Lu, Y., Zhang, J., Li, B., Chen, P., Zhuang, Z. Harnessing commodity wearable devices for capturing learner engagement. IEEE Access. 7, 15749-15757 (2019).
Vanneste, P., et al. Computer vision and human behaviour, emotion and cognition detection: A use case on student engagement. Mathematics. 9 (3), 287 (2021).
Ma, X., Xu, M., Dong, Y., Sun, Z. Automatic student engagement in online learning environment based on neural Turing machine. Int J Info Edu Tech. 11 (3), 107-111 (2021).
Wood, E., Bulling, A. EyeTab: model-based gaze estimation on unmodified tablet computers. ETRA ’14: Proc Symp Eye Tracking Res Appl. , 207-210 (2014).
Sanghvi, J., et al. Automatic analysis of affective postures and body motion to detect engagement with a game companion. HRI ’11: Proc 6th Int Conf Human-robot Interact. , 205-211 (2011).
Gupta, S., Kumar, P., Tekchandani, R. K. Facial emotion recognition based real-time learner engagement detection system in online learning context using deep learning models. Multimed Tools Appl. 82 (8), 11365-11394 (2023).
Altuwairqi, K., Jarraya, S. K., Allinjawi, A., Hammami, M. Student behavior analysis to measure engagement levels in online learning environments. Signal Image Video Process. 15 (7), 1387-1395 (2021).
Belle, A., Hargraves, R. H., Najarian, K. An automated optimal engagement and attention detection system using electrocardiogram. Comput Math Methods Med. 2012, 528781 (2012).
Alban, A. Q., et al. Heart rate as a predictor of challenging behaviours among children with autism from wearable sensors in social robot interactions. Robotics. 12 (2), 55 (2023).
Kajiwara, Y., Shimauchi, T., Kimura, H. Predicting emotion and engagement of workers in order picking based on behavior and pulse waves acquired by wearable devices. Sensors. 19 (1), 165 (2019).
Costante, G., Porzi, L., Lanz, O., Valigi, P., Ricci, E. Personalizing a smartwatch-based gesture interface with transfer learning. , 2530-2534 (2014).
Mekruksavanich, S., Jitpattanakul, A. Deep convolutional neural network with RNNs for complex activity recognition using wrist-worn wearable sensor data. Electronics. 10 (14), 1685 (2021).
Bazarevsky, V., Kartynnik, Y., Vakunov, A., Raveendran, K., Grundmann, M. BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs. arXiv. , (2019).
Bazarevsky, V., et al. BlazePose: On-device Real-time Body Pose tracking. arXiv. , (2020).
Mejia-Escobar, C., Cazorla, M., Martinez-Martin, E. Towards a better performance in facial expression recognition: a data-centric approach. Comput Intelligence Neurosci. , (2023).
El-Garem, A., Adel, R. Applying systematic literature review and Delphi methods to explore digital transformation key success factors. Int J Eco Mgmt Engi. 16 (7), 383-389 (2022).
Indumathi, V., Kist, A. A. Using electroencephalography to determine student attention in the classroom. , 1-3 (2023).
Ma, X., Xie, Y., Wang, H. Research on the construction and application of teacher-student interaction evaluation system for smart classroom in the post COVID-19. Studies Edu Eval. 78, 101286 (2023).
Andersen, D. Constructing Delphi statements for technology foresight. Futures Foresight Sci. 5 (2), e144 (2022).
Khodyakov, D., et al. Disciplinary trends in the use of the Delphi method: A bibliometric analysis. PLoS One. 18 (8), e0289009 (2023).
Martins, A. I., et al. Consensus on the Terms and Procedures for Planning and Reporting a Usability Evaluation of Health-Related Digital Solutions: Delphi Study and a Resulting Checklist. J Medical Internet Res. 25, e44326 (2023).
Dalmaso, M., Castelli, L., Galfano, G. Social modulators of gaze-mediated orienting of attention: A review. Psychon Bull Rev. 27 (5), 833-855 (2020).
Klein, R. M. Thinking about attention: Successive approximations to a productive taxonomy. Cognition. 225, 105137 (2022).
Schindler, S., Bublatzky, F. Attention and emotion: An integrative review of emotional face processing as a function of attention. Cortex. 130, 362-386 (2020).
Zaletelj, J., Košir, A. Predicting students’ attention in the classroom from Kinect facial and body features. J Image Video Proc. 80, (2017).
Strauch, C., Wang, C. A., Einhäuser, W., Van der Stigchel, S., Naber, M. Pupillometry as an integrated readout of distinct attentional networks. Trends Neurosci. 45 (8), 635-647 (2022).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artículo

Marquez-Carpintero, L., Pina-Navarro, M., Suescun-Ferrandiz, S., Escalona, F., Gomez-Donoso, F., Roig-Vila, R., Cazorla, M. Artificial Intelligence-Based System for Detecting Attention Levels in Students. J. Vis. Exp. (202), e65931, doi:10.3791/65931 (2023).

Auf künstlicher Intelligenz basierendes System zur Erkennung des Aufmerksamkeitsniveaus von Schülern

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgaciones

Acknowledgements

Materials

Referencias

Tags

Play Video

Citar este artículo

View Video

Auf künstlicher Intelligenz basierendes System zur Erkennung des Aufmerksamkeitsniveaus von Schülern

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgaciones

Acknowledgements

Materials

Referencias

Tags

Play Video

Citar este artículo

View Video

✖

To prove you're not a robot, please enter the text in the image below