In diesem Artikel wird ein auf künstlicher Intelligenz basierendes System vorgeschlagen, das automatisch erkennt, ob die Schüler auf den Unterricht achten oder abgelenkt sind. Dieses System soll Lehrern helfen, die Aufmerksamkeit der Schüler aufrechtzuerhalten, ihren Unterricht zu optimieren und dynamisch Änderungen vorzunehmen, damit sie ansprechender sind.
Das Aufmerksamkeitsniveau der Schüler in einem Klassenzimmer kann durch den Einsatz von Techniken der künstlichen Intelligenz (KI) verbessert werden. Durch die automatische Identifizierung des Aufmerksamkeitsniveaus können Lehrer Strategien anwenden, um die Konzentration der Schüler wiederherzustellen. Dies kann durch verschiedene Informationsquellen erreicht werden.
Eine Quelle ist die Analyse der Emotionen, die sich in den Gesichtern der Schüler widerspiegeln. KI kann Emotionen wie Neutralität, Ekel, Überraschung, Traurigkeit, Angst, Glück und Wut erkennen. Darüber hinaus kann auch die Blickrichtung der Schüler möglicherweise auf ihren Aufmerksamkeitsgrad hinweisen. Eine weitere Quelle ist die Beobachtung der Körperhaltung der Schüler. Durch den Einsatz von Kameras und Deep-Learning-Techniken kann die Körperhaltung analysiert werden, um das Maß an Aufmerksamkeit zu bestimmen. Zum Beispiel können Schüler, die krumm sitzen oder ihren Kopf auf ihre Schreibtische legen, ein geringeres Maß an Aufmerksamkeit haben. Smartwatches, die an die Schüler verteilt werden, können biometrische und andere Daten liefern, einschließlich Herzfrequenz- und Trägheitsmessungen, die auch als Aufmerksamkeitsindikatoren verwendet werden können. Durch die Kombination dieser Informationsquellen kann ein KI-System so trainiert werden, dass es den Aufmerksamkeitsgrad im Klassenzimmer erkennt. Die Integration der verschiedenen Datentypen stellt jedoch eine Herausforderung dar, die die Erstellung eines beschrifteten Datensatzes erfordert. Expertenbeiträge und vorhandene Studien werden für eine genaue Kennzeichnung herangezogen. In diesem Artikel schlagen wir die Integration solcher Messungen und die Erstellung eines Datensatzes und eines potenziellen Aufmerksamkeitsklassifikators vor. Um der Lehrkraft Feedback zu geben, erforschen wir verschiedene Methoden, wie z.B. Smartwatches oder direkte Computer. Sobald der Lehrer sich der Aufmerksamkeitsprobleme bewusst wird, kann er seinen Unterrichtsansatz anpassen, um die Schüler wieder zu motivieren und zu motivieren. Zusammenfassend lässt sich sagen, dass KI-Techniken das Aufmerksamkeitsniveau der Schüler automatisch identifizieren können, indem sie ihre Emotionen, Blickrichtung, Körperhaltung und biometrischen Daten analysieren. Diese Informationen können Lehrenden helfen, den Lehr-Lern-Prozess zu optimieren.
In modernen Bildungsumgebungen ist die genaue Bewertung und Aufrechterhaltung der Aufmerksamkeit der Schüler entscheidend für effektives Lehren und Lernen. Traditionelle Methoden zur Messung des Engagements, wie z. B. Selbstauskünfte oder subjektive Beobachtungen von Lehrern, sind jedoch zeitaufwändig und anfällig für Verzerrungen. Um diese Herausforderung zu bewältigen, haben sich Techniken der künstlichen Intelligenz (KI) als vielversprechende Lösungen für die automatisierte Aufmerksamkeitserkennung herausgestellt. Ein wichtiger Aspekt für das Verständnis des Engagements der Schüler ist die Emotionserkennung1. KI-Systeme können Gesichtsausdrücke analysieren, um Emotionen wie Neutralität, Ekel, Überraschung, Traurigkeit, Angst, Glück und Wutzu identifizieren 2.
Auch die Blickrichtung und die Körperhaltung sind entscheidende Indikatoren für die Aufmerksamkeit der Schülerinnenund Schüler 3. Durch den Einsatz von Kameras und fortschrittlichen Algorithmen für maschinelles Lernen können KI-Systeme genau verfolgen, wohin die Schüler schauen, und ihre Körperhaltung analysieren, um Anzeichen von Desinteresse oder Müdigkeit zu erkennen4. Darüber hinaus verbessert die Einbeziehung biometrischer Daten die Genauigkeit und Zuverlässigkeit der Aufmerksamkeitserkennung5. Durch das Sammeln von Messwerten wie Herzfrequenz und Blutsauerstoffsättigung durch Smartwatches, die von Schülern getragen werden, können objektive Aufmerksamkeitsindikatoren erhalten werden, die andere Informationsquellen ergänzen.
In diesem Artikel wird ein System vorgeschlagen, das den Aufmerksamkeitsgrad einer Person mithilfe von Farbkameras und anderen verschiedenen Sensoren bewertet. Es kombiniert Emotionserkennung, Blickrichtungsanalyse, Bewertung der Körperhaltung und biometrische Daten, um Pädagogen ein umfassendes Set an Tools zur Optimierung des Lehr-Lern-Prozesses und zur Verbesserung des Engagements der Schüler zur Verfügung zu stellen. Durch den Einsatz dieser Tools können Pädagogen ein umfassendes Verständnis des Lehr-Lern-Prozesses erlangen und das Engagement der Schüler verbessern, wodurch die gesamte Bildungserfahrung optimiert wird. Durch den Einsatz von KI-Techniken ist es sogar möglich, diese Daten automatisiert auszuwerten.
Das Hauptziel dieser Arbeit ist es, das System zu beschreiben, das es uns ermöglicht, alle Informationen zu erfassen und, sobald sie erfasst sind, ein KI-Modell zu trainieren, das es uns ermöglicht, die Aufmerksamkeit der gesamten Klasse in Echtzeit zu gewinnen. Obwohl in anderen Arbeiten bereits vorgeschlagen wurde, Aufmerksamkeit anhand visueller oder emotionaler Informationen zu erregen6, schlägt diese Arbeit den kombinierten Einsatz dieser Techniken vor, der einen ganzheitlichen Ansatz bietet, der den Einsatz komplexerer und effektiverer KI-Techniken ermöglicht. Darüber hinaus beschränken sich die bisher verfügbaren Datensätze entweder auf eine Reihe von Videos oder auf biometrische Daten. Die Literatur enthält keine Datensätze, die vollständige Daten mit Bildern des Gesichts oder des Körpers des Schülers, biometrischen Daten, Daten zur Position des Lehrers usw. liefern. Mit dem hier vorgestellten System ist es möglich, diese Art von Datensatz zu erfassen.
Das System ordnet jedem Schüler zu jedem Zeitpunkt ein gewisses Maß an Aufmerksamkeit zu. Dieser Wert ist ein Wahrscheinlichkeitswert für Aufmerksamkeit zwischen 0% und 100%, der als niedriges Aufmerksamkeitsniveau (0%-40%), mittleres Aufmerksamkeitsniveau (40%-75%) und hohes Aufmerksamkeitsniveau (75%-100%) interpretiert werden kann. Im gesamten Text wird diese Wahrscheinlichkeit der Aufmerksamkeit als das Aufmerksamkeitsniveau, die Aufmerksamkeit der Schüler oder die Frage, ob die Schüler abgelenkt sind oder nicht, bezeichnet, aber diese beziehen sich alle auf den gleichen Ausgabewert unseres Systems.
Im Laufe der Jahre ist der Bereich der automatischen Engagement-Erkennung aufgrund seines Potenzials, die Bildung zu revolutionieren, erheblich gewachsen. Forscher haben verschiedene Ansätze für diesen Forschungsbereich vorgeschlagen.
Ma et al.7 stellten eine neuartige Methode vor, die auf einer Neural Turing Machine zur automatischen Engagement-Erkennung basiert. Sie extrahierten bestimmte Merkmale wie Blick, Gesichtsbewegungseinheiten, Kopf- und Körperhaltung, um eine umfassende Darstellung der Engagement-Erkennung zu erstellen.
EyeTab8, ein weiteres innovatives System, verwendet Modelle, um mit beiden Augen zu schätzen, wohin jemand schaut. Es wurde speziell entwickelt, um reibungslos auf einem Standard-Tablet ohne Änderungen zu funktionieren. Dieses System nutzt bekannte Algorithmen für die Verarbeitung von Bildern und die Analyse von Computer Vision. Ihre Pipeline zur Blickschätzung umfasst einen Haar-ähnlichen, merkmalsbasierten Augendetektor sowie einen RANSAC-basierten Limbusellipsenanpassungsansatz.
Sanghvi et al.9 schlagen einen Ansatz vor, der auf sehbasierten Techniken beruht, um ausdrucksstarke Haltungsmerkmale automatisch aus Videos zu extrahieren, die aus einer Seitenansicht aufgenommen wurden, und das Verhalten der Kinder zu erfassen. Es wird eine erste Evaluation durchgeführt, die das Training mehrerer Erkennungsmodelle unter Verwendung kontextualisierter affektiver Haltungsausdrücke umfasst. Die erzielten Ergebnisse zeigen, dass Haltungsmuster die Auseinandersetzung der Kinder mit dem Roboter effektiv vorhersagen können.
In anderen Arbeiten, wie z.B. Gupta et al.10, wird eine Deep-Learning-basierte Methode eingesetzt, um das Echtzeit-Engagement von Online-Lernenden zu erkennen, indem ihre Gesichtsausdrücke analysiert und ihre Emotionen klassifiziert werden. Der Ansatz nutzt die Erkennung von Gesichtsemotionen, um einen Engagement-Index (EI) zu berechnen, der zwei Engagement-Zustände vorhersagt: engagiert und unengagiert. Verschiedene Deep-Learning-Modelle, darunter Inception-V3, VGG19 und ResNet-50, werden evaluiert und verglichen, um das effektivste prädiktive Klassifizierungsmodell für die Echtzeit-Erkennung von Interaktionen zu identifizieren.
In Altuwairqi et al.11 stellen die Forscher einen neuartigen automatischen multimodalen Ansatz zur Bewertung des Engagements von Schülern in Echtzeit vor. Um genaue und zuverlässige Messungen zu gewährleisten, integrierte und analysierte das Team drei verschiedene Modalitäten, die das Verhalten der Schüler erfassen: Gesichtsausdrücke für Emotionen, Tastenanschläge auf der Tastatur und Mausbewegungen.
Guillén et al.12 schlagen die Entwicklung eines Überwachungssystems vor, das die Elektrokardiographie (EKG) als primäres physiologisches Signal verwendet, um das Vorhandensein oder Fehlen von kognitiver Aufmerksamkeit bei Individuen während der Ausführung einer Aufgabe zu analysieren und vorherzusagen.
Alban et al.13 verwenden ein neuronales Netzwerk (NN), um Emotionen zu erkennen, indem sie die Herzfrequenz (HR) und die elektrodermale Aktivität (EDA) verschiedener Teilnehmer sowohl im Zeit- als auch im Frequenzbereich analysieren. Sie stellen fest, dass eine Zunahme des Root-Mean-Square of Successive Differences (RMSDD) und der Standardabweichung von Normal-zu-Normal-Intervallen (SDNN), gepaart mit einer Abnahme der durchschnittlichen HR, auf eine erhöhte Aktivität im sympathischen Nervensystem hinweist, die mit Angst verbunden ist.
Kajiwara et al.14 schlagen ein innovatives System vor, das tragbare Sensoren und tiefe neuronale Netze verwendet, um das Ausmaß der Emotionen und des Engagements von Arbeitern vorherzusagen. Das System folgt einem dreistufigen Prozess. Zunächst erfassen und sammeln tragbare Sensoren Daten über Verhaltensweisen und Pulswellen. Anschließend werden Zeitreihenmerkmale auf der Grundlage der gewonnenen Verhaltens- und physiologischen Daten berechnet. Schließlich werden tiefe neuronale Netze verwendet, um die Zeitreihenmerkmale einzugeben und Vorhersagen über die Emotionen und das Engagement der Person zu treffen.
In anderen Forschungen, wie z.B. Costante et al.15, wird ein Ansatz vorgeschlagen, der auf einem neuartigen transfermetrischen Lernalgorithmus basiert, der das Vorwissen über einen vordefinierten Satz von Gesten nutzt, um die Erkennung von benutzerdefinierten Gesten zu verbessern. Diese Verbesserung wird mit minimaler Abhängigkeit von zusätzlichen Trainingsgebieten erreicht. In ähnlicher Weise wird ein sensorgestütztes Rahmenwerk zur Erkennung menschlicher Aktivitäten16 vorgestellt, um das Ziel der unpersönlichen Erkennung komplexer menschlicher Aktivitäten zu adressieren. Signaldaten, die von am Handgelenk getragenen Sensoren gesammelt werden, werden in dem entwickelten Framework zur Erkennung menschlicher Aktivitäten verwendet, wobei vier RNN-basierte DL-Modelle (Long-Short Term Memorys, Bidirectional Long-Short Term Memorys, Gated Recurrent Units und Bidirectional Gated Recurrent Units) verwendet werden, um die Aktivitäten des Benutzers des tragbaren Geräts zu untersuchen.
In dieser Arbeit wird ein System vorgestellt, das das Aufmerksamkeitsniveau eines Schülers in einem Klassenzimmer mithilfe von Kameras, Smartwatches und Algorithmen der künstlichen Intelligenz misst. Diese Informationen werden anschließend dem Lehrer vorgelegt, damit er sich ein Bild vom allgemeinen Zustand der Klasse machen kann.
Einer der wichtigsten kritischen Schritte des Protokolls ist die Synchronisierung der Smartwatch-Informationen mit dem Farbkamerabild, da diese unterschiedliche F…
The authors have nothing to disclose.
Diese Arbeit wurde mit Mitteln des Programa Prometeo, Projekt-ID CIPROM/2021/017, entwickelt. Prof. Rosabel Roig ist Vorsitzende der UNESCO “Bildung, Forschung und digitale Inklusion”.
4 GPUs Nvidia A40 Ampere | NVIDIA | TCSA40M-PB | GPU for centralized model processing server |
FusionServer 2288H V5 | X-Fusion | 02311XBK | Platform that includes power supply and motherboard for centralized model processing server |
Memory Card Evo Plus 128 GB | Samsung | MB-MC128KA/EU | Memory card for the operation of the raspberry pi 4b 2gb. One for each raspberry. |
NEMIX RAM – 512 GB Kit DDR4-3200 PC4-25600 8Rx4 EC | NEMIX | M393AAG40M32-CAE | RAM for centralized model processing server |
Processor Intel Xeon Gold 6330 | Intel | CD8068904572101 | Processor for centralized model processing server |
Raspberry PI 4B 2GB | Raspberry | 1822095 | Local server that receives requests from the clocks and sends them to the general server. One every two students. |
Samsung Galaxy Watch 5 (40mm) | Samsung | SM-R900NZAAPHE | Clock that monitors each student's activity. For each student. |
Samsung MZQL23T8HCLS-00B7C PM9A3 3.84Tb Nvme U.2 PCI-Express-4 x4 2.5inch Ssd | Samsung | MZQL23T8HCLS-00B7C | Internal storage for centralized model processing server |
WebCam HD Pro C920 Webcam FullHD | Logitech | 960-001055 | Webcam HD. One for each student plus two for student poses. |