Cet article propose un système basé sur l’intelligence artificielle pour détecter automatiquement si les élèves sont attentifs à la classe ou s’ils sont distraits. Ce système est conçu pour aider les enseignants à maintenir l’attention des élèves, à optimiser leurs leçons et à introduire dynamiquement des modifications afin qu’ils soient plus engageants.
Le niveau d’attention des élèves dans une salle de classe peut être amélioré grâce à l’utilisation de techniques d’intelligence artificielle (IA). En identifiant automatiquement le niveau d’attention, les enseignants peuvent employer des stratégies pour retrouver la concentration des élèves. Cela peut se faire par le biais de diverses sources d’information.
L’une d’entre elles consiste à analyser les émotions reflétées sur le visage des élèves. L’IA peut détecter des émotions telles que le neutre, le dégoût, la surprise, la tristesse, la peur, le bonheur et la colère. De plus, la direction du regard des élèves peut également indiquer leur niveau d’attention. Une autre source consiste à observer la posture corporelle des élèves. En utilisant des caméras et des techniques d’apprentissage profond, la posture peut être analysée pour déterminer le niveau d’attention. Par exemple, les élèves qui sont avachis ou qui reposent la tête sur leur bureau peuvent avoir un niveau d’attention inférieur. Les montres intelligentes distribuées aux élèves peuvent fournir des données biométriques et autres, y compris des mesures de fréquence cardiaque et d’inertie, qui peuvent également être utilisées comme indicateurs d’attention. En combinant ces sources d’information, un système d’IA peut être entraîné à identifier le niveau d’attention dans la classe. Cependant, l’intégration des différents types de données pose un défi qui nécessite la création d’un jeu de données étiqueté. Les commentaires d’experts et les études existantes sont consultés pour un étiquetage précis. Dans cet article, nous proposons l’intégration de ces mesures et la création d’un ensemble de données et d’un classificateur d’attention potentiel. Pour fournir un retour d’information à l’enseignant, nous explorons différentes méthodes, telles que les montres intelligentes ou les ordinateurs directs. Une fois que l’enseignant prend conscience des problèmes d’attention, il peut ajuster son approche pédagogique pour réengager et motiver les élèves. En résumé, les techniques d’IA peuvent identifier automatiquement le niveau d’attention des élèves en analysant leurs émotions, la direction de leur regard, leur posture corporelle et leurs données biométriques. Ces informations peuvent aider les enseignants à optimiser le processus d’enseignement-apprentissage.
Dans les contextes éducatifs modernes, il est essentiel d’évaluer et de maintenir avec précision l’attention des élèves pour un enseignement et un apprentissage efficaces. Cependant, les méthodes traditionnelles d’évaluation de l’engagement, telles que l’auto-évaluation ou les observations subjectives de l’enseignant, prennent du temps et sont sujettes à des biais. Pour relever ce défi, les techniques d’intelligence artificielle (IA) sont apparues comme des solutions prometteuses pour la détection automatisée de l’attention. Un aspect important de la compréhension des niveaux d’engagement des élèves est la reconnaissance des émotions1. Les systèmes d’IA peuvent analyser les expressions faciales pour identifier les émotions, telles que la neutralité, le dégoût, la surprise, la tristesse, la peur, le bonheur et la colère2.
La direction du regard et la posture du corps sont également des indicateurs cruciaux de l’attention des élèves3. En utilisant des caméras et des algorithmes d’apprentissage automatique avancés, les systèmes d’IA peuvent suivre avec précision l’endroit où les élèves regardent et analyser leur posture corporelle pour détecter des signes de désintérêt ou de fatigue4. De plus, l’intégration de données biométriques améliore la précision et la fiabilité de la détection de l’attention5. En recueillant des mesures, telles que la fréquence cardiaque et les niveaux de saturation en oxygène dans le sang, à l’aide de montres intelligentes portées par les élèves, il est possible d’obtenir des indicateurs objectifs d’attention, complétant ainsi d’autres sources d’information.
Cet article propose un système qui évalue le niveau d’attention d’un individu à l’aide de caméras couleur et d’autres capteurs différents. Il combine la reconnaissance des émotions, l’analyse de la direction du regard, l’évaluation de la posture corporelle et les données biométriques pour fournir aux éducateurs un ensemble complet d’outils permettant d’optimiser le processus d’enseignement-apprentissage et d’améliorer l’engagement des élèves. En utilisant ces outils, les éducateurs peuvent acquérir une compréhension globale du processus d’enseignement-apprentissage et améliorer l’engagement des élèves, optimisant ainsi l’expérience éducative globale. En appliquant des techniques d’IA, il est même possible d’évaluer automatiquement ces données.
L’objectif principal de ce travail est de décrire le système qui nous permet de capturer toutes les informations et, une fois capturées, d’entraîner un modèle d’IA qui nous permet d’obtenir l’attention de toute la classe en temps réel. Bien que d’autres travaux aient déjà proposé de capter l’attention à l’aide d’informations visuelles ou émotionnelles6, ce travail propose l’utilisation combinée de ces techniques, ce qui fournit une approche holistique pour permettre l’utilisation de techniques d’IA plus complexes et efficaces. De plus, les ensembles de données disponibles jusqu’à présent se limitent soit à un ensemble de vidéos, soit à un ensemble de données biométriques. La littérature ne comprend pas d’ensembles de données fournissant des données complètes avec des images du visage ou du corps de l’élève, des données biométriques, des données sur la position de l’enseignant, etc. Avec le système présenté ici, il est possible de capturer ce type de jeu de données.
Le système associe un niveau d’attention à chaque élève à chaque moment donné. Cette valeur est une valeur de probabilité d’attention comprise entre 0 % et 100 %, qui peut être interprétée comme un niveau d’attention faible (0 %-40 %), un niveau d’attention moyen (40 %-75 %) et un niveau d’attention élevé (75 %-100 %). Tout au long du texte, cette probabilité d’attention est appelée le niveau d’attention, l’attention des élèves, ou le fait que les élèves soient distraits ou non, mais ils sont tous liés à la même valeur de sortie de notre système.
Au fil des ans, le domaine de la détection automatique de l’engagement s’est considérablement développé en raison de son potentiel à révolutionner l’éducation. Les chercheurs ont proposé différentes approches pour ce domaine d’étude.
Ma et al.7 ont introduit une nouvelle méthode basée sur une machine de Turing neuronale pour la reconnaissance automatique de l’engagement. Ils ont extrait certaines caractéristiques, telles que le regard oculaire, les unités d’action faciale, la pose de la tête et la pose du corps, pour créer une représentation complète de la reconnaissance de l’engagement.
EyeTab8, un autre système innovant, a utilisé des modèles pour estimer où une personne regarde avec ses deux yeux. Il a été spécialement conçu pour fonctionner sans problème sur une tablette standard sans aucune modification. Ce système exploite des algorithmes bien connus pour le traitement des images et l’analyse de la vision par ordinateur. Leur pipeline d’estimation du regard comprend un détecteur oculaire basé sur des caractéristiques de type Haar, ainsi qu’une approche d’ajustement de l’ellipse de limbe basée sur RANSAC.
Sanghvi et al.9 proposent une approche qui s’appuie sur des techniques basées sur la vision pour extraire automatiquement des caractéristiques posturales expressives à partir de vidéos enregistrées à partir d’une vue latérale, capturant le comportement des enfants. Une évaluation initiale est réalisée, impliquant l’entraînement de plusieurs modèles de reconnaissance à l’aide d’expressions posturales affectives contextualisées. Les résultats obtenus démontrent que les modèles de comportement postural peuvent prédire efficacement l’engagement des enfants avec le robot.
Dans d’autres travaux, tels que Gupta et al.10, une méthode basée sur l’apprentissage profond est utilisée pour détecter l’engagement en temps réel des apprenants en ligne en analysant leurs expressions faciales et en classifiant leurs émotions. L’approche utilise la reconnaissance des émotions faciales pour calculer un indice d’engagement (IE) qui prédit deux états d’engagement : engagé et désengagé. Divers modèles de deep learning, notamment Inception-V3, VGG19 et ResNet-50, sont évalués et comparés afin d’identifier le modèle de classification prédictive le plus efficace pour la détection de l’engagement en temps réel.
Dans Altuwairqi et al.11, les chercheurs présentent une nouvelle approche multimodale automatique pour évaluer les niveaux d’engagement des étudiants en temps réel. Pour garantir des mesures précises et fiables, l’équipe a intégré et analysé trois modalités distinctes qui capturent les comportements des élèves : les expressions faciales pour les émotions, les frappes au clavier et les mouvements de la souris.
Guillén et al.12 proposent le développement d’un système de surveillance qui utilise l’électrocardiographie (ECG) comme signal physiologique primaire pour analyser et prédire la présence ou l’absence d’attention cognitive chez les individus lors de l’exécution d’une tâche.
Alban et al.13 utilisent un réseau neuronal (NN) pour détecter les émotions en analysant les valeurs de fréquence cardiaque (FC) et d’activité électrodermale (EDA) de divers participants dans les domaines temporel et fréquentiel. Ils constatent qu’une augmentation de la racine carrée moyenne des différences successives (RMSDD) et de l’écart-type des intervalles normal-à-normal (SDNN), associée à une diminution de la FC moyenne, indique une activité accrue dans le système nerveux sympathique, qui est associée à la peur.
Kajiwara et coll.14 proposent un système novateur qui utilise des capteurs portables et des réseaux neuronaux profonds pour prévoir le niveau d’émotion et d’engagement chez les travailleurs. Le système suit un processus en trois étapes. Initialement, les capteurs portables capturent et collectent des données sur les comportements et les ondes de pouls. Par la suite, les caractéristiques des séries chronologiques sont calculées sur la base des données comportementales et physiologiques acquises. Enfin, les réseaux neuronaux profonds sont utilisés pour saisir les caractéristiques de la série chronologique et faire des prédictions sur les émotions et les niveaux d’engagement de l’individu.
Dans d’autres recherches, telles que Costante et al.15, une approche basée sur un nouvel algorithme d’apprentissage métrique de transfert est proposée, qui utilise la connaissance préalable d’un ensemble prédéfini de gestes pour améliorer la reconnaissance des gestes définis par l’utilisateur. Cette amélioration est obtenue avec une dépendance minimale à l’égard d’échantillons d’apprentissage supplémentaires. De même, un cadre de reconnaissance de l’activité humaine basé sur des capteurs16 est présenté pour répondre à l’objectif de la reconnaissance impersonnelle d’activités humaines complexes. Les données de signal collectées à partir de capteurs portés au poignet sont utilisées dans le cadre de reconnaissance de l’activité humaine développé, en utilisant quatre modèles DL basés sur RNN (Long-Short Term Memories, Bidirectional Long-Short Term Memories, Gated Recurrent Units et Bidirectional Gated Recurrent Units) pour étudier les activités effectuées par l’utilisateur du dispositif portable.
Ce travail présente un système qui mesure le niveau d’attention d’un élève dans une salle de classe à l’aide de caméras, de montres intelligentes et d’algorithmes d’intelligence artificielle. Ces informations sont ensuite présentées à l’enseignant pour qu’il ait une idée de l’état général de la classe.
L’une des principales étapes critiques du protocole est la synchronisation des informations de la smartwatch avec l’image couleur de la caméra, car celles-ci o…
The authors have nothing to disclose.
Ce travail a été développé avec le financement du Programa Prometeo, projet ID CIPROM/2021/017. Le professeur Rosabel Roig est titulaire de la chaire de l’UNESCO « Éducation, recherche et inclusion numérique ».
4 GPUs Nvidia A40 Ampere | NVIDIA | TCSA40M-PB | GPU for centralized model processing server |
FusionServer 2288H V5 | X-Fusion | 02311XBK | Platform that includes power supply and motherboard for centralized model processing server |
Memory Card Evo Plus 128 GB | Samsung | MB-MC128KA/EU | Memory card for the operation of the raspberry pi 4b 2gb. One for each raspberry. |
NEMIX RAM – 512 GB Kit DDR4-3200 PC4-25600 8Rx4 EC | NEMIX | M393AAG40M32-CAE | RAM for centralized model processing server |
Processor Intel Xeon Gold 6330 | Intel | CD8068904572101 | Processor for centralized model processing server |
Raspberry PI 4B 2GB | Raspberry | 1822095 | Local server that receives requests from the clocks and sends them to the general server. One every two students. |
Samsung Galaxy Watch 5 (40mm) | Samsung | SM-R900NZAAPHE | Clock that monitors each student's activity. For each student. |
Samsung MZQL23T8HCLS-00B7C PM9A3 3.84Tb Nvme U.2 PCI-Express-4 x4 2.5inch Ssd | Samsung | MZQL23T8HCLS-00B7C | Internal storage for centralized model processing server |
WebCam HD Pro C920 Webcam FullHD | Logitech | 960-001055 | Webcam HD. One for each student plus two for student poses. |