Este artículo propone un sistema basado en inteligencia artificial para detectar automáticamente si los estudiantes están prestando atención a la clase o están distraídos. Este sistema está diseñado para ayudar a los profesores a mantener la atención de los estudiantes, optimizar sus lecciones e introducir modificaciones dinámicamente para que sean más atractivas.
El nivel de atención de los estudiantes en un aula se puede mejorar mediante el uso de técnicas de Inteligencia Artificial (IA). Al identificar automáticamente el nivel de atención, los maestros pueden emplear estrategias para recuperar la concentración de los estudiantes. Esto se puede lograr a través de diversas fuentes de información.
Una de las fuentes es analizar las emociones reflejadas en los rostros de los estudiantes. La IA puede detectar emociones, como la neutralidad, el disgusto, la sorpresa, la tristeza, el miedo, la felicidad y la ira. Además, la dirección de la mirada de los estudiantes también puede indicar su nivel de atención. Otra fuente es observar la postura corporal de los estudiantes. Mediante el uso de cámaras y técnicas de aprendizaje profundo, se puede analizar la postura para determinar el nivel de atención. Por ejemplo, los estudiantes que están encorvados o descansando la cabeza en sus escritorios pueden tener un nivel más bajo de atención. Los relojes inteligentes distribuidos a los estudiantes pueden proporcionar datos biométricos y de otro tipo, incluidas mediciones de frecuencia cardíaca e inercial, que también se pueden usar como indicadores de atención. Al combinar estas fuentes de información, se puede entrenar un sistema de IA para identificar el nivel de atención en el aula. Sin embargo, la integración de los diferentes tipos de datos plantea un desafío que requiere la creación de un conjunto de datos etiquetado. Se consultan los aportes de los expertos y los estudios existentes para un etiquetado preciso. En este trabajo, proponemos la integración de dichas mediciones y la creación de un conjunto de datos y un clasificador de atención potencial. Para proporcionar retroalimentación al profesor, exploramos varios métodos, como los relojes inteligentes o los ordenadores directos. Una vez que el profesor se da cuenta de las dificultades de atención, puede ajustar su enfoque de enseñanza para volver a involucrar y motivar a los estudiantes. En resumen, las técnicas de IA pueden identificar automáticamente el nivel de atención de los estudiantes mediante el análisis de sus emociones, la dirección de la mirada, la postura corporal y los datos biométricos. Esta información puede ayudar a los profesores a optimizar el proceso de enseñanza-aprendizaje.
En los entornos educativos modernos, evaluar y mantener con precisión la atención de los estudiantes es crucial para una enseñanza y un aprendizaje eficaces. Sin embargo, los métodos tradicionales para medir el compromiso, como el autoinforme o las observaciones subjetivas de los docentes, requieren mucho tiempo y son propensos a sesgos. Para hacer frente a este reto, las técnicas de Inteligencia Artificial (IA) han surgido como soluciones prometedoras para la detección automatizada de la atención. Un aspecto importante para comprender los niveles de participación de los estudiantes es el reconocimiento de emociones1. Los sistemas de IA pueden analizar las expresiones faciales para identificar emociones, como neutral, disgusto, sorpresa, tristeza, miedo, felicidad e ira2.
La dirección de la mirada y la postura corporal también son indicadores cruciales de la atención de los estudiantes3. Mediante el uso de cámaras y algoritmos avanzados de aprendizaje automático, los sistemas de IA pueden rastrear con precisión dónde miran los estudiantes y analizar su postura corporal para detectar signos de desinterés o fatiga. Además, la incorporación de datos biométricos mejora la precisión y fiabilidad de la detección de la atención5. Al recopilar mediciones, como la frecuencia cardíaca y los niveles de saturación de oxígeno en sangre, a través de relojes inteligentes que usan los estudiantes, se pueden obtener indicadores objetivos de atención, complementando otras fuentes de información.
Este artículo propone un sistema que evalúa el nivel de atención de un individuo utilizando cámaras a color y otros sensores diferentes. Combina el reconocimiento de emociones, el análisis de la dirección de la mirada, la evaluación de la postura corporal y los datos biométricos para proporcionar a los educadores un conjunto completo de herramientas para optimizar el proceso de enseñanza-aprendizaje y mejorar la participación de los estudiantes. Al emplear estas herramientas, los educadores pueden obtener una comprensión integral del proceso de enseñanza-aprendizaje y mejorar la participación de los estudiantes, optimizando así la experiencia educativa general. Mediante la aplicación de técnicas de IA, incluso es posible evaluar automáticamente estos datos.
El objetivo principal de este trabajo es describir el sistema que nos permite capturar toda la información y, una vez capturada, entrenar un modelo de IA que nos permita obtener la atención de toda la clase en tiempo real. Aunque otros trabajos ya han propuesto capturar la atención utilizando información visual o emocional6, este trabajo propone el uso combinado de estas técnicas, lo que proporciona un enfoque holístico para permitir el uso de técnicas de IA más complejas y efectivas. Además, los conjuntos de datos disponibles hasta ahora se limitan a un conjunto de vídeos o a uno de datos biométricos. La literatura no incluye conjuntos de datos que aporten datos completos con imágenes de la cara del alumno o de su cuerpo, datos biométricos, datos sobre la posición del profesor, etcétera. Con el sistema que se presenta aquí, es posible capturar este tipo de conjunto de datos.
El sistema asocia un nivel de atención a cada alumno en cada momento. Este valor es un valor de probabilidad de atención entre 0% y 100%, que puede interpretarse como un nivel de atención bajo (0%-40%), un nivel de atención medio (40%-75%) y un nivel de atención alto (75%-100%). A lo largo del texto, esta probabilidad de atención se refiere al nivel de atención, la atención del alumno, o si los alumnos están distraídos o no, pero todos estos están relacionados con el mismo valor de salida de nuestro sistema.
A lo largo de los años, el campo de la detección automática de interacciones ha crecido significativamente debido a su potencial para revolucionar la educación. Los investigadores han propuesto varios enfoques para esta área de estudio.
Ma et al.7 introdujeron un método novedoso basado en una máquina de Turing neuronal para el reconocimiento automático del compromiso. Extrajeron ciertas características, como la mirada, las unidades de acción facial, la postura de la cabeza y la postura del cuerpo, para crear una representación completa del reconocimiento de la participación.
EyeTab8, otro sistema innovador, utilizó modelos para estimar hacia dónde está mirando alguien con ambos ojos. Fue especialmente hecho para funcionar sin problemas en una tableta estándar sin modificaciones. Este sistema aprovecha algoritmos bien conocidos para el procesamiento de imágenes y el análisis de la visión artificial. Su canal de estimación de la mirada incluye un detector ocular basado en características similar a Haar, así como un enfoque de ajuste de elipse del limbo basado en RANSAC.
Sanghvi et al.9 proponen un enfoque que se basa en técnicas basadas en la visión para extraer automáticamente los rasgos posturales expresivos de los vídeos grabados desde una vista lateral, capturando el comportamiento de los niños. Se lleva a cabo una evaluación inicial, que implica el entrenamiento de múltiples modelos de reconocimiento utilizando expresiones posturales afectivas contextualizadas. Los resultados obtenidos demuestran que los patrones de comportamiento postural pueden predecir eficazmente el compromiso de los niños con el robot.
En otros trabajos, como el de Gupta et al.10, se emplea un método basado en el aprendizaje profundo para detectar la participación en tiempo real de los estudiantes en línea mediante el análisis de sus expresiones faciales y la clasificación de sus emociones. El enfoque utiliza el reconocimiento facial de emociones para calcular un índice de compromiso (IE) que predice dos estados de compromiso: comprometido y desvinculado. Se evalúan y comparan varios modelos de aprendizaje profundo, incluidos Inception-V3, VGG19 y ResNet-50, para identificar el modelo de clasificación predictiva más eficaz para la detección de interacciones en tiempo real.
En Altuwairqi et al.11, los investigadores presentan un novedoso enfoque multimodal automático para evaluar los niveles de participación de los estudiantes en tiempo real. Para garantizar mediciones precisas y confiables, el equipo integró y analizó tres modalidades distintas que capturan los comportamientos de los estudiantes: expresiones faciales para las emociones, pulsaciones de teclas del teclado y movimientos del mouse.
Guillén et al.12 proponen el desarrollo de un sistema de monitorización que utiliza la electrocardiografía (ECG) como señal fisiológica primaria para analizar y predecir la presencia o ausencia de atención cognitiva en los individuos mientras realizan una tarea.
Alban et al.13 utilizan una red neuronal (NN) para detectar emociones mediante el análisis de los valores de frecuencia cardíaca (FC) y actividad electrodérmica (EDA) de varios participantes tanto en el dominio del tiempo como en el de la frecuencia. Descubrieron que un aumento en la raíz cuadrada media de las diferencias sucesivas (RMSDD) y la desviación estándar de los intervalos de normal a normal (SDNN), junto con una disminución en la FC promedio, indican una mayor actividad en el sistema nervioso simpático, que se asocia con el miedo.
Kajiwara et al.14 proponen un sistema innovador que emplea sensores portátiles y redes neuronales profundas para predecir el nivel de emoción y compromiso de los trabajadores. El sistema sigue un proceso de tres pasos. Inicialmente, los sensores portátiles capturan y recopilan datos sobre comportamientos y ondas de pulso. Posteriormente, se calculan las características de las series temporales en función de los datos conductuales y fisiológicos adquiridos. Por último, las redes neuronales profundas se utilizan para introducir las características de las series temporales y hacer predicciones sobre las emociones y los niveles de compromiso del individuo.
En otras investigaciones, como la de Costante et al.15, se propone un enfoque basado en un novedoso algoritmo de aprendizaje métrico de transferencia, que utiliza el conocimiento previo de un conjunto predefinido de gestos para mejorar el reconocimiento de gestos definidos por el usuario. Esta mejora se logra con una dependencia mínima de muestras de entrenamiento adicionales. De manera similar, se presenta un marco de reconocimiento de actividad humana basado en sensores16 para abordar el objetivo del reconocimiento impersonal de actividades humanas complejas. Los datos de señales recopilados de los sensores portátiles se utilizan en el marco de reconocimiento de actividad humana desarrollado, empleando cuatro modelos DL basados en RNN (Memorias a Largo y Corto Plazo, Memorias Bidireccionales a Largo y Corto Plazo, Unidades Recurrentes Cerradas y Unidades Recurrentes Cerradas Bidireccionales) para investigar las actividades realizadas por el usuario del dispositivo portátil.
Este trabajo presenta un sistema que mide el nivel de atención de un estudiante en un aula utilizando cámaras, relojes inteligentes y algoritmos de inteligencia artificial. Esta información se presenta posteriormente al profesor para que tenga una idea del estado general de la clase.
Uno de los principales pasos críticos del protocolo es la sincronización de la información del reloj inteligente con la imagen de la cámara a color, ya que estas tienen diferentes frecuencias. Esto se soluc…
The authors have nothing to disclose.
Este trabajo se desarrolló con financiamiento del Programa Prometeo, ID de proyecto CIPROM/2021/017. La Prof. Rosabel Roig es la presidenta del proyecto “Educación, Investigación e Inclusión Digital” de la UNESCO.
4 GPUs Nvidia A40 Ampere | NVIDIA | TCSA40M-PB | GPU for centralized model processing server |
FusionServer 2288H V5 | X-Fusion | 02311XBK | Platform that includes power supply and motherboard for centralized model processing server |
Memory Card Evo Plus 128 GB | Samsung | MB-MC128KA/EU | Memory card for the operation of the raspberry pi 4b 2gb. One for each raspberry. |
NEMIX RAM – 512 GB Kit DDR4-3200 PC4-25600 8Rx4 EC | NEMIX | M393AAG40M32-CAE | RAM for centralized model processing server |
Processor Intel Xeon Gold 6330 | Intel | CD8068904572101 | Processor for centralized model processing server |
Raspberry PI 4B 2GB | Raspberry | 1822095 | Local server that receives requests from the clocks and sends them to the general server. One every two students. |
Samsung Galaxy Watch 5 (40mm) | Samsung | SM-R900NZAAPHE | Clock that monitors each student's activity. For each student. |
Samsung MZQL23T8HCLS-00B7C PM9A3 3.84Tb Nvme U.2 PCI-Express-4 x4 2.5inch Ssd | Samsung | MZQL23T8HCLS-00B7C | Internal storage for centralized model processing server |
WebCam HD Pro C920 Webcam FullHD | Logitech | 960-001055 | Webcam HD. One for each student plus two for student poses. |