Summary

Sistema baseado em inteligência artificial para detectar níveis de atenção em alunos

Published: December 15, 2023
doi:

Summary

Este artigo propõe um sistema baseado em inteligência artificial para detectar automaticamente se os alunos estão prestando atenção na aula ou se estão distraídos. Este sistema foi projetado para ajudar os professores a manter a atenção dos alunos, otimizar suas aulas e introduzir modificações dinamicamente para que sejam mais envolventes.

Abstract

O nível de atenção dos alunos em sala de aula pode ser melhorado por meio do uso de técnicas de Inteligência Artificial (IA). Ao identificar automaticamente o nível de atenção, os professores podem empregar estratégias para recuperar o foco dos alunos. Isso pode ser alcançado por meio de várias fontes de informação.

Uma fonte é analisar as emoções refletidas nos rostos dos alunos. A IA pode detectar emoções, como neutro, nojo, surpresa, tristeza, medo, felicidade e raiva. Além disso, a direção do olhar dos alunos também pode indicar seu nível de atenção. Outra fonte é observar a postura corporal dos alunos. Usando câmeras e técnicas de aprendizado profundo, a postura pode ser analisada para determinar o nível de atenção. Por exemplo, os alunos que estão curvados ou descansando a cabeça em suas carteiras podem ter um nível mais baixo de atenção. Os smartwatches distribuídos aos alunos podem fornecer dados biométricos e outros, incluindo frequência cardíaca e medições inerciais, que também podem ser usados como indicadores de atenção. Ao combinar essas fontes de informação, um sistema de IA pode ser treinado para identificar o nível de atenção na sala de aula. No entanto, a integração dos diferentes tipos de dados representa um desafio que requer a criação de um conjunto de dados rotulado. A contribuição de especialistas e os estudos existentes são consultados para uma rotulagem precisa. Neste artigo, propomos a integração de tais medições e a criação de um conjunto de dados e um potencial classificador de atenção. Para fornecer feedback ao professor, exploramos vários métodos, como smartwatches ou computadores diretos. Uma vez que o professor se conscientize dos problemas de atenção, ele pode ajustar sua abordagem de ensino para reengajar e motivar os alunos. Em resumo, as técnicas de IA podem identificar automaticamente o nível de atenção dos alunos, analisando suas emoções, direção do olhar, postura corporal e dados biométricos. Essas informações podem auxiliar os professores na otimização do processo de ensino-aprendizagem.

Introduction

Em ambientes educacionais modernos, avaliar com precisão e manter a atenção dos alunos é crucial para um ensino e aprendizagem eficazes. No entanto, os métodos tradicionais de medir o engajamento, como autorrelato ou observações subjetivas do professor, são demorados e propensos a vieses. Para enfrentar esse desafio, as técnicas de Inteligência Artificial (IA) surgiram como soluções promissoras para detecção automatizada de atenção. Um aspecto significativo da compreensão dos níveis de engajamento dos alunos é o reconhecimento de emoções1. Os sistemas de IA podem analisar expressões faciais para identificar emoções, como neutro, nojo, surpresa, tristeza, medo, felicidade e raiva2.

A direção do olhar e a postura corporal também são indicadores cruciais da atenção dos alunos3. Ao utilizar câmeras e algoritmos avançados de aprendizado de máquina, os sistemas de IA podem rastrear com precisão para onde os alunos estão olhando e analisar sua postura corporal para detectar sinais de desinteresse ou fadiga4. Além disso, a incorporação de dados biométricos aumenta a precisão e a confiabilidade da detecção de atenção5. Por meio da coleta de medições, como frequência cardíaca e níveis de saturação de oxigênio no sangue, por meio de smartwatches usados pelos alunos, é possível obter indicadores objetivos de atenção, complementando outras fontes de informação.

Este artigo propõe um sistema que avalia o nível de atenção de um indivíduo usando câmeras coloridas e outros sensores diferentes. Ele combina reconhecimento de emoções, análise da direção do olhar, avaliação da postura corporal e dados biométricos para fornecer aos educadores um conjunto abrangente de ferramentas para otimizar o processo de ensino-aprendizagem e melhorar o envolvimento dos alunos. Ao empregar essas ferramentas, os educadores podem obter uma compreensão abrangente do processo de ensino-aprendizagem e aumentar o envolvimento dos alunos, otimizando assim a experiência educacional geral. Ao aplicar técnicas de IA, é possível avaliar automaticamente esses dados.

O principal objetivo deste trabalho é descrever o sistema que nos permite capturar toda a informação e, uma vez captada, treinar um modelo de IA que nos permita obter a atenção de toda a turma em tempo real. Embora outros trabalhos já tenham proposto a captação da atenção por meio de informações visuais ou emocionais6, este trabalho propõe o uso combinado dessas técnicas, o que proporciona uma abordagem holística para permitir o uso de técnicas de IA mais complexas e eficazes. Além disso, os conjuntos de dados até agora disponíveis estão limitados a um conjunto de vídeos ou a um conjunto de dados biométricos. A literatura não inclui conjuntos de dados que forneçam dados completos com imagens do rosto ou do corpo do aluno, dados biométricos, dados sobre a posição do professor, etc. Com o sistema aqui apresentado, é possível capturar esse tipo de conjunto de dados.

O sistema associa um nível de atenção a cada aluno em cada momento. Esse valor é um valor de probabilidade de atenção entre 0% e 100%, que pode ser interpretado como baixo nível de atenção (0%-40%), nível médio de atenção (40%-75%) e alto nível de atenção (75%-100%). Ao longo do texto, essa probabilidade de atenção é referida como o nível de atenção, atenção do aluno ou se os alunos estão distraídos ou não, mas todos estão relacionados ao mesmo valor de saída do nosso sistema.

Ao longo dos anos, o campo da detecção automática de engajamento cresceu significativamente devido ao seu potencial para revolucionar a educação. Os pesquisadores propuseram várias abordagens para esta área de estudo.

Ma et al.7 introduziram um novo método baseado em uma Máquina de Turing Neural para reconhecimento automático de engajamento. Eles extraíram certos recursos, como olhar, unidades de ação facial, pose da cabeça e pose do corpo, para criar uma representação abrangente do reconhecimento de engajamento.

O EyeTab8, outro sistema inovador, usou modelos para estimar para onde alguém está olhando com os dois olhos. Foi feito especialmente para funcionar sem problemas em um tablet padrão, sem modificações. Este sistema aproveita algoritmos conhecidos para processar imagens e analisar a visão computacional. Seu pipeline de estimativa do olhar inclui um detector ocular baseado em recursos semelhantes a Haar, bem como uma abordagem de ajuste de elipse limbus baseada em RANSAC.

Sanghvi et al.9 propõem uma abordagem que se baseia em técnicas baseadas na visão para extrair automaticamente características posturais expressivas de vídeos gravados em uma visão lateral, capturando o comportamento das crianças. É realizada uma avaliação inicial, envolvendo o treinamento de modelos de reconhecimento múltiplo usando expressões posturais afetivas contextualizadas. Os resultados obtidos demonstram que padrões de comportamento postural podem efetivamente predizer o envolvimento das crianças com o robô.

Em outros trabalhos, como Gupta et al.10, um método baseado em aprendizado profundo é empregado para detectar o engajamento em tempo real de alunos online, analisando suas expressões faciais e classificando suas emoções. A abordagem utiliza o reconhecimento de emoções faciais para calcular um índice de engajamento (IE) que prevê dois estados de engajamento: engajado e desengajado. Vários modelos de aprendizado profundo, incluindo Inception-V3, VGG19 e ResNet-50, são avaliados e comparados para identificar o modelo de classificação preditiva mais eficaz para detecção de engajamento em tempo real.

Em Altuwairqi et al.11, os pesquisadores apresentam uma nova abordagem multimodal automática para avaliar os níveis de engajamento dos alunos em tempo real. Para garantir medições precisas e confiáveis, a equipe integrou e analisou três modalidades distintas que capturam os comportamentos dos alunos: expressões faciais para emoções, pressionamentos de tecla do teclado e movimentos do mouse.

Guillén et al.12 propõem o desenvolvimento de um sistema de monitoramento que utiliza a eletrocardiografia (ECG) como sinal fisiológico primário para analisar e predizer a presença ou ausência de atenção cognitiva em indivíduos durante a realização de uma tarefa.

Alban et al.13 utilizam uma rede neural (NN) para detectar emoções, analisando os valores de frequência cardíaca (FC) e atividade eletrodérmica (EDA) de vários participantes nos domínios de tempo e frequência. Eles descobriram que um aumento na raiz quadrada média das diferenças sucessivas (RMSDD) e nos intervalos de desvio padrão normal a normal (SDNN), juntamente com uma diminuição na FC média, indicam atividade aumentada no sistema nervoso simpático, que está associado ao medo.

Kajiwara et al.14 propõem um sistema inovador que emprega sensores vestíveis e redes neurais profundas para prever o nível de emoção e engajamento dos trabalhadores. O sistema segue um processo de três etapas. Inicialmente, os sensores vestíveis capturam e coletam dados sobre comportamentos e ondas de pulso. Posteriormente, as características das séries temporais são calculadas com base nos dados comportamentais e fisiológicos adquiridos. Finalmente, as redes neurais profundas são usadas para inserir os recursos da série temporal e fazer previsões sobre as emoções e os níveis de engajamento do indivíduo.

Em outras pesquisas, como Costante et al.15, é proposta uma abordagem baseada em um novo algoritmo de aprendizado de métrica de transferência, que utiliza conhecimento prévio de um conjunto predefinido de gestos para aprimorar o reconhecimento de gestos definidos pelo usuário. Essa melhoria é alcançada com o mínimo de dependência de amostras de treinamento adicionais. Da mesma forma, uma estrutura de reconhecimento de atividade humana baseada em sensores16 é apresentada para abordar o objetivo do reconhecimento impessoal de atividades humanas complexas. Os dados de sinal coletados de sensores usados no pulso são utilizados na estrutura de reconhecimento de atividade humana desenvolvida, empregando quatro modelos DL baseados em RNN (Memórias de Longo e Curto Prazo, Memórias Bidirecionais de Longo e Curto Prazo, Unidades Recorrentes Fechadas e Unidades Recorrentes Fechadas Bidirecionais) para investigar as atividades realizadas pelo usuário do dispositivo vestível.

Protocol

O protocolo a seguir segue as diretrizes do comitê de ética em pesquisa com seres humanos da Universidade de Alicante com o número de protocolo aprovado UA-2022-11-12. O consentimento informado foi obtido de todos os participantes para este experimento e para usar os dados aqui. 1. Configuração de hardware, software e classe Defina um roteador com recursos WiFi (os experimentos foram realizados usando um DLink DSR 1000AC) no local desejado para que seu alcance c…

Representative Results

O público-alvo deste estudo são estudantes de graduação e mestrado, portanto, a principal faixa etária está entre 18 e 25 anos. Essa população foi selecionada porque pode lidar com dispositivos eletrônicos com menos distrações do que os alunos mais jovens. No total, o grupo incluiu 25 pessoas. Essa faixa etária pode fornecer os resultados mais confiáveis para testar a proposta. Os resultados do nível de atenção mostrado ao professor têm 2 partes. A parte A do resultado mostra …

Discussion

Este trabalho apresenta um sistema que mede o nível de atenção de um aluno em sala de aula usando câmeras, smartwatches e algoritmos de inteligência artificial. Essas informações são posteriormente apresentadas ao professor para que ele tenha uma ideia do estado geral da turma.

Uma das principais etapas críticas do protocolo é a sincronização das informações do smartwatch com a imagem da câmera colorida, pois estas possuem frequências diferentes. Isso foi resolvido implantando …

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi desenvolvido com financiamento do Programa Prometeo, projeto ID CIPROM/2021/017. A Prof. Rosabel Roig é a presidente da UNESCO “Educação, Pesquisa e Inclusão Digital”.

Materials

4 GPUs  Nvidia A40 Ampere NVIDIA TCSA40M-PB GPU for centralized model processing server
FusionServer 2288H V5 X-Fusion 02311XBK Platform that includes power supply and motherboard for centralized model processing server
Memory Card Evo Plus 128 GB Samsung MB-MC128KA/EU Memory card for the operation of the raspberry pi 4b 2gb.  One for each raspberry. 
NEMIX RAM – 512 GB Kit DDR4-3200 PC4-25600 8Rx4 EC NEMIX M393AAG40M32-CAE RAM for centralized model processing server
Processor Intel Xeon Gold 6330 Intel CD8068904572101 Processor for centralized model processing server
Raspberry PI 4B 2GB Raspberry 1822095 Local server that receives requests from the clocks and sends them to the general server. One every two students.
Samsung Galaxy Watch 5 (40mm) Samsung SM-R900NZAAPHE Clock that monitors each student's activity. For each student. 
Samsung MZQL23T8HCLS-00B7C PM9A3 3.84Tb Nvme U.2 PCI-Express-4 x4 2.5inch Ssd Samsung MZQL23T8HCLS-00B7C Internal storage for centralized model processing server
WebCam HD Pro C920 Webcam FullHD Logitech 960-001055 Webcam HD. One for each student plus two for student poses.

References

  1. Hasnine, M. N., et al. Students’ emotion extraction and visualization for engagement detection in online learning. Procedia Comp Sci. 192, 3423-3431 (2021).
  2. Khare, S. K., Blanes-Vidal, V., Nadimi, E. S., Acharya, U. R. Emotion recognition and artificial intelligence: A systematic review (2014-2023) and research recommendations. Info Fusion. 102, 102019 (2024).
  3. Bosch, N. Detecting student engagement: Human versus machine. UMAP ’16: Proc the 2016 Conf User Model Adapt Personal. , 317-320 (2016).
  4. Araya, R., Sossa-Rivera, J. Automatic detection of gaze and body orientation in elementary school classrooms. Front Robot AI. 8, 729832 (2021).
  5. Lu, Y., Zhang, J., Li, B., Chen, P., Zhuang, Z. Harnessing commodity wearable devices for capturing learner engagement. IEEE Access. 7, 15749-15757 (2019).
  6. Vanneste, P., et al. Computer vision and human behaviour, emotion and cognition detection: A use case on student engagement. Mathematics. 9 (3), 287 (2021).
  7. Ma, X., Xu, M., Dong, Y., Sun, Z. Automatic student engagement in online learning environment based on neural Turing machine. Int J Info Edu Tech. 11 (3), 107-111 (2021).
  8. Wood, E., Bulling, A. EyeTab: model-based gaze estimation on unmodified tablet computers. ETRA ’14: Proc Symp Eye Tracking Res Appl. , 207-210 (2014).
  9. Sanghvi, J., et al. Automatic analysis of affective postures and body motion to detect engagement with a game companion. HRI ’11: Proc 6th Int Conf Human-robot Interact. , 205-211 (2011).
  10. Gupta, S., Kumar, P., Tekchandani, R. K. Facial emotion recognition based real-time learner engagement detection system in online learning context using deep learning models. Multimed Tools Appl. 82 (8), 11365-11394 (2023).
  11. Altuwairqi, K., Jarraya, S. K., Allinjawi, A., Hammami, M. Student behavior analysis to measure engagement levels in online learning environments. Signal Image Video Process. 15 (7), 1387-1395 (2021).
  12. Belle, A., Hargraves, R. H., Najarian, K. An automated optimal engagement and attention detection system using electrocardiogram. Comput Math Methods Med. 2012, 528781 (2012).
  13. Alban, A. Q., et al. Heart rate as a predictor of challenging behaviours among children with autism from wearable sensors in social robot interactions. Robotics. 12 (2), 55 (2023).
  14. Kajiwara, Y., Shimauchi, T., Kimura, H. Predicting emotion and engagement of workers in order picking based on behavior and pulse waves acquired by wearable devices. Sensors. 19 (1), 165 (2019).
  15. Costante, G., Porzi, L., Lanz, O., Valigi, P., Ricci, E. Personalizing a smartwatch-based gesture interface with transfer learning. , 2530-2534 (2014).
  16. Mekruksavanich, S., Jitpattanakul, A. Deep convolutional neural network with RNNs for complex activity recognition using wrist-worn wearable sensor data. Electronics. 10 (14), 1685 (2021).
  17. Bazarevsky, V., Kartynnik, Y., Vakunov, A., Raveendran, K., Grundmann, M. BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs. arXiv. , (2019).
  18. Bazarevsky, V., et al. BlazePose: On-device Real-time Body Pose tracking. arXiv. , (2020).
  19. Mejia-Escobar, C., Cazorla, M., Martinez-Martin, E. Towards a better performance in facial expression recognition: a data-centric approach. Comput Intelligence Neurosci. , (2023).
  20. El-Garem, A., Adel, R. Applying systematic literature review and Delphi methods to explore digital transformation key success factors. Int J Eco Mgmt Engi. 16 (7), 383-389 (2022).
  21. Indumathi, V., Kist, A. A. Using electroencephalography to determine student attention in the classroom. , 1-3 (2023).
  22. Ma, X., Xie, Y., Wang, H. Research on the construction and application of teacher-student interaction evaluation system for smart classroom in the post COVID-19. Studies Edu Eval. 78, 101286 (2023).
  23. Andersen, D. Constructing Delphi statements for technology foresight. Futures Foresight Sci. 5 (2), e144 (2022).
  24. Khodyakov, D., et al. Disciplinary trends in the use of the Delphi method: A bibliometric analysis. PLoS One. 18 (8), e0289009 (2023).
  25. Martins, A. I., et al. Consensus on the Terms and Procedures for Planning and Reporting a Usability Evaluation of Health-Related Digital Solutions: Delphi Study and a Resulting Checklist. J Medical Internet Res. 25, e44326 (2023).
  26. Dalmaso, M., Castelli, L., Galfano, G. Social modulators of gaze-mediated orienting of attention: A review. Psychon Bull Rev. 27 (5), 833-855 (2020).
  27. Klein, R. M. Thinking about attention: Successive approximations to a productive taxonomy. Cognition. 225, 105137 (2022).
  28. Schindler, S., Bublatzky, F. Attention and emotion: An integrative review of emotional face processing as a function of attention. Cortex. 130, 362-386 (2020).
  29. Zaletelj, J., Košir, A. Predicting students’ attention in the classroom from Kinect facial and body features. J Image Video Proc. 80, (2017).
  30. Strauch, C., Wang, C. A., Einhäuser, W., Van der Stigchel, S., Naber, M. Pupillometry as an integrated readout of distinct attentional networks. Trends Neurosci. 45 (8), 635-647 (2022).

Play Video

Cite This Article
Marquez-Carpintero, L., Pina-Navarro, M., Suescun-Ferrandiz, S., Escalona, F., Gomez-Donoso, F., Roig-Vila, R., Cazorla, M. Artificial Intelligence-Based System for Detecting Attention Levels in Students. J. Vis. Exp. (202), e65931, doi:10.3791/65931 (2023).

View Video