Este artigo propõe um sistema baseado em inteligência artificial para detectar automaticamente se os alunos estão prestando atenção na aula ou se estão distraídos. Este sistema foi projetado para ajudar os professores a manter a atenção dos alunos, otimizar suas aulas e introduzir modificações dinamicamente para que sejam mais envolventes.
O nível de atenção dos alunos em sala de aula pode ser melhorado por meio do uso de técnicas de Inteligência Artificial (IA). Ao identificar automaticamente o nível de atenção, os professores podem empregar estratégias para recuperar o foco dos alunos. Isso pode ser alcançado por meio de várias fontes de informação.
Uma fonte é analisar as emoções refletidas nos rostos dos alunos. A IA pode detectar emoções, como neutro, nojo, surpresa, tristeza, medo, felicidade e raiva. Além disso, a direção do olhar dos alunos também pode indicar seu nível de atenção. Outra fonte é observar a postura corporal dos alunos. Usando câmeras e técnicas de aprendizado profundo, a postura pode ser analisada para determinar o nível de atenção. Por exemplo, os alunos que estão curvados ou descansando a cabeça em suas carteiras podem ter um nível mais baixo de atenção. Os smartwatches distribuídos aos alunos podem fornecer dados biométricos e outros, incluindo frequência cardíaca e medições inerciais, que também podem ser usados como indicadores de atenção. Ao combinar essas fontes de informação, um sistema de IA pode ser treinado para identificar o nível de atenção na sala de aula. No entanto, a integração dos diferentes tipos de dados representa um desafio que requer a criação de um conjunto de dados rotulado. A contribuição de especialistas e os estudos existentes são consultados para uma rotulagem precisa. Neste artigo, propomos a integração de tais medições e a criação de um conjunto de dados e um potencial classificador de atenção. Para fornecer feedback ao professor, exploramos vários métodos, como smartwatches ou computadores diretos. Uma vez que o professor se conscientize dos problemas de atenção, ele pode ajustar sua abordagem de ensino para reengajar e motivar os alunos. Em resumo, as técnicas de IA podem identificar automaticamente o nível de atenção dos alunos, analisando suas emoções, direção do olhar, postura corporal e dados biométricos. Essas informações podem auxiliar os professores na otimização do processo de ensino-aprendizagem.
Em ambientes educacionais modernos, avaliar com precisão e manter a atenção dos alunos é crucial para um ensino e aprendizagem eficazes. No entanto, os métodos tradicionais de medir o engajamento, como autorrelato ou observações subjetivas do professor, são demorados e propensos a vieses. Para enfrentar esse desafio, as técnicas de Inteligência Artificial (IA) surgiram como soluções promissoras para detecção automatizada de atenção. Um aspecto significativo da compreensão dos níveis de engajamento dos alunos é o reconhecimento de emoções1. Os sistemas de IA podem analisar expressões faciais para identificar emoções, como neutro, nojo, surpresa, tristeza, medo, felicidade e raiva2.
A direção do olhar e a postura corporal também são indicadores cruciais da atenção dos alunos3. Ao utilizar câmeras e algoritmos avançados de aprendizado de máquina, os sistemas de IA podem rastrear com precisão para onde os alunos estão olhando e analisar sua postura corporal para detectar sinais de desinteresse ou fadiga4. Além disso, a incorporação de dados biométricos aumenta a precisão e a confiabilidade da detecção de atenção5. Por meio da coleta de medições, como frequência cardíaca e níveis de saturação de oxigênio no sangue, por meio de smartwatches usados pelos alunos, é possível obter indicadores objetivos de atenção, complementando outras fontes de informação.
Este artigo propõe um sistema que avalia o nível de atenção de um indivíduo usando câmeras coloridas e outros sensores diferentes. Ele combina reconhecimento de emoções, análise da direção do olhar, avaliação da postura corporal e dados biométricos para fornecer aos educadores um conjunto abrangente de ferramentas para otimizar o processo de ensino-aprendizagem e melhorar o envolvimento dos alunos. Ao empregar essas ferramentas, os educadores podem obter uma compreensão abrangente do processo de ensino-aprendizagem e aumentar o envolvimento dos alunos, otimizando assim a experiência educacional geral. Ao aplicar técnicas de IA, é possível avaliar automaticamente esses dados.
O principal objetivo deste trabalho é descrever o sistema que nos permite capturar toda a informação e, uma vez captada, treinar um modelo de IA que nos permita obter a atenção de toda a turma em tempo real. Embora outros trabalhos já tenham proposto a captação da atenção por meio de informações visuais ou emocionais6, este trabalho propõe o uso combinado dessas técnicas, o que proporciona uma abordagem holística para permitir o uso de técnicas de IA mais complexas e eficazes. Além disso, os conjuntos de dados até agora disponíveis estão limitados a um conjunto de vídeos ou a um conjunto de dados biométricos. A literatura não inclui conjuntos de dados que forneçam dados completos com imagens do rosto ou do corpo do aluno, dados biométricos, dados sobre a posição do professor, etc. Com o sistema aqui apresentado, é possível capturar esse tipo de conjunto de dados.
O sistema associa um nível de atenção a cada aluno em cada momento. Esse valor é um valor de probabilidade de atenção entre 0% e 100%, que pode ser interpretado como baixo nível de atenção (0%-40%), nível médio de atenção (40%-75%) e alto nível de atenção (75%-100%). Ao longo do texto, essa probabilidade de atenção é referida como o nível de atenção, atenção do aluno ou se os alunos estão distraídos ou não, mas todos estão relacionados ao mesmo valor de saída do nosso sistema.
Ao longo dos anos, o campo da detecção automática de engajamento cresceu significativamente devido ao seu potencial para revolucionar a educação. Os pesquisadores propuseram várias abordagens para esta área de estudo.
Ma et al.7 introduziram um novo método baseado em uma Máquina de Turing Neural para reconhecimento automático de engajamento. Eles extraíram certos recursos, como olhar, unidades de ação facial, pose da cabeça e pose do corpo, para criar uma representação abrangente do reconhecimento de engajamento.
O EyeTab8, outro sistema inovador, usou modelos para estimar para onde alguém está olhando com os dois olhos. Foi feito especialmente para funcionar sem problemas em um tablet padrão, sem modificações. Este sistema aproveita algoritmos conhecidos para processar imagens e analisar a visão computacional. Seu pipeline de estimativa do olhar inclui um detector ocular baseado em recursos semelhantes a Haar, bem como uma abordagem de ajuste de elipse limbus baseada em RANSAC.
Sanghvi et al.9 propõem uma abordagem que se baseia em técnicas baseadas na visão para extrair automaticamente características posturais expressivas de vídeos gravados em uma visão lateral, capturando o comportamento das crianças. É realizada uma avaliação inicial, envolvendo o treinamento de modelos de reconhecimento múltiplo usando expressões posturais afetivas contextualizadas. Os resultados obtidos demonstram que padrões de comportamento postural podem efetivamente predizer o envolvimento das crianças com o robô.
Em outros trabalhos, como Gupta et al.10, um método baseado em aprendizado profundo é empregado para detectar o engajamento em tempo real de alunos online, analisando suas expressões faciais e classificando suas emoções. A abordagem utiliza o reconhecimento de emoções faciais para calcular um índice de engajamento (IE) que prevê dois estados de engajamento: engajado e desengajado. Vários modelos de aprendizado profundo, incluindo Inception-V3, VGG19 e ResNet-50, são avaliados e comparados para identificar o modelo de classificação preditiva mais eficaz para detecção de engajamento em tempo real.
Em Altuwairqi et al.11, os pesquisadores apresentam uma nova abordagem multimodal automática para avaliar os níveis de engajamento dos alunos em tempo real. Para garantir medições precisas e confiáveis, a equipe integrou e analisou três modalidades distintas que capturam os comportamentos dos alunos: expressões faciais para emoções, pressionamentos de tecla do teclado e movimentos do mouse.
Guillén et al.12 propõem o desenvolvimento de um sistema de monitoramento que utiliza a eletrocardiografia (ECG) como sinal fisiológico primário para analisar e predizer a presença ou ausência de atenção cognitiva em indivíduos durante a realização de uma tarefa.
Alban et al.13 utilizam uma rede neural (NN) para detectar emoções, analisando os valores de frequência cardíaca (FC) e atividade eletrodérmica (EDA) de vários participantes nos domínios de tempo e frequência. Eles descobriram que um aumento na raiz quadrada média das diferenças sucessivas (RMSDD) e nos intervalos de desvio padrão normal a normal (SDNN), juntamente com uma diminuição na FC média, indicam atividade aumentada no sistema nervoso simpático, que está associado ao medo.
Kajiwara et al.14 propõem um sistema inovador que emprega sensores vestíveis e redes neurais profundas para prever o nível de emoção e engajamento dos trabalhadores. O sistema segue um processo de três etapas. Inicialmente, os sensores vestíveis capturam e coletam dados sobre comportamentos e ondas de pulso. Posteriormente, as características das séries temporais são calculadas com base nos dados comportamentais e fisiológicos adquiridos. Finalmente, as redes neurais profundas são usadas para inserir os recursos da série temporal e fazer previsões sobre as emoções e os níveis de engajamento do indivíduo.
Em outras pesquisas, como Costante et al.15, é proposta uma abordagem baseada em um novo algoritmo de aprendizado de métrica de transferência, que utiliza conhecimento prévio de um conjunto predefinido de gestos para aprimorar o reconhecimento de gestos definidos pelo usuário. Essa melhoria é alcançada com o mínimo de dependência de amostras de treinamento adicionais. Da mesma forma, uma estrutura de reconhecimento de atividade humana baseada em sensores16 é apresentada para abordar o objetivo do reconhecimento impessoal de atividades humanas complexas. Os dados de sinal coletados de sensores usados no pulso são utilizados na estrutura de reconhecimento de atividade humana desenvolvida, empregando quatro modelos DL baseados em RNN (Memórias de Longo e Curto Prazo, Memórias Bidirecionais de Longo e Curto Prazo, Unidades Recorrentes Fechadas e Unidades Recorrentes Fechadas Bidirecionais) para investigar as atividades realizadas pelo usuário do dispositivo vestível.
Este trabalho apresenta um sistema que mede o nível de atenção de um aluno em sala de aula usando câmeras, smartwatches e algoritmos de inteligência artificial. Essas informações são posteriormente apresentadas ao professor para que ele tenha uma ideia do estado geral da turma.
Uma das principais etapas críticas do protocolo é a sincronização das informações do smartwatch com a imagem da câmera colorida, pois estas possuem frequências diferentes. Isso foi resolvido implantando …
The authors have nothing to disclose.
Este trabalho foi desenvolvido com financiamento do Programa Prometeo, projeto ID CIPROM/2021/017. A Prof. Rosabel Roig é a presidente da UNESCO “Educação, Pesquisa e Inclusão Digital”.
4 GPUs Nvidia A40 Ampere | NVIDIA | TCSA40M-PB | GPU for centralized model processing server |
FusionServer 2288H V5 | X-Fusion | 02311XBK | Platform that includes power supply and motherboard for centralized model processing server |
Memory Card Evo Plus 128 GB | Samsung | MB-MC128KA/EU | Memory card for the operation of the raspberry pi 4b 2gb. One for each raspberry. |
NEMIX RAM – 512 GB Kit DDR4-3200 PC4-25600 8Rx4 EC | NEMIX | M393AAG40M32-CAE | RAM for centralized model processing server |
Processor Intel Xeon Gold 6330 | Intel | CD8068904572101 | Processor for centralized model processing server |
Raspberry PI 4B 2GB | Raspberry | 1822095 | Local server that receives requests from the clocks and sends them to the general server. One every two students. |
Samsung Galaxy Watch 5 (40mm) | Samsung | SM-R900NZAAPHE | Clock that monitors each student's activity. For each student. |
Samsung MZQL23T8HCLS-00B7C PM9A3 3.84Tb Nvme U.2 PCI-Express-4 x4 2.5inch Ssd | Samsung | MZQL23T8HCLS-00B7C | Internal storage for centralized model processing server |
WebCam HD Pro C920 Webcam FullHD | Logitech | 960-001055 | Webcam HD. One for each student plus two for student poses. |