Questo articolo propone un sistema basato sull’intelligenza artificiale per rilevare automaticamente se gli studenti stanno prestando attenzione alla classe o sono distratti. Questo sistema è progettato per aiutare gli insegnanti a mantenere l’attenzione degli studenti, ottimizzare le loro lezioni e introdurre dinamicamente modifiche in modo che siano più coinvolgenti.
Il livello di attenzione degli studenti in classe può essere migliorato attraverso l’uso di tecniche di Intelligenza Artificiale (AI). Identificando automaticamente il livello di attenzione, gli insegnanti possono utilizzare strategie per ritrovare la concentrazione degli studenti. Ciò può essere ottenuto attraverso varie fonti di informazione.
Una fonte è analizzare le emozioni riflesse sui volti degli studenti. L’intelligenza artificiale è in grado di rilevare emozioni come quelle neutre, il disgusto, la sorpresa, la tristezza, la paura, la felicità e la rabbia. Inoltre, la direzione dello sguardo degli studenti può anche potenzialmente indicare il loro livello di attenzione. Un’altra fonte è osservare la postura del corpo degli studenti. Utilizzando telecamere e tecniche di deep learning, la postura può essere analizzata per determinare il livello di attenzione. Ad esempio, gli studenti che sono ciondolanti o appoggiano la testa sui banchi possono avere un livello di attenzione inferiore. Gli smartwatch distribuiti agli studenti possono fornire dati biometrici e di altro tipo, tra cui misurazioni della frequenza cardiaca e inerziali, che possono essere utilizzati anche come indicatori di attenzione. Combinando queste fonti di informazioni, è possibile addestrare un sistema di intelligenza artificiale a identificare il livello di attenzione in classe. Tuttavia, l’integrazione dei diversi tipi di dati rappresenta una sfida che richiede la creazione di un set di dati etichettato. Per un’etichettatura accurata vengono consultati i contributi degli esperti e gli studi esistenti. In questo articolo, proponiamo l’integrazione di tali misurazioni e la creazione di un set di dati e di un potenziale classificatore di attenzione. Per fornire un feedback all’insegnante, esploriamo vari metodi, come smartwatch o computer diretti. Una volta che l’insegnante diventa consapevole dei problemi di attenzione, può adattare il proprio approccio didattico per coinvolgere e motivare nuovamente gli studenti. In sintesi, le tecniche di intelligenza artificiale possono identificare automaticamente il livello di attenzione degli studenti analizzando le loro emozioni, la direzione dello sguardo, la postura del corpo e i dati biometrici. Queste informazioni possono aiutare gli insegnanti a ottimizzare il processo di insegnamento-apprendimento.
Nei moderni contesti educativi, valutare accuratamente e mantenere l’attenzione degli studenti è fondamentale per un insegnamento e un apprendimento efficaci. Tuttavia, i metodi tradizionali di misurazione del coinvolgimento, come l’autovalutazione o le osservazioni soggettive dell’insegnante, richiedono molto tempo e sono soggetti a distorsioni. Per affrontare questa sfida, le tecniche di intelligenza artificiale (AI) sono emerse come soluzioni promettenti per il rilevamento automatizzato dell’attenzione. Un aspetto significativo della comprensione dei livelli di coinvolgimento degli studenti è il riconoscimento delle emozioni1. I sistemi di intelligenza artificiale possono analizzare le espressioni facciali per identificare le emozioni, come il neutro, il disgusto, la sorpresa, la tristezza, la paura, la felicità e la rabbia2.
Anche la direzione dello sguardo e la postura del corpo sono indicatori cruciali dell’attenzione degli studenti3. Utilizzando telecamere e algoritmi avanzati di apprendimento automatico, i sistemi di intelligenza artificiale possono tracciare con precisione dove stanno guardando gli studenti e analizzare la postura del loro corpo per rilevare segni di disinteresse o affaticamento4. Inoltre, l’incorporazione di dati biometrici migliora l’accuratezza e l’affidabilità del rilevamento dell’attenzione5. Raccogliendo misurazioni, come la frequenza cardiaca e i livelli di saturazione di ossigeno nel sangue, attraverso gli smartwatch indossati dagli studenti, è possibile ottenere indicatori oggettivi di attenzione, a complemento di altre fonti di informazione.
Questo articolo propone un sistema che valuta il livello di attenzione di un individuo utilizzando telecamere a colori e altri sensori diversi. Combina il riconoscimento delle emozioni, l’analisi della direzione dello sguardo, la valutazione della postura del corpo e i dati biometrici per fornire agli educatori un set completo di strumenti per ottimizzare il processo di insegnamento-apprendimento e migliorare il coinvolgimento degli studenti. Utilizzando questi strumenti, gli educatori possono acquisire una comprensione completa del processo di insegnamento-apprendimento e migliorare il coinvolgimento degli studenti, ottimizzando così l’esperienza educativa complessiva. Applicando tecniche di intelligenza artificiale, è persino possibile valutare automaticamente questi dati.
L’obiettivo principale di questo lavoro è quello di descrivere il sistema che ci permette di catturare tutte le informazioni e, una volta catturate, di addestrare un modello di AI che ci permetta di ottenere l’attenzione di tutta la classe in tempo reale. Sebbene altri lavori abbiano già proposto di catturare l’attenzione utilizzando informazioni visive o emotive6, questo lavoro propone l’uso combinato di queste tecniche, che fornisce un approccio olistico per consentire l’uso di tecniche di intelligenza artificiale più complesse ed efficaci. Inoltre, i set di dati finora disponibili sono limitati a un insieme di video o a dati biometrici. La letteratura non include set di dati che forniscano dati completi con immagini del volto o del corpo dello studente, dati biometrici, dati sulla posizione dell’insegnante, ecc. Con il sistema qui presentato, è possibile acquisire questo tipo di set di dati.
Il sistema associa un livello di attenzione a ogni studente in ogni momento. Questo valore è un valore di probabilità di attenzione compreso tra 0% e 100%, che può essere interpretato come un livello di attenzione basso (0%-40%), un livello di attenzione medio (40%-75%) e un livello di attenzione alto (75%-100%). In tutto il testo, questa probabilità di attenzione è indicata come il livello di attenzione, l’attenzione degli studenti o se gli studenti sono distratti o meno, ma questi sono tutti correlati allo stesso valore di output del nostro sistema.
Nel corso degli anni, il campo del rilevamento automatico del coinvolgimento è cresciuto in modo significativo grazie al suo potenziale di rivoluzionare l’istruzione. I ricercatori hanno proposto vari approcci per quest’area di studio.
Ma et al.7 hanno introdotto un nuovo metodo basato su una macchina di Turing neurale per il riconoscimento automatico dell’impegno. Hanno estratto alcune caratteristiche, come lo sguardo, le unità di azione facciale, la posa della testa e la posa del corpo, per creare una rappresentazione completa del riconoscimento del coinvolgimento.
EyeTab8, un altro sistema innovativo, utilizzava modelli per stimare dove qualcuno sta guardando con entrambi gli occhi. È stato realizzato appositamente per funzionare senza problemi su un tablet standard senza modifiche. Questo sistema sfrutta algoritmi ben noti per l’elaborazione delle immagini e l’analisi della visione artificiale. La loro pipeline di stima dello sguardo include un rilevatore oculare basato su caratteristiche simili a quelle di Haar, nonché un approccio di adattamento dell’ellisse del limbus basato su RANSAC.
Sanghvi et al.9 propongono un approccio che si basa su tecniche basate sulla visione per estrarre automaticamente le caratteristiche posturali espressive dai video registrati da una vista laterale, catturando il comportamento dei bambini. Viene condotta una valutazione iniziale, che prevede l’addestramento di più modelli di riconoscimento utilizzando espressioni posturali affettive contestualizzate. I risultati ottenuti dimostrano che i modelli di comportamento posturale possono prevedere efficacemente l’impegno dei bambini con il robot.
In altri lavori, come Gupta et al.10, viene impiegato un metodo basato sul deep learning per rilevare il coinvolgimento in tempo reale degli studenti online analizzando le loro espressioni facciali e classificando le loro emozioni. L’approccio utilizza il riconoscimento delle emozioni facciali per calcolare un indice di coinvolgimento (EI) che prevede due stati di coinvolgimento: coinvolto e disimpegnato. Vari modelli di deep learning, tra cui Inception-V3, VGG19 e ResNet-50, vengono valutati e confrontati per identificare il modello di classificazione predittiva più efficace per il rilevamento del coinvolgimento in tempo reale.
In Altuwairqi et al.11, i ricercatori presentano un nuovo approccio multimodale automatico per valutare i livelli di coinvolgimento degli studenti in tempo reale. Per garantire misurazioni accurate e affidabili, il team ha integrato e analizzato tre modalità distinte che catturano i comportamenti degli studenti: espressioni facciali per le emozioni, sequenze di tasti della tastiera e movimenti del mouse.
Guillén et al.12 propongono lo sviluppo di un sistema di monitoraggio che utilizza l’elettrocardiografia (ECG) come segnale fisiologico primario per analizzare e prevedere la presenza o l’assenza di attenzione cognitiva negli individui durante l’esecuzione di un compito.
Alban et al.13 utilizzano una rete neurale (NN) per rilevare le emozioni analizzando i valori della frequenza cardiaca (HR) e dell’attività elettrodermica (EDA) di vari partecipanti sia nel dominio del tempo che in quello della frequenza. Hanno scoperto che un aumento del quadrato medio delle differenze successive (RMSDD) e degli intervalli di deviazione standard da normale a normale (SDNN), insieme a una diminuzione della FC media, indicano un’elevata attività nel sistema nervoso simpatico, che è associata alla paura.
Kajiwara et al.14 propongono un sistema innovativo che impiega sensori indossabili e reti neurali profonde per prevedere il livello di emozione e coinvolgimento nei lavoratori. Il sistema segue un processo in tre fasi. Inizialmente, i sensori indossabili acquisiscono e raccolgono dati sui comportamenti e sulle onde del polso. Successivamente, le caratteristiche delle serie temporali vengono calcolate in base ai dati comportamentali e fisiologici acquisiti. Infine, le reti neurali profonde vengono utilizzate per inserire le caratteristiche delle serie temporali e fare previsioni sulle emozioni e sui livelli di coinvolgimento dell’individuo.
In altre ricerche, come Costante et al.15, viene proposto un approccio basato su un nuovo algoritmo di apprendimento metrico di trasferimento, che utilizza la conoscenza preliminare di un insieme predefinito di gesti per migliorare il riconoscimento dei gesti definiti dall’utente. Questo miglioramento si ottiene con un ricorso minimo a campioni di formazione aggiuntivi. Allo stesso modo, viene presentato un quadro di riconoscimento dell’attività umana basato su sensori16 per affrontare l’obiettivo del riconoscimento impersonale di attività umane complesse. I dati del segnale raccolti dai sensori indossati al polso vengono utilizzati nel framework di riconoscimento dell’attività umana sviluppato, impiegando quattro modelli DL basati su RNN (Long-Short Term Memories, Bidirectional Long-Short Term Memories, Gated Recurrent Units e Bidirectional Gated Recurrent Units) per indagare le attività svolte dall’utente del dispositivo indossabile.
Questo lavoro presenta un sistema che misura il livello di attenzione di uno studente in una classe utilizzando telecamere, smartwatch e algoritmi di intelligenza artificiale. Queste informazioni vengono successivamente presentate all’insegnante per fargli avere un’idea dello stato generale della classe.
Uno dei principali passaggi critici del protocollo è la sincronizzazione delle informazioni dello smartwatch con l’immagine della telecamera a colori, poiché queste hanno frequenze diverse. …
The authors have nothing to disclose.
Questo lavoro è stato sviluppato con il finanziamento di Programa Prometeo, ID progetto CIPROM/2021/017. La Prof.ssa Rosabel Roig è titolare della cattedra UNESCO “Educazione, Ricerca e Inclusione Digitale”.
4 GPUs Nvidia A40 Ampere | NVIDIA | TCSA40M-PB | GPU for centralized model processing server |
FusionServer 2288H V5 | X-Fusion | 02311XBK | Platform that includes power supply and motherboard for centralized model processing server |
Memory Card Evo Plus 128 GB | Samsung | MB-MC128KA/EU | Memory card for the operation of the raspberry pi 4b 2gb. One for each raspberry. |
NEMIX RAM – 512 GB Kit DDR4-3200 PC4-25600 8Rx4 EC | NEMIX | M393AAG40M32-CAE | RAM for centralized model processing server |
Processor Intel Xeon Gold 6330 | Intel | CD8068904572101 | Processor for centralized model processing server |
Raspberry PI 4B 2GB | Raspberry | 1822095 | Local server that receives requests from the clocks and sends them to the general server. One every two students. |
Samsung Galaxy Watch 5 (40mm) | Samsung | SM-R900NZAAPHE | Clock that monitors each student's activity. For each student. |
Samsung MZQL23T8HCLS-00B7C PM9A3 3.84Tb Nvme U.2 PCI-Express-4 x4 2.5inch Ssd | Samsung | MZQL23T8HCLS-00B7C | Internal storage for centralized model processing server |
WebCam HD Pro C920 Webcam FullHD | Logitech | 960-001055 | Webcam HD. One for each student plus two for student poses. |