Vincitore al secondo posto:

Dee - DeepLens Educating Entertainer

Ispirazione

I bambini, così come adulti con particolari disturbi dell’apprendimento, possono far difficoltà a interagire con i dispositivi elettronici. Potrebbero non essere in grado di leggere lo schermo di un tablet, utilizzare la tastiera di un computer o parlare in modo chiaro così da poter utilizzare il riconoscimento vocale. Ma tutto ciò può cambiare grazie al riconoscimento video. La tecnologia è ora capace di comprendere il mondo dei bambini e scoprire quando fanno qualcosa, come raccogliere un oggetto o eseguire un’azione. Questo porta a modi completamente nuovi di interagire.

DeepLens è particolarmente utile per le interazioni tra bambini perché esegue i suoi modelli per l’apprendimento approfondito in modalità offline. Ciò significa che il dispositivo può essere utilizzato ovunque, senza costi aggiuntivi e senza problemi relativi alla privacy dei dati raccolti sui bambini stessi.

Cosa fa

Dee (DeepLens Educating Entertainer) pone delle domande parlando. Il dispositivo chiede ai partecipanti di mostrare qualcosa. Le domande (in file JSON e facilmente estendibili) prevedono uno di quattro animali (uccello, mucca, cavallo e pecora) o quattro mezzi di trasporto (aeroplano, bicicletta, autobus e moto). Altre domande prevedono una risposta singola (per esempio, “Cosa fa muu?”) e altre ne prevedono molte di più (per esempio, “Cosa ha le ruote?”). Ad ogni risposta corretta si riceve una lode, mentre dopo una risposta scorretta il dispositivo comincerà a dare dei suggerimenti per ottenere quella corretta. (Ciò permette di stabilire un’interazione e dare un supporto positivo piuttosto che rappresentare un quiz difficoltoso).

I partecipanti rispondono alle domande mostrando a Dee l’immagine corrispondente alla risposta. Il repository GitHib include un PDF di immagini che possono essere scaricate per le attività.

Creato da: Matthew Clark

Per ulteriori informazioni su Matthew e il progetto DEE, consulta questo post sul blog del machine learning di AWS.

Come l’ho realizzato

Non ho dovuto creare un nuovo modello per DeepLens, perché quello predefinito, deeplens-object-detection funzionava perfettamente per gli scopi di Dee. In questo modo, ho potuto concentrarmi sulla logica in Lambda.

Una funzione Lambda, eseguita sul dispositivo DeepLens (attraverso Greengrass, ovviamente) si occupa delle interazioni. Sceglie una domanda a caso, la pronuncia e dopo analizza la risposta modello per rilevare se l’utente ha risposto. Molti messaggi come “Facciamolo di nuovo!” e “Ottima scelta!” aiutano il partecipante ad avere sensazioni positive circa l’attività e a rimanere coinvolto.

Dee è progettato per funzionare senza un accesso a una rete Wi-Fi (per far sì che non vi siano costi aggiuntivi, problemi legati alla connessione o preoccupazioni relative alla privacy). È stato delicato permetterlo perché il dispositivo utilizza Amazon Polly. Per risolvere questo problema, ho realizzato uno script che catturasse tutte le frasi richieste e le salvasse in locale. Ciò significa che Lambda include 69 file MP3.

Difficoltà

All’inizio volevo che i bambini mostrassero a Dee i loro giocattoli, piuttosto che delle immagini. Scegliere un aeroplano giocattolo o una pecorella di peluche sarebbe stato più eccitante che scegliere delle immagini. Ma durante i test, il modello per il riconoscimento degli oggetti non riconosceva i giocattoli perché sono troppo diversi dalle loro controparti reali. Un aeroplano giocattolo è semplicemente molto diverso da uno reale, a quanto pare. La soluzione sarebbe potuta essere addestrare il modello a riconoscere i giocattoli, ovviamente, ma non sono riuscito a trovare un set di dati abbastanza grande e decente per questo scopo. Questo è decisamente qualcosa su cui lavorare in futuro.

Risultati di cui vado fiero

Sono impressionato da come questa forma di interazione funzioni davvero. Come vedrai dal video YouTube, abbiamo provato Dee con il mio bambino di tre anni e lui ne va pazzo. Mi chiede sempre di giocarci di nuovo. Questo è solo un prototipo ma per lui va benissimo.

Sono anche molto eccitato di vedere come gli aspetti per l’incoraggiamento positivo possono aiutare bambini con autismo o la sindrome di Asperger.

Cosa ho imparato

Questo progetto mi ha permesso di aggiornarmi con i concetti relativi all’apprendimento approfondito e l’approccio di AWS nella gestione ed esecuzione degli stessi (attraverso SageMaker e Greengrass).

Tecnicismi a parte, ho scoperto il potenziale della tecnologia nella comprensione sempre maggiore del mondo umano. Il riconoscimento video intelligente permette ai bambini di giocare in nuovi modi e imparare cose nuove.

Il futuro di Dee

Il potenziale di Dee è enorme. Potrebbe imparare a riconoscere molte più cose e potrebbe chiedere molte più domande. Immagina:

“Puoi alzare tre dita?” (per testare le capacità di computazione)
“Fammi vedere un bel sorrisone!”
“Puoi fare un salto a stella?”
“Quale di queste è la lettera A?”
“Mi fai vedere il tuo gioco preferito?”

Ovviamente sarà necessario addestrare nuovi modelli. E con servizi quali SageMaker che rendono l’addestramento più lineare, credo che gli utenti finali potranno essere capaci di addestrare i propri modelli. Un insegnate, per esempio, potrebbe addestrare Dee a riconoscere certi oggetti presenti nella classe. Un professionista sanitario potrebbe addestrare Dee a rispondere di fronte a oggetti specifici che sono importanti per un individuo con autismo.

Infine, ci sono molti altri miglioramenti nella logica da apportare. Sarebbe possibile fare in modo che Dee tenga traccia dei progressi dell’utente così che sappia riconoscere, per esempio, a che punto si è con l’apprendimento dell’alfabeto? Sarebbe possibile fare in modo che Dee riconosca persone diverse così da poter dare sfide diverse? Le possibilità sono infinite.

Creato con

DeepLens
Lambda
Greengrass
Python
Polly

Fai una prova