SPEAKY Acutattile

Programma di finanziamento 
(e relativo sottoprogramma)
Programma Industria 2015 del MISE
Durata 1 giugno 2011 – 30 aprile 2015
Partecipanti Fondazione Ugo Bordoni
Università di Roma “La Sapienza”
Università degli Studi di Palermo
CNR-ISTC
CSP
Cultorale; GESI; GRAFIDATA; KIR; Konvergence; Loquendo; Mediavoice; Netlearn

Il progetto Speaky Acutattile si propone di abbattere il digital divide e, in particolare, la barriera costituita dalle interfacce grafiche, le quali, richiedendo l’apprendimento di molte convenzioni generali e la contemporanea disponibilità visiva e manuale, impediscono l’accesso al mondo digitale e a Internet di molte persone non alfabetizzate con la tecnologia, come anziani, oppure affette da disabilità, come non vedenti e disabili motori.

La piattaforma digitale di sistemi e servizi innovativi proposti da Speaky Acutattile risponde appieno ai requisiti di base dell’utente finale. Essa è orientata al miglioramento della qualità dell’abitare per tutti, ma soprattutto facilita significativamente l’accesso e il controllo di contenuti e servizi digitali.

La piattaforma è perciò costituita da vari moduli: il modulo domotica per la gestione della casa (elettrodomestici, utenze, comunicazioni, sicurezza, privacy, ecc.); il modulo di e-learning per ricevere istruzioni sul sistema e supporto per la didattica; il modulo Avatar (il front-end o mediatore con volto umano); il modulo di riconoscimento del parlante per la sicurezza e la privacy; il modulo di monitoraggio posturale e di telemedicina; il modulo CMS di comunicazione generale, coadiuvato da un servizio specializzato di call center a cui vengono indirizzate le richieste che l’interfaccia vocale eventualmente non riesce a soddisfare.

Obiettivo del progetto è realizzare un prototipo dimostrabile relativo ad una piattaforma abilitante costituita da sistemi Hardware e Software volta a permettere nuove modalità di accesso, sia dall’interno della casa/ufficio sia in mobilità, ad una serie di servizi quali quelli di domotica, di media center, di assistenza. La piattaforma sarà composta da diversi moduli Hardware, Software e di Servizi e l’architettura della piattaforma sarà di tipo client/server.

Lato client: vi sarà un box “PC like” dotato di un Avatar con la più avanzata tecnologia di riconoscimento e sintesi vocale, accessibile a voce attraverso uno speciale e innovativo dispositivo wireless multifunzione, cuore della nuova piattaforma, che funge da telecomando/telefono ma soprattutto è un nuovo dispositivo di input/output “mouse like”, che facilita l’interazione a tutti, in particolare a ipovedenti e non vedenti.

La FUB è responsabile dell’interfaccia vocale del sistema (VUI).

In particolare nel 2014:

  • è stato realizzato il DB relativo ad un corpus di dialogo uomo-macchina interamente trascritto ed opportunamente annotato;
  • è stato realizzato il SW di dialogo uomo-macchina;
  • è stata effettuata una prima valutazione del prodotto SPEAKY Acutattile.

Un primo obiettivo della sperimentazione condotta da FUB nell’anno 2014 è stato l’analisi del corpus vocale e lessicale di parlato italiano semi-spontaneo raccolto nel 2013. L’insieme delle registrazioni effettuate è stato segmentato in sezioni audio e video in corrispondenza dei diversi compiti effettuati dagli utenti, e classificato in modo da poter facilmente reperire il materiale di uno specifico utente realizzato attraverso uno specifico canale di registrazione (video, microfonico, telefonico, ecc.). Tutto il materiale è stato annotato e trascritto evidenziando sia la turnazione tra l’utente ed il sistema, sia quanto esplicitamente pronunciato dall’utente ed integrando, quando necessario, anche con annotazioni paralinguistiche che ne descrivono eventuali esitazioni, emozioni, stati d’animo, e quanto altro. L’insieme di questi dati, segnale vocale e trascrizione, costituisce quanto necessario agli altri partner, ed in futuro ad altri centri di ricerca o aziende, che volessero operare studi su l’interazione automatica uomo-macchina attraverso la voce.

Parallelamente alle attività sopra descritte, è stato realizzato un software per la reale attuazione di dialogo uomo-macchina utilizzando come riconoscitore del parlato (ASR - Automatic Speech Recognition) un riconoscitore di parlato continuo, nella fattispecie quello fornito liberamente da Google, e quello ceduto in valutazione dalla ditta CEDAT 84. È stato definito un protocollo attraverso il quale le diverse tecnologie vocali (riconoscimento del parlato, sintesi vocale, avatar, ecc.) possono operare e scambiare dati con il nostro software di gestione del dialogo. I contenuti e le modalità operative del dialogo possono essere definite riempiendo opportunamente delle tabelle Excel che ne definiscono le parole chiave da riconoscere, le frasi di comunicazione all’utente, le azioni che il sistema deve compiere in relazione a quanto riconosciuto e così via. In questo modo chiunque, senza necessità di conoscere linguaggi di programmazione o standard di interazione, può compilare le tabelle per realizzare un compito da eseguirsi esclusivamente attraverso un’interazione automatica vocale tra l’utente ed il sistema. L’intero sistema può funzionare su un personal computer in ambiente operativo Windows, OS e Linux garantendo massima flessibilità e richiede un accesso a Internet per sfruttare eventuali servizi di tecnologie vocale distribuiti (come ad esempio l’ASR di Google).

Sulla piattaforma Speaky si è realizzato un sistema di dialogo che consente all’utente di svolgere, con la propria voce, alcuni compiti comuni come controllare l’ambiente domestico, compresi i sistemi multimediali, prenotare un viaggio in aereo, ecc.

Diversamente dai sistemi oggi in commercio e utilizzati in semplici servizi, una prerogativa della piattaforma realizzata è che questa è in grado di capire e rispondere direttamente alle domande dell’utente usando frasi in linguaggio naturale, e non semplici parole o comandi.