TAL 2010 - Il TAL come motore per l’innovazione

La Conferenza TAL 2010, come ha illustrato il Presidente del Forum TAL Giordano Bruno Guerri, si proponeva un obiettivo ambizioso: quello di creare un ponte tra cultura umanistica e cultura scientifica e tecnologica mediante una riflessione comune sulle lingue - con particolare attenzione alla lingua italiana - e  la loro evoluzione nel panorama tecnologico costituito dalle nuove tecnologie digitali.

Una riflessione interdisciplinare e multidimensionale che ha consentito di approfondire contemporaneamente aspetti puramente linguistici, applicazioni tecnologiche e prospettive di mercato connesse al trattamento automatico del linguaggio. Un'attenzione particolare è stata data alle possibili applicazioni in due settori particolarmente importanti per l'innovazione e lo sviluppo economico del Paese: la PA e l'editoria.

I temi centrali del TAL 2010 sono stati delineati negli interventi di apertura di Stefano Aprile (Ministero della Giustizia) - che ha illustrato i  vantaggi dell'applicazione del TAL alle procedure giudiziarie in termini di riduzione dei costi e di miglioramento del servizio - e di Pierluigi Ridolfi (Amici dell'Accademia dei Lincei), che ha sottolineato l'utilità di una collaborazione tra accademia e mondo economico.

L'importanza del TAL come strumento per migliorare l'interazione uomo-macchina è stata al centro dell'intervento di Francesco Passerini Glazel (Osservatorio TuttiMedia) e di Robert Castrucci (Fondazione Ugo Bordoni). Il primo ha definito il TAL come un luogo di "cross fertilization", sottolineandone la valenza interdisciplinare. Il secondo ha focalizzato il proprio intervento sull'applicazione del TAL alla gestione dei contenuti: in questo ambito la FUB, insieme alla RAI e ad altri partner, ha promosso un progetto per la digitalizzazione delle teche RAI che prevede anche lo sviluppo di tecnologie TAL da applicare ai contenuti audiovisivi.

Luigi Rocchi (RAI) ha illustrato il progetto Hyper Media News, che si è aggiudicato il Premi Innovazione nell'ICMT 2010. Hyper Media News è un'applicazione per il riconoscimento dei contenuti trasmessi in TV e la produzione di rassegne-stampa multimediali. L'applicazione rende possibile un'analisi cross-mediale che consente di vedere come lo stesso contenuto venga trattato su mezzi diversi, rilevandone anche il gradimento da parte del pubblico. La RAI utilizza il TAL soprattutto per fornire servizi specifici come l'audio rallentato, il televideo parlante e la lettura del teletext (in lingue diverse) per gli ipovedenti.

Sull'evoluzione della lingua italiana e sulle possibili strategie perseguibili per la tutela e la promozione del patrimonio linguistico italiano, hanno discusso Paola Frassinetti (Camera dei Deputati) e Nicoletta Maraschio (Accademia della Crusca)(Slide). La prima ha illustrato il disegno di legge presentato al Senato (disegno di legge N. 993), che propone l'istituzione di un Consiglio Superiore della Lingua Italiana: "non un orpello burocratico e un'imposizione autoritaria, ma uno strumento di raccordo" la cui funzione consista: nella sensibilizzazione delle scuole, nella tutela dell'italiano all'interno dell'UE e nella promozione dell'Italiano come strumento di integrazione. Con questo organo si aspira ad arginare una "situazione di emergenza" e di "degrado linguistico" derivata dalla combinazione di tre fenomeni: un eccessivo impiego dei dialetti (che va ben oltre l'esigenza di tutela degli stessi); l'eccessiva presenza di termini inglesi nel vocabolario italiano; l'effetto del linguaggio imposto dai mezzi di informazione.  Diversa la posizione della Maraschio, secondo la quale "la promozione della lingua si fa non con la difesa e la tutela ma con una strategia di attacco, soprattutto in ambito europeo". Multilinguismo e applicazione dell'informatica al linguaggio sono, in questo senso, due temi fondamentali e, paradossalmente, per nulla scontati all'interno dei convegni internazionali dedicati alla promozione della lingua. Il multilinguismo, in particolare, costituisce un presupposto essenziale per la realizzazione dell'interculturalità, poiché non si può comprendere una cultura se non ci si sforza di conoscerne la lingua. Citando alcuni dei documenti di riferimento in questo ambito (il Quadro comune di riferimento per le lingue - 2001 e il Rapporto Maalouf - 2008), la Maraschio ha spiegato che affinché si arrivi ad un'Europa multilingue è necessario che ogni cittadino europeo sia almeno  trilingue (lingua madre + lingua segretaria, ossia l'Inglese, + lingua sposa).  L'Italia è molto indietro su questa strada perché sono molto poche le scuole superiori in cui si insegnano due lingue europee. Tra le iniziative dell'Accademia per promuovere  una rinnovata coscienza linguistica è stata citata "La Piazza delle lingue", sul tema del multilinguismo europeo. Per quanto riguarda l'applicazione dell'informatica alla lingua italiana è in corso una convenzione tra l'Accademia della Crusca e il CNUCE per il rinnovamento del vocabolario italiano. Il Vocabolario è in sé un database: costruirne una versione elettronica significa restituirgli vitalità: è questo lo spirito che anima l'OVI(Opera del Vocabolario Italiano), una banca dati che conserva anche i volgari. Altre iniziative interessanti sono: l'adesione alla Rete dell'Italiano Istituzionale (REI) e il Progetto Vivit Vivi Italiano, un archivio di materiali multimediali per la conoscenza del patrimonio linguistico italiano all'estero.

Una filosofia, quella del multilinguismo, che è alla base sia del Forum "Le sfide per l'Europa multilingue" (Bruxelles, 10-18 novembre 2010) promosso dal consorzio europeo META, sia del Settimo Programma Quadro, entrambi illustrati da Roberto Cencioni (CE) (Slide).  Una delle priorità per il  settore delle tecnologie linguistiche, ha affermato Cencioni, è di "fare comunità". È questo l' obiettivo del FORUM-META 2010, che si propone di costruire un'agenda di ricerca strategica per le Tecnologie della lingua e un sistema di networking per la condivisione delle conoscenze e delle esperienze (META-SHARE).

Il Settimo Programma Quadro prevede due bandi per progetti in ambito TAL:

  • Il primo (50 MIL), orientato alla ricerca, scade il prossimo 18 gennaio 2010. Il bando individua tre temi di ricerca: content processing; information access e mining; natural spoken interaction.

I progetti dovranno prevedere la creazione di consorzi che coinvolgano le imprese e dovranno essere orientati al multilinguismo (3 o più lingue).

Si potranno inviare bozze di proposte e chidere chiarimenti fino al 17 dicembre 2010.

I progetti partiranno nell'aprile 2011.

  • Il secondo bando (35 MIL) è orientato a favorire le PMI, ma ripropone la logica dei consorzi.

La partecipazione si svolge in due step: è possibile inviare una prima bozza di proposta (circa 5 pagine) e la proposta definitiva entro il 31 marzo 2011.

Per approfondimenti: http://cordis.europa.eu/fp7/ict/language-technologies/upcoming_en.html

In riferimento all'applicazione del TAL in ambito giudiziario, Alessandra Clemente (Ministero della Giustizia) ha illustrato alcune sperimentazioni in atto nell'ambito della verbalizzazione delle udienze. Questa procedura presenta, infatti, delle criticità che sono legate ai costi di trascrizione e stenotipia e alla frequente presenza di lacune nella trascrizione. Le sperimentazioni avviate in collaborazione con la Fondazione Ugo Bordoni sono volte all'introduzione di un verbale multimediale (audio + testo) in sostituzione dell'attuale verbale cartaceo. Tali verbali fanno uso della tecnologia ASR (Automatic Speech Recognition) per l'elaborazione dell'audio in corso di udienza e prevedono l'uso di un'interfaccia per la consultazione rapida, sulla base di criteri simili a quelli che caratterizzano gli altri browser.

La sperimentazione, che ha coinvolto i tribunali di Roma, Milano, Brindisi e Torino, ha visto la partecipazione di aziende quali Astrea, Cedat85, Pervoice e Art-co.

Nel corso della sessione coordinata dall'Ing. Sergio Caserta (Vanguard) (Considerazioni) è stata offerta un'ampia panoramica sull'evoluzione del customer care e dei servizi di contact center. Subito dopo gli interventi di Roberto Pieraccini (Speechcycle) (Slide), Alessandro Martino (Loquendo) (Slide) e di Valeria Sandei (Almawave Gruppo Almaviva) (Slide),  i rappresentanti di RAI (Slide), Loquendo, Pervoice (Slide), Synthema (Slide), Cedat 85, Interactive Media (Slide), FBK e CELCT (Slide 1, Slide 2) hanno presentato le principali novità in ambito di tecnologie vocali (LTTS, LASR; LSV), speech analytics, lexical e semantic analysis. Vale la pena sottolineare la centralità che la creazione di spin off e di consorzi hanno avuto in questo settore per creare una sinergia tra ricerca e mercato.

La tavola rotonda coordinata dall'Ing. Mario Frullone (Fondazione Ugo Bordoni), si è focalizzata soprattutto sule possibili applicazione del TAL nelle funzioni di contact center. Come hanno testimoniato i rappresentanti di INAIL, INPDAP e Agenzia delle Entrate, vi sono delle difficoltà legate all'esigenza di adeguare il servizio ad un pubblico molto vasto e differenziato, tuttavia l'automatizzazione attraverso tecniche di text to speech e riconoscimento vocale appare utile in una prospettiva di aumento dei servizi offerti tramite call center. Inoltre,  c'è un interesse da parte delle PA per le soluzioni di analisi semantica che va in due direzioni: quella dell'analisi delle informazioni provenienti dai call center (data mining) per correggere eventuali errori di comunicazione nei confronti degli utenti; e quella di un'analisi delle risposte dei cittadini sulla qualità del servizio (potrebbe essere una soluzione alternativa alla valutazione tramite faccine).

I concetti di rete semantica, ontologia e di web 3.0 sono stati al centro degli interventi di Marco de Gemmis, Pasquale Lops (Università di Bari) (Slide) e di Monica Monachini (CNR-ILC Pisa) (Slide).

Nel corso della tavola rotonda coordinata da Maria Pia Rossignaud, infine, sono state illustrate le possibili applicazioni del TAL all'editoria, che si sostanziano prevalentemente nella produzione di audiolibri. Ne è scaturito un dibattito sul diverso valore emozionale di una lettura affidata ad attori, rispetto alla lettura realizzata con tecniche di text to speech, per quanto oggi si sia parlato anche di TTS multilingue ed emozionale. Se è chiaro il vantaggio che un editore potrebbe trarre da queste applicazioni in termini di riduzione dei costi e differenziazione dei prodotti, tuttavia l'opinione degli editori è che la sintesi vocale potrà trovare applicazione prevalentemente nei settori dell'informazione e dell'e-learning che non nella produzione di audiolibri aventi ad oggetto la letteratura.

Nel corso della conferenza è stato assegnato il Premio Antonio Zampolli" a : Giulia Benotto, per la migliore tesi specialistica con argomento il Trattamento Automatico della Lingua per la tesi su "Semantic relation extraction and classification. Experiment on Wikipedia.it";  Albenzio Cirillo per la migliore tesi di Dottorato con argomento il Trattamento Automatico della Lingua per la tesi su "Robust acoustic source localisation in the presence of reverberation".

A conclusione delle due giornate, il Presidente del Forum TAL ha letto il saluto inviato dal Ministro per la Pubblica Amministrazione e l'Innovazione Renato Brunetta.

Al TAL 2010 e ai temi trattati nel suo svolgimento è stato dedicato ampio spazio nel numero 276 - Ottobre 2010 di Media 2000.

Serena Ferrara - Fondazione Ugo Bordoni