Visual
Text Mining: non è una magia
Ne
parliamo con
Andreas
Becks, Responsabile progetto SWAPit - Fraunhofer Institute for
Applied Information Technology di Sankt Augustin
|
|
Grazie
a SWAPit, la ricerca secondo logiche descrittive appare più
concreta. Ma restono critici i tempi di raccolta delle informazioni
e la loro categorizzazione. Come questa applicazione di text mining
interviene su questo?
|
|
|
|
|
La fase di raccolta delle informazioni è sicuramente una criticità.
Del resto più informazioni inserisci maggiori sono i dati a cui
attingere per avere poi, in fase di ricerca, una risposta che sia il più
precisa possibile. Questa precisione viene anche assicurata dalla precisione
della domanda stessa. Basta pensare ai tradizionali motori di ricerca:
per avere un risultato coerente è importante fare la domanda esatta
usando le parole giuste. Questo presuppone che l'utente, chi ricerca,
ha ben chiaro quello che gli serve. se non c'è chiarezza nella
formulazione della domanda, diventa più difficile arrivare ad un
risultato preciso. In questo senso vengono in aiuto le categorie, che
sono appunto modalità di semplificazione di contenuti. Per gli
uffici strumenti costruiti per categorie sono ad esempio, i cataloghi
o anche i codici categorie. La categoria viene però creata da un
singolo addetto quindi potrebbe succedere che altri intendano la categoria
in maniera diversa.
|
|
Quali
opportunità offre il text mining in questo senso?
|
|
|
|
|
E'
una tecnologia che può essere di aiuto sia a chi ricerca le informazioni
sia a chi si occupa di categorizzarle. In ogni caso se non si hanno informazioni
precise su quello che si sta cercando allora si utilizza il il text
mining, se si hanno dati e informazioni certe come l'oggetto, il titolo
o la categoria di ciò che si cerca a quel punto si utilizza il
desktop search. Ovvio che in ogni caso l'utente deve riflettere
sulle informazioni ma viene aiutato grazie ad uno strumento che dà
una visione più ampia e un accesso più rapido delle informazioni
stesse. Attenzione che non c'è trucco, non è una magia ma
un percorso di ricerca semantico.
|
|
Gli
uffici pubblici hanno già diversi strumenti di gestione dei
dati e delle informazioni dai documenti agli archivi ben strutturati
e ormai consolidati. Come si recupera l'esistente con il text mining?
|
|
|
|
|
Nel
proporre la nostra soluzione il primo passo da fare è analizzare
i processi interni all'amministrazione in questione e capirne le logiche
di accesso all'informazione. E sbagliato pensare che solo perchè
si acquista una soluzione tecnologica "dallo scaffale" questa
vada a buon fine subito e comunque. Noi tendiamo a capire subito che tipo
di informazioni servono, a chi servono e dove si trovano. Solo a questo
punto è possibile decidere con precisione dove utilizzare il text
mining, quali banche dati utilizzare e quali sono le eventuali tecnologie
con cui interfacciarsi. E' necessaria cioè, un'analisi del processo
di business senza toccare, almeno all'inizio, i dati. Questa è
la vera sfida del web semantico: a prescindere dai dati e dalle quantità,
va capito chi vi accede e quali sono le differenze. Ecco spiegata la necessità
di categorie e ontologie.
|
|
Anche
il text mining parte dai contenuti del testo ma possiamo dire che
"ragiona" sul testo?
|
|
|
|
|
Non
lo definieri ragionare nel senso tecnico perchè questo implicherebbe
una descrizione logica. Ovviamente è possibile ma è necessario
avere queste sottorappresentazioni logiche. Il punto è che con
il text mining resta importante il ricorso alla statistica e al confronto
che questa permette. Ad esempio permette di contare le parole ma anche,
sulla base di dizionari prelavorati, permette di conoscere i testi correlati,
e poi, confrontare a livello statistico.
|
|
Quali
sono i principali ambiti applicativi?
|
|
|
|
|
Le
applicazioni sono tante. Una delle prime è stata quella dall'ingegneria
software. In genere quando costruisci un software ne descrivi lo scenario
di sviluppo in un linguaggio naturale. Questo consente all'ingegnere di
raggruppare insieme tutte le applicazioni pertinenti. Anche le compagnie
di assicurazione possono avere vantaggi ad esempio nella gestion e della
propria clientela. I loro database raccolgono informazioni molto diverse
sui clienti dal numero di contratto a specifiche sociodemografiche. Grazie
al text mining potrebbero individuare quale gruppo di clienti può
rescindere dalla poliza e perchè, si possono anche confrontare
i dati e individuare gruppi di clienti che lamentano cose simili. tutto
questo facilita gli addetti al rapporto con i clienti nell' individuare
le stretegie idonee. Nel settore pubblico poi le applicazioni sono molteplici:
ad esempio notizie importanti per il corpo dellla polizia potrebbero essere
raggruppate sulla base di quelli che sono gli argomenti più importanti
e scottanti. O ancora nelle scienze sociali si sta lavorando all'elaborazione
di un dizionario dei termini utilizzato dagli scienziati che operano a
livello multidisciplinare.
|
|
I
motori di ricerca tradizionali come mai non ragionano in termini
di logiche descrittive?
|
|
|
|
|
Fondamentalmente
c'è stata una lunga tradizione di statistiche: i motori di ricerca
tradizionali non capiscono il testo ma contano i simboli nel testo. Le
logiche descrittive possono aiutare se non altro a capire una parte del
testo. Non voglio sostenere che sono pronte a essere utilizzate sul web
ma di certo lo sono per specifici campi applicativi come la pubblica amministrazione.
|
|
|
|
|
Perchè
è possibile modellare le relazioni e i concetti. A questo punto
i dati sono stati resi accessibili grazie alle ontologie.
|
|
Uno strumento come il text mining dovrebbe camminare di pari passo
alle attività di digitalizzazione degli archivi. Quali differenze
ha riscontrato in questo senso nei paesi europei?
|
|
|
|
|
Le
differenze ci sono a livello di nazione ma anche di singola amministrazione
e settore Poche settimane fa sono andato a visitare una società
completamente informatizzata. Questo non vuol dire che non circoli la
carta. Solo che circola al minimo indispensabile, dove è utile
produrla. Analizzati i processi, individuati i flussi di informazione
in questa società hanno poi impostato dei dispositivi di stampa
multifunzionali in carico ad un'area specifica dell'amministrazione per
cui all'arrivo di una lettera questa viene subito informatizzata, instradata
al destinatario in via elettronica e solo dopo che si è prodotta
una risposta la stessa lettera verrà mandata all'ufficio che provvederà
alla stampa, unica! Questa è un'eccellenza ma in altri casi non
è così. Certo nel caso di strutture con oltre trentanni
di vita non solo la quantità di carta già prodotta occupa
chissà quale spazio negli archivi ma cambiano anche le procedure
interne o anche gli adempimenti burocratici a cui è necessario
attenersi. Ricordiamoci che l'essere umano non è fatto per lavorare
in maniera informatica. Ma di certo il passaggio dal cartaceo al digitale
è necessario per un reperinmento più veloce e semplice delle
informazioni. E la tecnologia per far questo esiste e si può comprare.
|