Quanto siamo felici dell’Italia? Ce lo dicono i big data di Twitter

di OPEN

L’Istat si è servito di big data provenienti dal social network per la sua ricerca sullo stato d’animo degli italiani rispetto l’andamento dell’economia. Tramite l’utilizzo di determinati filtri le parole degli utenti sono diventate numeri e grafici

Anche l'Istat si apre al mondo dei big data provenienti dai social network. Per farlo si è servita del nuovo indice sperimentale basato sui dati Twitter, il Social Mood on Economy Index, e, sulla scia di altri enti di ricerca come l'Eurostat, apre al riconoscimento dei social media come «uno degli strumenti più promettenti per misurare lo stato d'animo degli italiani». In altre parole, da una ricerca di tipo qualitativo si riescono a ricavare dati quantitativi su argomenti specifici: in questo caso è stata analizzata la relazione tra l'umore degli italiani e la situazione economica del Paese.

Il funzionamento è apparentemente lineare: sono state sviluppate delle procedure che selezionano ed elaborano solo i messaggi che contengono determinate parole chiave per eliminare il rischio di prendere in considerazione tweet non pertinenti con la ricerca. In questo caso, l'Istat si è basato su parole derivate dal questionario sulla fiducia dei consumatori. Questa operazione può essere insidiosa perché si basa sulla sentiment analysis, una strategia di analisi che cerca di capire «l'umore delle parole». Nello specifico, stiamo parlando dell'NLP, il Natural Language Processing – l'elaborazione del linguaggio naturale.

I contenuti linguistici vengono analizzati in base a due criteri: il primo è se sono positivi o negativi e quindi se fanno riferimento a un sentiment positivo o negativo. Per fare un esempio, la "delusione" è una parola meno positiva di "bello". Il secondo criterio invece si basa sulla posizione che le parole hanno nella frase e al rapporto con gli altri elementi del periodo. I testi di tutti i tweet vengono confrontati con il lexicon, un dizionario che definisce con una scala numerica la qualità della parola.

Quanto siamo felici dell'Italia? Ce lo dicono i big data di Twitter foto 1

I punteggi di sentiment dei messaggi vengono successivamente analizzati da un algoritmo di clusteringche si occupa di raggruppare i dati in settori di appartenenza. I tweet del giorno sono così divisi in tre classi diverse: tweet negativi, tweet neutri e tweet positivi. Il grafico elaborato da Istat è interattivo e riporta l'andamento giornaliero degli stati d'animo nel periodo di tempo tra il 10 febbraio 2016 e il 31 dicembre 2018. Alcune notazioni sono interessanti: il giorno del terremoto di Amatrice, il 24 agosto 2016, lo strumento segnala il picco più basso del sentiment, mentre durante le serate di capodanno, di Natale e nelle giornate di Pasqua, i livelli si alzano notevolmente rispetto alla media.

A segnare lo sconforto sono stati anche gli attacchi terroristici (quello ai mercatini di Berlino il 19 dicembre 2016) e il controverso episodio della Diciotti (25 agosto 2018). Papa Francesco che parla all'Ilva di Genova e dice che «l'obbiettivo non è un reddito per tutti, ma un lavoro per tutti», invece, risolleva gli animi nella giornata del 27 maggio 2017.

Quanto siamo felici dell'Italia? Ce lo dicono i big data di Twitter foto 2

La cosa più difficile è realizzare un modello che rispecchi il più possibile quello che succede davvero. Il sarcasmo, ad esempio, potrebbe essere un elemento problematico, essendo un espediente retorico difficilissimo da cogliere per un sistema. I parametri, programmati da un essere umano, potrebbero non essere incisivi da ogni punto di vista, e il rischio che i dati non siano coerenti con la realtà – e dunque oggettivi – è alto.

Queste criticità non sfuggono certo all'Ente, che nota giustamente come non esista, a oggi, alcuna «metodologia rigorosa che consenta di garantire la generale validità delle informazioni statistiche derivate dai dati di Twitter». Per non parlare del fatto che gli utenti italiani di Twitter «non possono essere considerati un campione rappresentativo della popolazione italiana».