Twitter, Sentiment Analysis e analisi economiche regionali

Utilizzare i dati dei social network per analizzare dinamiche economiche e sociali: l'indicatore statistico RETI (Regional Economic Twitter Index).

Autore

Shira Fano

Data

22 Gennaio 2024

AUTORE

TEMPO DI LETTURA

5' di lettura

DATA

22 Gennaio 2024

ARGOMENTO

CONDIVIDI

Social network e analisi economiche

Nello studio delle dinamiche economiche regionali, i ricercatori si trovano spesso ad affrontare questi due limiti: il primo è la mancanza di dati infra-annuali e il secondo è rappresentato dal fatto che le statistiche regionali vengono spesso pubblicate con forte ritardo dagli uffici statistici, che devono raccogliere e validare i dati mediante processi complessi. Pertanto, l’idea presentata in questo articolo è che l’utilizzo di Internet, e in particolare dei social network, potrebbe essere uno strumento utile per ovviare al problema, contribuendo a fornire informazioni economiche in modo tempestivo. Negli ultimi anni, infatti, i dati dei social network vengono sempre più utilizzati per monitorare opinioni e analizzare dinamiche economiche e sociali. I social network possono quindi aiutare a monitorare efficacemente i fenomeni in tempo reale, in combinazione con i tradizionali metodi di raccolta dati, come i sondaggi.

La diffusione dei social network va di pari passo con la crescente importanza, anche nello studio dell’economia, dell’analisi del sentiment di consumatori e utenti. Questo è possibile perché disponiamo ormai di dati raccolti digitalmente, come brevi messaggi organizzati per esempio in post e tweet, che contengono informazioni che possono essere acquisite e analizzate quasi in tempo reale. Questi aspetti fanno del social network Twitter (oggi X) una delle fonti che è stata negli ultimi anni ampiamente utilizzata per analisi in campo economico, ma anche medico e sociale. 

In questo articolo, descriviamo brevemente l’indicatore statistico RETI (Regional Economic Twitter Index), un indice in grado di analizzare le dinamiche economiche a livello regionale, monitorando i post apparsi quotidianamente su Twitter. L’indicatore è stato sviluppato in collaborazione con Gianluca Toschi, ricercatore senior di Fondazione Nord Est. Questo indice si ispira all’Economic Social Mood Index proposto dall’Istat, ma a differenza di esso focalizza l’analisi sulla dimensione regionale.

Diversi indicatori economici basati sull’analisi di dati testuali sono stati sviluppati, tuttavia, la maggior parte di essi misura l’incertezza economica, prevede il Pil o l’inflazione e si focalizza su un livello nazionale, invece di adottare una prospettiva regionale.

Gallo, Soncin e Venturini1, per esempio, hanno sviluppato l’indice “VEN-ICE” relativo alla regione Veneto. L’indice stima mensilmente l’evoluzione del Pil regionale nel medio-lungo periodo. Questo indicatore sfrutta una grande quantità di informazioni disponibili a livello locale: le statistiche ufficiali Istat, le statistiche finanziarie fornite dalla Banca d’Italia e le numerose statistiche prodotte dalle associazioni di categoria e dalle amministrazioni locali. Il nostro indicatore invece si basa sulle opinioni dei cittadini raccolte in tempo reale tramite Twitter, senza l’obbiettivo di prevedere il Pil. 

Un altro esempio è Angelico, Marcucci, Miccoli e Quarta2 in cui gli autori utilizzano dati testuali e tecniche di apprendimento automatico per costruire una misura delle aspettative di inflazione dei consumatori per l’Italia, basata sull’analisi dei tweet. Il loro indicatore offre informazioni aggiuntive oltre le aspettative basate sul mercato e sulle previsioni degli esperti.

Baker, Bloom e Davis3 creano un nuovo indice di incertezza basato sull’analisi testuale dei quotidiani. Numerose fonti di dati suggeriscono che il loro indice è una buona proxy dei cambiamenti nell’incertezza economica. L’indicatore aumenta, per esempio, in prossimità delle elezioni presidenziali americane, della prima e della seconda guerra del Golfo, degli attacchi dell’11 settembre e del crollo di Lehman Brothers. 

Infine, quello di Aprigliano et alii4 è un altro esempio di analisi di dati testuali per migliorare gli indicatori economici standard e prevedere l’attività economica. In particolare, gli autori creano un nuovo lessico economico in italiano, analizzano circa due milioni di articoli di quattro quotidiani nazionali e creano una serie di indicatori di sentiment, calcolati per l’intera economia e per particolari settori o soggetti economici.

Dati e metodologia

Relativamente al nostro indice, i dati utilizzati per costruire RETI sono stati ottenuti scaricando i post degli utenti di Twitter(X), tramite strumenti di web scraping. A partire dal primo aprile 2020 abbiamo scaricato tutti i tweet contenenti 1) il nome di una delle quattro Regioni – Veneto, Friuli-Venezia Giulia, Trentino-Alto Adige ed Emilia-Romagna – o di una delle province che le compongono; 2) un termine relativo all’economia selezionato da una lista precedentemente creata. Questa procedura permette di raccogliere il testo dei tweet in un database, insieme a informazioni come l’ora esatta del tweet, se si tratta di un tweet o di un retweet e il tipo di dispositivo utilizzato. Per identificare questi temi, abbiamo creato un set di 1400 parole legate all’economia e selezionato tweet contenenti almeno una di queste parole. Per identificare i lemmi relativi all’economia, abbiamo applicato una procedura in due fasi. Nella prima fase abbiamo definito una lista di circa 200 parole legate all’economia. 

Per arricchire questo set, abbiamo utilizzato tecniche di word embedding, che consentono di rappresentare le parole come vettori utilizzando vari metodi di training ispirati alla modellazione linguistica delle reti neurali. Il concetto chiave alla base di questo metodo è che i termini vengono codificati come vettori e utilizzati per estrarre termini simili. Questa metodologia ha il vantaggio di consentire al ricercatore di includere termini nel linguaggio specifico utilizzato nel corpus studiato e di recuperare i termini inizialmente dimenticati. Prima di analizzare i tweet, il testo è stato ripulito con diversi passaggi, tra cui la creazione di un corpus, la rimozione delle parole non rilevanti, la rimozione di URL, punteggiatura e simboli.

Dopo la raccolta dati, il testo dei tweet relativi all’economia del Nord-Est italiano è stato analizzato ed è stata effettuata una Sentiment Analysis (SA), metodologia che consente di raccogliere informazioni sull’umore degli utenti di Twitter(X). Esistono tre metodi principali utilizzati nella letteratura recente per effettuare l’analisi del sentiment: metodi basati su machine learning, un approccio rule-based e approccio lessicale. La nostra analisi utilizza un approccio lessicale ed è basato su Sentix, un vocabolario che contiene informazioni sulla polarità delle parole. Una voce in Sentix è composta da un lemma italiano (sostantivo, verbo, aggettivo, avverbio), un punteggio positivo e uno negativo che vanno da 0 a 1, un punteggio di polarità che va da -1 a 1 e un punteggio di intensità che va da 0 a 1. Il vantaggio di questo approccio è che non assegna un valore binario che indica se i lemmi sono positivi o negativi, bensì indica anche il grado di polarizzazione dei lemmi. L’analisi del sentiment consiste in due passaggi: prima viene calcolato un punteggio di sentiment per ogni tweet; poi, i tweet vengono raggruppati in tre classi: positivo (P), negativo (N) e neutro (U) utilizzando l’algoritmo di clustering K-means. Infine, per ciascun blocco giornaliero, viene calcolato (S) il valore dell’indice giornaliero che è la media della polarità ponderata per l’intensità, assegnando polarità 0 ai tweet classificati come neutri. La procedura viene ripetuta per tutti i blocchi giornalieri, permettendoci di ottenere una serie temporale del sentiment economico.

Risultati

La serie temporale rappresentata in Figura 1 descrive il sentiment economico degli utenti di Twitter (X) relativamente al Nord-Est italiano nel periodo studiato.

Indicatore RETI per il Nord-Est italiano

La linea rossa è una media mobile che consente di visualizzare meglio l’andamento dell’indice. Improvvisi picchi e cali dell’indicatore corrispondono a eventi reali e fatti di cronaca, confermando la capacità dell’indicatore RETI di catturare informazioni relative all’attività economica e il sentiment degli utenti. Per esempio, uno dei giorni con i valori di sentiment economico più bassi è il 28 luglio 2020. In questa giornata su Twitter(X) si discute di: i) incidenti stradali e autostrada chiusa in direzione Trieste, ii) la crisi del mercato immobiliare in Emilia-Romagna e Rimini e iii) sparizione di dollari falsi dalla questura di Piacenza. Una giornata positiva è, ad esempio, il 20 giugno 2021, dove i dialoghi su Twitter si concentrano su nuove offerte di lavoro a Treviso, a Verona e un tasso di occupazione sopra alla media a Parma.

L’indicatore di sentiment economico è stato calcolato anche per le quattro singole Regioni Emilia-Romagna, Veneto, Friuli-Venezia Giulia e Trentino-Alto Adige e, anche in questi casi, i picchi positivi e negativi sono stati registrati in corrispondenza di fatti di cronaca avvenuti nelle quattro Regioni. 

Per testare la validità dell’indicatore, è stato confrontato con indicatori economici standard pubblicati mensilmente da Istat. In particolare, abbiamo considerato l’indicatore macroregionale RETI e i dati sono stati aggregati a livello mensile. L’indicatore macroregionale è stato correlato con il Giudizio sulla situazione economica della famiglia diffuso mensilmente dall’ISTAT. La correlazione tra i due indicatori, ottenuta con un semplice modello OLS (Ordinary Leaast Squares), è risultata positiva e statisticamente significativa (R2=0,3), suggerendo quindi la validità del nostro indicatore.

Considerazioni conclusive

In questo articolo, abbiamo presentato un nuovo indicatore economico regionale basato sui dati di social network chiamato RETI (Regional Economic Twitter Index). L’indice si basa sull’analisi testuale dei post di Twitter(X), sui quali abbiamo applicato strumenti di Sentiment Analysis (SA). L’elevata frequenza di questi dati e la tempestività nella loro disponibilità li rendono particolarmente adatti a monitorare l’andamento di breve periodo dell’economia. Il social network Twitter si è rivelato un’ottima fonte di informazioni per la creazione di indicatori socioeconomici. L’analisi del sentiment economico dimostra con successo la capacità di catturare notizie e reazioni degli utenti, confermando il potenziale di questo e simili strumenti per gli studi economici regionali. L’intuizione di utilizzare dati testuali disponibili sul web permette di superare diverse problematiche: la mancanza di dati regionali tempestivi e i tassi di risposta in costante diminuzione che si ottengono utilizzando i tradizionali metodi di raccolta dati come i sondaggi e questionari. 

Ricerche recenti suggeriscono infatti di utilizzare metodi ‘misti’ per l’analisi economica: dati standard, ma anche dati testuali e analisi qualitativa.

Dal punto di vista metodologico, l’approccio lessicale applicato utilizzando Sentix ha consentito di associare lemmi e tweet a un grado di polarizzazione, non solo a valori binari.

Tuttavia, alcune limitazioni dovrebbero essere affrontate in ulteriori approfondimenti sono auspicabili. Abbiamo riscontrato la presenza di alcuni valori anomali che dovrebbero essere rimossi manualmente. Inoltre, l’approccio lessicale presenta alcuni limiti, ad esempio non può affrontare l’ironia; pertanto, dovrebbero essere considerate anche nuove e diverse metodologie come algoritmi di apprendimento supervisionato.

Note

  1. M. Gallo, S. Soncin, A. Venturini, 2019.Ven-ICE:un nuovo indicatore delle condizioni dell’economia del Veneto, Banca d’Italia, Occasional Paper n. 498, giugno 2019.
  2. C. Angelico, J. Marcucci, M. Miccoli, F. Quarta, Can we measure inflation expectations using Twitter?, in “Journal of Econometrics”, vol. 228, n. 2, 2022, pp. 259-277.
  3. S.R. Baker, N. Bloom, S.J. Davis, Measuring economic policy uncertainty, in “The quarterly journal of economics,” vol. 131, n.4, 2016, pp. 1593-1636. 
  4. V. Aprigliano, S. Emiliozzi, G. Guaitoli, A. Luciani, J. Marcucci, L. Monteforte, The power of text-based indicators in forecasting Italian economic activity. In “International Journal of Forecasting”, vol 39, n. 2, 2023, pp. 791-808.
Leggi anche
Economia
Coordinate
5′ di lettura

Alla ricerca dell’equilibrio ideale

di Giuseppe Santagostino
Economia
Viva Voce
5′ di lettura

La competizione geopolitica per la leadership dell’AI

di Ettore Iorio
Economia
Coordinate
7′ di lettura

Fisica, Economia, Società, Ambiente: le materie degli eventi estremi

di Paolo Perulli
Economia
Viva Voce

La competizione geopolitica per la leadership dell’AI

di Ettore Iorio
5′ di lettura
Scienza
Viva Voce

Le biotecnologie al bivio europeo

di Stefano Bertacchi
4′ di lettura
Società
Viva Voce

Web e social media data: la brand reputation nell’era della sostenibilità

di Federica Carbone
4′ di lettura
Economia
Viva Voce

Abbigliamento circolare per l’outdoor

di Giulio Piovanelli
5′ di lettura
Scienza
Viva Voce

La bioeconomia che verrà

di Stefano Bertacchi
4′ di lettura
Società
Viva Voce

La sfida delle monete complementari italiane 

di Cristina Toti
8′ di lettura

Credits

Ux Design: Susanna Legrenzi
Grafica: Maurizio Maselli / Artworkweb
Web development: Synesthesia