ECC data mining (seconda parte)

(la prima parte è qui)

Prima di saltare alle conclusioni ritengo necessaria una panoramica sui dati ed il loro trattamento, nella speranza che questa metodologia di analisi possa essere appresa e replicata in contesti diversi.

La base dati è disponibile sul sito di Agenzia Mobilità di Roma e scaricabile direttamente da questo link. Trattasi di un singolo file compresso da 135Mb che, una volta scompattato, assume la forma di un singolo file CSV (una tabella in formato testo coi campi separati da virgole) di ben 580Mb.

Sono numeri enormi: considerate che il formato .csv viene solitamente gestito con applicativi da ufficio (fogli di calcolo: Excel o gli equivalenti Open), ma questi software sono in grado di gestire tabelle solo fino a c.a un milione di righe, mentre il database delle tracce ECC ne conta oltre sei volte tanto!

Il software al quale ho dato da masticare questa enorme mole di dati si chiama QGIS, un progetto Open Source e multipiattaforma: si può liberamente scaricare da Internet ed utilizzare senza dover pagare una licenza d’uso. Il pacchetto d’installazione è un’altra mappazza di c.a 285Mb, ed una volta installato il programma va ad occupare 1,4GB di spazio sull’hard disk.

(n.b.: ad evitare che mi impantanassi nell’impresa di maneggiare un sistema software mai visto prima è stato determinante il supporto dei partecipanti al forum FreeGIS-italia, che qui provvedo a ringraziare. Senza i loro suggerimenti non ne sarei venuto a capo, o perlomeno non in tempi tanto stretti…)

A programma avviato il file CSV va importato. In partenza il sistema segnala una serie di errori nella formattazione del file che possono tranquillamente essere ignorati (sono righe prive delle coordinate geografiche, ovvero record inutili), quindi inizia a disegnare a schermo i circa sei milioni di punti.

Non posso risparmiarvi un breve excursus sulla tecnologia GPS alla base di questo tipo di georeferenziazione. I ricevitori GPS (dispositivi specifici, o la maggior parte degli smartphone in commercio) “ascoltano” gli impulsi radio emessi da una rete di satelliti in orbita, ed in base al calcolo dei ritardi tra i relativi segnali sono in grado di triangolare la posizione a terra con una precisione dell’ordine di pochi metri. Effettuando la registrazione di tali posizioni (a cadenza di qualche secondo) si può ottenere il tracciato percorso, e via software ridisegnarlo automaticamente su una mappa.

Il primo passaggio consiste quindi nel ricomporre le tracce percorse a partire dai punti (il software lo fa per mezzo di un plugin denominato Points2One). La maschera di compilazione va impostata come da illustrazione (“ecc” è il nome con cui ho rinominato il file .csv).

Qui cominciano i primi problemi: la compilazione parte abbastanza velocemente, ma una volta saturata la RAM disponibile (la mia macchina è un 64bit e dispone di 4Gb, sufficienti ad arrivare al 76% dell’elaborazione) il sistema rallenta ed inizia a procedere a passo di lumaca. Per completare il processo possono volerci ore.

Una volta compilato, il file delle tracce (.shp) viene esportato in una cartella a sé stante, quindi al termine del processo è necessario reimportarlo per averlo a schermo. A questo punto quello che otteniamo è una sorta di gomitolo come da immagine seguente.

In questa forma il contenuto informativo è pressoché nullo. Il passo successivo consiste nell’intervenire sulle dimensioni delle tracce (0,1) e sul parametro “trasparenza” (95%) in modo da discriminare per intensità le direttrici dove sono stati effettuati un maggior numero di passaggi da quelle meno frequentate. Un po’ alla volta comincia a disegnarsi la città come la conosciamo.

Un ulteriore plugin (presente nelle voci del menu) consente quindi di sovrapporre automaticamente la rete di tracciati ad una mappa on-line (Google, Bing, OpenStreetMap…) e verificare a quali strade corrispondano le tracce visualizzate a schermo (qui la zona tra Colosseo e Porta Maggiore). Da notare che mentre sulla mappa stradale le vie sono rappresentate tutte allo stesso modo, i ciclisti romani ne utilizzano di preferenza solo alcune.

Le potenzialità di un tale strumento sono per me ancora in larga misura da scoprire, ma già ora interessantissime. Ad esempio, senza effettuare alcuna particolare elaborazione ma semplicemente utilizzando lo strumento “selezione”, è possibile evidenziare la rete di percorsi che convergono su un singolo tratto di strada, in questo caso viale Marco Polo ( la “tangenziale ovest”) N.b.: la mappa stradale è stata disabilitata e lo sfondo impostato sul colore nero.

Con una serie di (purtroppo non semplici…) passaggi ulteriori è poi possibile separare le tracce diurne da quelle notturne, come pure l’uso feriale (spostamenti casa-scuola e casa-lavoro) da quello domenicale (scampagnate nei parchi) e scendere più nel dettaglio sull’utilizzo che i ciclisti romani fanno degli spazi urbani.

Dato il numero di persone coinvolte e l’estensione dell’arco temporale interessato, quello che ci troviamo per le mani è una fotografia estremamente precisa di come la città viene usata, di quali percorsi vengono privilegiati, di quali esigenze di trasporto, anche a grandi distanze, la bicicletta è in grado di soddisfare.

Un bagaglio informativo essenziale per pianificare la messa in sicurezza dei segmenti di rete stradale più affollati ed a rischio, e valutare a monte l’efficacia dei futuri interventi. Argomenti sui quali verterà la terza e (probabilmente) ultima parte dell’analisi.

(continua)

4 thoughts on “ECC data mining (seconda parte)

  1. Pingback: ECC data minig (terza parte) | Mammifero Bipede

  2. Pingback: ECC data minig (prima parte) | Mammifero Bipede

  3. Pingback: ECC data mining (prima parte) – Ripensare la città

  4. Pingback: ECC data mining (terza parte) – Ripensare la città

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...