domenica 31 maggio 2020

Big Data: Croci e Delizie, 2019, Scienza & Società, 33-34, pp.49-59

Di: Giuseppe Longo

Estratto dall'Introduzione:

Le rivoluzioni più profonde sono spesso quelle che si verificano senza che ce ne si accorga.
Iniziano in modo sommesso e poi rapidamente si propagano fino a cambiare in modo
irreversibile il mondo e la società. A partire dalla seconda metà degli anni '80 del secolo
scorso, lo sviluppo di una nuova generazione di sensori, sempre più piccoli, potenti e
flessibili nelle modalità d'uso, unito alla crescita esplosiva delle reti telematiche e di
telecomunicazione, ha fatto sì che una quantità sempre crescente di dati eterogenei venisse
prodotta, immagazzinata e resa accessibile attraverso la "rete" a comunità sempre più ampie
di utenti. Da alcune decine di esabyte accessibili nel 2009 si è giunti oggi agli oltre 40.000
previsti per il 2020. Una crescita esponenziale che di certo continuerà anche negli anni a
venire. Descrivere nella sua interezza la portata del fenomeno che in un'estrema
banalizzazione viene etichettato come "big data" è quindi pressoché impossibile.
La vita di ognuno di noi si traduce ormai in una sorta di "scia elettronica" in cui viene
registrata ogni singola interazione con la rete: dalle richieste fatte ai motori di ricerca, ai
social network, dalle transazioni economiche alla messaggistica, dai film guardati sulle
pay-tv alla musica più ascoltata. Attraverso le carte fedeltà e le carte di credito, i nostri
acquisti vengono continuamente monitorati, registrati e analizzati. I telefonini e i social
registrano i nostri movimenti, le nostre modalità di interazione con il web. Analogamente, i
data base clinici si arricchiscono delle nostre analisi cliniche, delle diagnosi, dei medicinali
che acquistiamo in farmacia. Dati eterogenei e apparentemente scollegati tra loro, dalla cui
fusione nasce una nostra identità virtuale con i nostri stessi gusti, orientamenti politici ed
ideologici, e persino con le nostre stesse paure. A ciò occorre aggiungere che quasi ogni
aspetto del mondo che ci circonda è continuamente monitorato: immagini da satellite e da
telecamere a terra si combinano con sensori meteo, misuratori di inquinamento. A queste
informazioni si aggiungono i mille sensori dell'Internet of things", cioè dei sensori posti su
oggetti di uso quotidiano che, scambiando informazioni tra loro e con altre fonti di dati,
dovrebbero ottimizzare ogni aspetto della vita quotidiana: da sveglie intelligenti che suonano
prima in caso di traffico lungo il percorso abituale, ai bit fit che trasmettono le condizioni del
nostro organismo ai vasetti delle medicine che avvisano i familiari se un paziente dimentica di
prendere il farmaco. .Persino la ricerca di base è stata profondamente modificata dai
cosiddetti "big data". I telescopi di nuova generazione che scandagliano il cosmo, o gli
acceleratori di particelle, per citare solo alcuni esempi, producono flussi ininterrotti di
informazioni che l'Uomo non può più analizzare in modo diretto e che vanno a contribuire a
quest' oceano di dati. .... Per continuare la lettura .... 




sabato 30 maggio 2020

Statistical characterization and classification of astronomical transients with Machine Learning in the era of the VRST


By: Marco Vicedomini, Massimo Brescia, Stefano Cavuoti, Giuseppe Riccio, Giuseppe
Longo (DS LAB - UNINA), 2020, Springer, in press
arXiv: 

Abstract 
Astronomy has entered the multi-messenger data era and Machine Learning has found widespread use in a large variety of applications. The exploitation of present and future synoptic (multi-band and multi-epoch) surveys, like LSST (VRST), requires an extensive use of automatic methods for data processing and interpretation. With data volumes in the petabyte domain, the discrimination of time-critical information has already exceeded the capabilities of human operators and even crowds of scientists have extreme difficulty to manage such amounts of data in multi-dimensional domains. This work is focused on an analysis of critical aspects related to the approach, based on Machine Learning, to variable sky sources classification, with special care to the various types of Supernovae, one of the most. important subjects of Time Domain Astronomy, due to their crucial role in Cosmology. The work is based on a test campaign, with incremental complexity, performed on simulated data. The classification was carried out by comparing the performances among several Machine Learning algorithms on statistical parameters extracted from the light curves. The results show some critical aspects related to the data quality and their parameter space characterization, propaedeutic to the preparation of processing machinery for the real data exploitation in the incoming decade.