Descrizione
Nelle ultime settimane sono emersi vari attacchi di Scraping ai danni degli utenti di social network come Facebook, Linkedin e Clubhouse. Ma come funziona lo Scraping e a quali problemi può portare? Scopriamolo insieme. Con la partecipazione di un ospite d’eccezione: Walter Vannini di Dataknightmare.
I link dell’episodio di oggi:
Dataknightmare - https://www.spreaker.com/show/dataknightmare
Runtime radio - https://runtimeradio.it/
Guerre di rete - https://guerredirete.substack.com/p/guerre-di-rete-facebookleak-molte
have i been pwned? - https://haveibeenpwned.com/
——————————————
Sito ufficiale di Pensieri in codice - https://pensieriincodice.it
Attrezzatura:
Shure Microfono Podcast USB MV7* - https://amzn.to/3862ZRf
- Link affiliato: il costo di un qualsiasi acquisto non sarà maggiore per te, ma Amazon mi girerà una piccola parte del ricavato.
I miei progetti social:
Pensieri in codice - https://pensieriincodice.it
Canale Twitch - https://valeriogalano.it/twitch
Daredevel blog - https://valeriogalano.it/daredevel
Newsletter - https://valeriogalano.it/newsletter
Per essere aggiornati sulle novità:
Canale Telegram - https://pensieriincodice.it/canaletelegram
Profilo Instagram - https://valeriogalano.it/instagram
Profilo Twitter - https://valeriogalano.it/twitter
Per partecipare alla discussione:
Gruppo Telegram - http://bit.ly/joinPicTelegram
Servizi professionali:
Lezioni private su Docety - https://valeriogalano.it/docety
Consulenza professionale - https://valeriogalano.it
Sostieni il progetto
Sostieni tramite SatispaySostieni tramite Revolut
Sostieni tramite PayPal
Sostieni utilizzando i link affiliati di Pensieri in codice: Amazon, Todoist, Readwise Reader, Satispay
Partner
GrUSP (Codice sconto per tutti gli eventi: community_PIC)Schrödinger Hat
Crediti
Montaggio - Daniele Galano - https://www.instagram.com/daniele_galano/Voce intro - Costanza Martina Vitale
Musica - Kubbi - Up In My Jam
Musica - Light-foot - Moldy Lotion
Cover e trascrizione - Francesco Zubani
Mostra testo dell'episodio
Quella che segue è una trascrizione automatica dell'episodio.
Pensieri in codice. Idee dal mondo del software a cura di Valerio Galano. Salve a tutti e bentornati su Pensieri in codice. Se non avete trascorso le ultime settimane in un eremo o su un’isola deserta, avrete sicuramente sentito parlare dei vari leak di dati avvenuti di recente. Grandissimi attori del mondo di internet, ed in particolare Facebook, LinkedIn e Clubhouse, hanno subito degli attacchi grazie ai quali sono state sfiltrate informazioni riguardanti una quantità di utenti che si conta in numero di milioni. Ora, di queste notizie ne hanno già parlato in tanti e se vi interessa approfondire, cercate qualcosa sul canale di Matteo Flora o sul podcast di Digitalia. Quello che invece vorrei fare io oggi qui con voi non è tanto raccontare le notizie, quanto piuttosto esaminare il metodo utilizzato per questi attacchi, dato che per tutti e tre si è trattato dello stesso sistema. Tutte le società coinvolte infatti non hanno parlato di operazioni mirate a superare le loro misure di sicurezza, bensì hanno spiegato che le sfiltrazione è avvenuta per mezzo di un’azione chiamata scraping, che sfrutta dei meccanismi perfettamente leciti per raccogliere informazioni da un sistema in modo inusuale. Ma cos’è esattamente questo scraping? Come funziona? È legale? Quali conseguenze può avere per gli utenti colpiti? E cosa si può fare per evitarlo? Nell’episodio di oggi proviamo a dare una risposta a tutte queste interessanti domande. Quando si parla di scraping di un sistema informatico si intende solitamente un’operazione volta a raccogliere informazioni da tale sistema utilizzando dei meccanismi e delle funzionalità perfettamente lecite, solo in modo differente rispetto a come erano state progettate. In tal senso non serve rubare accessi di amministrazione o entrare nei server o esportare database o file di log. Il sistema semplicemente non viene violato da un punto di vista tecnico quanto piuttosto da quello concettuale. Pensiamo ad esempio ai nostri profili professionali sul LinkedIn. Chi accede al social network anche senza avere un diretto collegamento con noi è in grado di riuscire a vedere alcune informazioni contenute nel nostro profilo, solitamente quelle che noi stessi decidiamo di rendere pubbliche. Lo scopo di tale funzionalità è ovviamente permettere anche a chi non è direttamente collegato alla nostra rete social ma vuole contattarci o sapere qualcosa su di noi per scopi professionali di poter visualizzare alcune informazioni come ad esempio i contatti o alcuni progetti di prestigio su cui abbiamo lavorato. Sia per noi che per il nostro potenziale datore di lavoro si tratta di una funzionalità molto utile che tendenzialmente viene utilizzata con parsimonia e buonsenso. Tuttavia se ci fosse qualcuno e ovviamente ce ne sono tanti interessato a collezionare le informazioni di un gran numero di persone potrebbe sfruttare questa stessa funzionalità per esplorare tutta una serie di profili e trasferire in un proprio database tutte le informazioni pubbliche che riesce a visualizzare e questa operazione prenderebbe proprio il nome di scraping. Paradossalmente è un qualcosa che potremmo fare anche noi, anche a mano volendo. I profili linkedin sono elencati e ricercabili sui motori di ricerca. Lo stesso linkedin ha un motore di ricerca interno e anche delle pagine che raggruppano gli utenti in base a determinate caratteristiche. Se io volessi potrei mettermi a navigare tutti questi profili e copiarmi i dati che mi interessano ad esempio in un foglio excel e in pratica starei facendo scraping. Ora è ovvio che chi fa realmente scraping sui grandi numeri non lo fa a mano dal momento che le pagine di linkedin hanno una struttura ben definita è relativamente semplice scrivere dei programmi che si muovono tra i profili ed estraggano le varie informazioni dalle posizioni predefinite. Il nome di un utente infatti si trova sempre nello stesso tag html di ogni profilo, l’email sarà sempre identificata dalla stessa classe css e così via. Naturalmente si tratta di esempi non ho veramente controllato la struttura delle pagine linkedin ma il concetto è quello. E ad ogni modo lo scraping non è solo a livello di pagine web. In generale infatti molti software e a maggior ragione le piattaforme social sono datati di alcune interfacce che prendono il nome di api e che sono utilizzate principalmente da altri software o dalle app per smartphone per contattare la piattaforma e scambiare le informazioni necessarie al funzionamento. Se volessimo fare un esempio anche banale di questo meccanismo potremmo pensare all’app di facebook. Se infatti cerchiamo il profilo di un amico o scrolliamo la timeline o leggiamo una notifica tutte le informazioni visualizzate non sono realmente dentro l’app ma vengono recuperate dai server di facebook tramite delle api. Diciamo che messa in questi termini potrebbe risultare un tantino meno intuitiva rispetto alle pagine web ma si può comunque facilmente immaginare che anche le api possono essere utilizzate per fare scraping. Anzi in realtà per chi fa veramente scraping questo è sicuramente un metodo molto più semplice e comodo. Periodicamente ritorna la domanda se fare scraping dei dati da internet sia legale oppure no. La risposta è semplice ed è no. Dice mattizia caio hanno fatto la tal cosa hanno fatto il tal social partendo da dati che avevano raccolto dagli altri social. Ho capito ma 1 il fatto che una cosa sia illegale non significa che nessuno la fa significa che chi la fa fa qualche cosa di illegale. Questo ad esempio anche per i siti dei quotidiani che prendono magari le foto o i video di un particolare evento dai social le ripubblicano come se fossero loro sul proprio sito spesso senza neanche citare la fonte originale. Ecco questo è illegale. 2 9 volte su 10 l’ennesimo hipster made in usa che fa scraping e però la passa liscia è semplicemente perché ha preso i dati da gente che poi si scopre essere fra i propri finanziatori. No voglio dire provate voi a lanciare un bel social made in italy raccogliendo i dati dai social degli altri e vediamo quanto ci mettono a seppellirvi di cause. Uno dei concetti che continuano a non passare nonostante vengano ripetuti allo sfinimento è questo è ma i dati erano sul sito tal dei tali visibili a tutti quindi erano dati pubblici e si possono riutilizzare ecco no io capisco che in questa italia ferma i meravigliosi anni 50 del sogno americano sia difficile capirlo ma il fatto è questo pubblico vuol dire pubblico non vuol dire privatizzabile non so se si coglie la sottile differenza la fontanella dell’acqua al parco è acqua pubblica significa che puoi berla ti ci puoi lavare la faccia o i piedi puoi anche riempirci una borraccia ma non puoi riempirci la piscina della tua villa e non puoi imbottigliarla e venderla non puoi neanche imbottigliarla e dalla via gratis perché è acqua pubblica pubblico significa che è di tutti non che è tuo quindi sì sui siti le informazioni sono pubbliche e no quelle informazioni non sono privatizzabili quelle informazioni sono lì per essere fruite singolarmente non per essere raccolte e riciclate per altre finalità quindi lo scraping cioè la raccolta eventualmente a strascico di dati da internet danneggia noi persone come singoli perché riutilizza nostre informazioni personali per finalità a cui non abbiamo mai dato l’assenso e danneggia ovviamente il social che sulla fruizione di quelle informazioni costruisce il proprio business ora il fatto che siti come linkedin e facebook possano candidamente ammettere di essersi fatti sifonare i dati di centinaia di milioni di utenti senza sguinzagliare contestualmente un esercito di killer sanguinari secondo me apre alcune prospettive interessanti 1 i social sono in generale in mano a un branco di incompetenti che si lasciano soffiare i preziosi dati sotto il naso oppure 2 se i dati costituiscono una sorta di valore a riposo dei social il loro valore dinamico il valore vero di mercato deriva dalle interazioni fra le persone che sono proprietarie di quei dati ossia la rete sociale dinamica il tempo per il quale il social riesce a trattenere i propri utenti sulla piattaforma e il numero di volte che è lo stesso social riesce a vendere un utente collegato come target di una pubblicità mirata in questo senso i dati personali sono un valore marginale che non muta nel tempo e che comunque non viene intaccato da un eventuale scraping anche perché un concorrente non può basarsi soltanto sui dati personali che ha raccolto ma deve ricostruire l’interesse degli utenti a collegarsi da lui e non altrove e l’interesse degli inserzionisti a comprare pubblicità sulla sua piattaforma e non altrove questo spiega l’assoluto disinteresse delle piattaforme che sono oggetto di scraping è palese che non gli fa un baffo di danno 3 fare scraping rimane facile perché gli investitori dei vari social investono direttamente o indirettamente anche su potenziali futuri rivali perché perché se sei azionista di tutti i social non ti importa quale domini quale cresca e quale cali perché tanto guadagni sempre con tutti e se come scenario vi sembra poco plausibile perché l’america e il libero mercato vorrei ricordarvi che la silicon valley è quel posto dove libero mercato significa che apple ora col google e microsoft avevano un accordo segreto per non rubarsi a vicenda i talenti e per non far crescere i salari in modo incontrollato ovviamente qualsiasi combinazione lineare dei tre scenari precedenti va bene lo stesso ora visto che le piattaforme non sembrano proprio interessate a tutelare i nostri dati che cosa può fare un cittadino per difendersi un cittadino purtroppo poco io direi che sarebbe magari il caso che le associazioni di tutela degli utenti sbarcassero nel ventunesimo secolo che ancora un po che aspettano siamo a metà e no la patetica iniziativa di altro consumo di chiedere un obolo a facebook per l’uso dei dati personali non vale non è chiedendo un simbolico rimborso che metti fine a un modello di business tossico e privo di ogni etica l’ad tech commerciale o politico che sia va bruciato dalle fondamenta non importa quanti soldi perderanno i propagandisti di ogni colore semplicemente come società non possiamo permetterci un business del genere perché è tossico socialmente ora il gdpr prevede esplicitamente che associazioni no profit o di difesa degli utenti possano intentare cause collettive per la tutela dei dati dei propri associati questo è necessario perché un singolo individuo non avrà mai le risorse per portare in giudizio un’azienda che tanto per cominciare a sede legale in irlanda ma le associazioni esistono per questo dovrebbero soltanto seguire l’esempio ad esempio di noi.eu e come dicono gli anglosassoni quando ci si trova ad essere vittime di scraping e cioè quando i propri dati pubblici vengono rubati da un social network o da una qualsiasi altra piattaforma online si potrebbe tendere a minimizzare il problema si potrebbe pensare che tanto erano già dati pubblici e tutti li potevano vedere ma questo in realtà è un atteggiamento abbastanza miope innanzitutto bisogna riflettere sulla differenza che passa tra dati pubblici ma affidati ad una determinata piattaforma o un soggetto ben definito e dati che invece sono stati sfiltrati e poi redistribuiti su canali illeciti le informazioni inserite in facebook linkedin o qualsiasi altro servizio online almeno da un punto di vista teorico e legale restano di proprietà della persona che sia registrata questi può chiederne la rimozione o l’aggiornamento in generale può sapere quante quali sono in qualsiasi momento in altre parole è tutelato almeno qui in europa dal gdpr e in generale anche dalla volontà di una qualsiasi azienda di mantenere una certa propria immagine pubblica proteggendo e utilizzando i dati degli utenti nella maniera migliore possibile ok lo so a cosa stanno pensando alcuni di voi ma almeno da un punto di vista teorico sarebbe così comunque la collezione di dati è sfiltrati e invece ormai al di fuori del controllo degli utenti il database viene scambiato venduto copiato e archiviato chissà dove e in caso di necessità o di volontà sarà praticamente impossibile far sparire quelle informazioni dal web e tutto questo peggiora ad ogni nuovo data leak perché informazioni univoche come ad esempio il numero di telefono o l’email permettono anche di individuare lo stesso soggetto all’interno di più database di dati rubati e quindi unire le informazioni per arricchire sempre di più il profilo clandestino di ogni utente risultato è che diventa sempre più facile per un malintenzionato fingersi qualcun altro per scopi fraudolenti grazie infatti a questi ultimi leak tra cui quello di facebook che conteneva moltissimi numeri di telefono 30 milioni dei quali appartenevano a soggetti italiani è aumentato enormemente il pericolo di subire un tipo di attacco chiamato sim swapping per mezzo del quale qualcuno potrebbe riuscire a sottrarci il nostro numero di telefono nel sim swapping infatti un malintenzionato potrebbe riuscire ad ottenere abbastanza informazioni sulla propria vittima da impersonarla agli occhi della compagnia telefonica e riuscire quindi ad attivare la procedura di sostituzione della scheda sim il criminale potrebbe quindi farsi spedire la scheda dalla compagnia telefonica e attivandola disattivare la linea del legittimo proprietario e sostituirsi ad esso ovviamente tutto ciò non potrebbe durare a lungo il malcapitato potrebbe sistemare tutto recandosi in un centro del proprio gestore telefonico o chiamando l’assistenza ma nel frattempo il criminale riceverà chiamate ed sms dedicate alla povera vittima e in questo modo potrà accedere a tutti quei servizi che utilizzano il numero di cellulare come secondo fattore di autenticazione avete presente ad esempio quando accedete ad amazon o a qualche altro servizio da un nuovo dispositivo e vi arriva un sms che vi chiede di confermare che siete effettivamente voi a tentare l’accesso e non un criminale ecco in caso di sim swapping ora quell’ sms arriverà direttamente al criminale se vi stesse chiedendo cosa si può fare contro questa odiosa pratica le possibilità non sono moltissime ma qualcosa si può fare ad esempio si può tentare di sottrarsi ad eventuali futuri scraping e lo si può fare riducendo al minimo le nostre informazioni disponibili al pubblico il mio consiglio è sempre quello di fare periodicamente un giro di tutti i servizi a cui siamo iscritti e per ciascuno di essi applicare una delle seguenti alternative prima di tutto se non abbiamo più bisogno del servizio semplicemente cancelliamo il nostro account il gdpr ci dà diritto di richiedere la cancellazione di tutte le nostre informazioni in qualsiasi momento e comunque potremmo sempre reiscriverci in caso di necessità come seconda alternativa se invece ci serve proprio usare quel servizio potremmo eliminare tutte le informazioni superflue per il suo funzionamento ad esempio potrebbe non essere necessario che facebook conosca il nostro indirizzo di casa o il nome del nostro cane per cui potremmo semplicemente cancellarli dal profilo e badate bene che queste non sono informazioni da poco il nome del nostro cane il cognome di nostra madre da nubile il nome della via in cui siamo cresciuti sono solidamente informazioni che vengono richieste per le domande di recupero password quindi se ottiene questi dati un criminale non ha che da festeggiare come terza alternativa poi se è proprio necessario che il servizio conosca certe determinate informazioni accertiamoci almeno che le condivida il meno possibile molti servizi infatti hanno delle opzioni per gestire la privacy ed è sempre bene configurarle nel modo più restrittivo possibile nel caso specifico del data leak di facebook l’attacco è stato effettuato utilizzando i numeri di cellulare dato che gli attaccanti hanno utilizzato la funzione che permette di ricercare i propri amici tramite il numero inserito nel profilo se tutti avessero avuta selezionata la spunta che dice impedisci agli amici di trovarmi tramite numero l’attacco probabilmente non sarebbe andato a buon fine ora so che sembra un lavoro enorme ma ogni viaggio comincia con un piccolo passo e se ad esempio non avete una lista dei servizi che utilizzate potreste iniziare a stilare questa lista magari cercando le mail di registrazione o le newsletter nella vostra casella di posta una volta fatto questo lavoro magari potrebbe anche essere un buon punto di partenza per valutare se avete troppi servizi attivi e magari decidere di eliminarne qualcuno detto questo però che cosa possono fare invece le aziende per tutelare i propri utenti sia facebook che linkedin che clubhouse si sono difesi affermando che lo scraping non è una vera e propria violazione dei sistemi e che quindi non è possibile imputare a loro delle responsabilità e quasi quasi hanno scaricato la colpa sugli utenti che non hanno protetto a dovere i propri account ma sinceramente io non sono proprio d’accordo lo scraping viene eseguito attraverso dei meccanismi automatici dei software e i comportamenti di tali software possono essere individuati e almeno dovrebbero risultare sospetti dovrebbero attirare l’attenzione della piattaforma e sfiltrare 550 milioni di profili significa contattare i server perlomeno miliardi di volte in un periodo di tempo abbastanza circoscritto poniamo anche che come credo sia ovvio il software utilizzato per l’attacco abbia seguito più percorsi abbia provato a camuffare la propria identità abbia provato a dilazionare le chiamate ad ogni modo un’attività di ricerca inusuale per tipologia e tempistica deve far scattare un campanello d’allarme da qualche parte serve è indispensabile un controllo automatico che si renda conto che in un periodo di tempo relativamente breve sono stati ricercati miliardi di numeri di telefono e dico ovviamente miliardi perché 550 milioni sono solo quelli individuati e possiamo solo immaginare quante i tentativi siano stati fatti essendo andati a vuoto per ottenere questo risultato comunque ormai il guaio è fatto anzi ne sono stati fatti parecchi nel corso del tempo e che cosa può fare chi ci è già capitato in mezzo gli utenti colpiti da scraping possono innanzitutto controllare la propria email la propria password e il proprio numero di telefono al fine di capire se sono stati rubati e ciò si può fare sul sito e vai ben pond mi raccomando è difficilissimo da dettare e se non lo conoscete già vi metto il link in descrizione non cercate direttamente sui motori di ricerca perché non vorrei finiste su dei siti fake per quanto riguarda invece il problema del sim swapping di cui parlavamo prima il mio consiglio è quello di spostare tutte le vostre autenticazioni a due fattori su un app non usate l’sms mai in nessun caso perché in realtà non è un mezzo veramente sicuro esistono invece varie app anche native per android e ios distribuite direttamente da google e apple che vi permettono di gestire l’autenticazione a due fattori in sicurezza se poi volete essere proprio paranoici esistono anche delle chiavette fisiche simili a quelle della banca le potete acquistare e configurare per i servizi che vi interessano bene innanzitutto ringrazio tantissimo il super ospite di oggi per averci prestato le sue competenze e la sua voce sono sicuro che molti di voi l’avranno riconosciuto si tratta di valter vannini anche conosciuto come data nightmare se voi non avete ascoltato data nightmare correte subito a recuperarlo per capire come vengono trattati oggi i nostri dati vi assicuro che vi farà cambiare idea su tantissimi argomenti questo podcast è poi parte di runtime radio un network di podcaster che parlano degli argomenti più disparati dalla tecnologia al vino ai libri e tanto altro qualunque siano i vostri interessi sono sicuro che riuscirete a trovare un podcast di runtime che fa per voi vi lascio in descrizione i link a data nightmare e a runtime radio infine se scoprite di essere stati vittime di furti di dati mi spiace ma non potete semplicemente ignorarli cambiate tutte le vostre password e usatene una differente per ogni servizio potete utilizzare un password manager per generare password complesse e per tenerle anche archiviate al sicuro usate poi l’autenticazione a due fattori e scaricate le app solo dagli store ufficiali di google o di apple e solo da autori fidati se poi vi piace l’idea di una chiavetta fisica allora compratela solo dal sito del produttore non su amazon o su altri store e infine non condividete le password non le inviate su whatsapp su telegram via email non le scrivete su pezzetti di carta e non le pronunciate ad altavoce mentre le state inserendo sì mi è capitato di sentirlo bene spero che con questo episodio la questione dello scraping del sim swapping sia un po più chiara oggi l’episodio è venuto un po più lungo del previsto ma si è rivelato secondo me molto interessante quindi come al solito vi ringrazio per aver ascoltato fin qui e vi chiedo di condividere il podcast con chi pensate possa essere interessato o possa trarne beneficio detto questo non mi resta che salutarvi e ricordarvi che un informatico risolve problemi a volte anche usando il computerNascondi