mercoledì 29 settembre 2021

In vendita nel dark web un archivio con i dati di 4 miliardi di utenti del social Clubhouse: sono stati raccolti col web scraping

Il sito di informazione tecnica Cybernews ha dato notizia qualche giorno fa del ritrovamento, su un popolare forum di hacking nel dark web, di un gigantesco archivio contenente i dati di quasi 4 miliardi di account ClubHouse e Facebook messo a disposizione per la vendita. Il post, che reca la data del 4 Settembre, specifica che il database contiene principalmente i dati di utenti ClubHouse, il recente social "solo vocal" che in poco tempo ha avuto una diffusione impressionante: al suo interno però si trovano anche i numeri dei contatti in rubrica degli account violati nonché i dati dei profili Facebook associati all'account Clubhouse. 

Fonte: https://cybernews.com

In dettaglio quindi l'archivio contiene nomi e numeri di telefono, informazioni di posizione degli utenti dovuti ai prefissi dei numeri telefonici e un insieme di contatti Facebook. L'archivio perfetto per gli "addetti ai lavori" che guadagnano illegalmente tramite campagne di phishing e altre tecniche truffaldine. I costi? 100.000 dollari statunitensi, da corrispondere ovviamente in criptovaluta, ma l'autore del post ha anche fatto sapere che l'archivio è spacchettabile in liste più brevi a prezzo ridotto. 

Questa raccolta è stata creata in seguito allo scrape che Clubhouse ha subito il 24 Luglio: è stato infatti in quella data che sarebbero stati prelevati questi dati. Clubhouse si difende spiegando che non c'è stata alcuna violazione della piattaforma: 

Non c’è stata alcuna violazione di Clubhouse – spiega la piattaforma – Ci sono una serie di bot che generano miliardi di numeri di telefono casuali. La privacy e la sicurezza sono della massima importanza e continuiamo a investire in pratiche di sicurezza leader del settore”. 

In effetti non risultano accessi illeciti ai server di Clubhouse: sembra che questi dati derivino appunto da due furti noti già subiti da Clubhouse ad Aprile e a Luglio e perpetrati usando il web scraping. 

Web scraping: cosa è?
Per web scraping si intende l'uso di bot per estrarre dati da un sito web: questi bot emulano il comportamento di un utente umano, possono perfino eseguire login e logout e raccolgono specifiche informazioni e dati di valore, collezionandoli e ordinandoli per il loro gestore. Si possono così raccogliere, senza violare alcuna infrastruttura informatica, dati come indirizzi email, numeri di telefono, comportamenti di acquisto, coordinate ecc.. 

Il web scraping avviene in 3 fasi, generalmente:

  • lo scraper,  ovvero il bot per la raccolta dei dati, invia una richiesta HTTP GET ad un sito web;
  • quando il sito risponde alla richiesta, lo scraper inizia l'analisi del documento HTML cercando gli specifici dati per il quale è stato programmato;
  • una volta individuati ed estrapolati i dati, questi sono convertiti nel formato specifico indicato dallo sviluppatore del bot: possono essere rese tabelle, interi database, semplici documenti di testo ecc..

Nella maggior parte dei casi gli scraper sono usati per estrarre contenuti, estrarre prezzi ma anche contatti ed è questo il caso più diffuso, ovviamente, nel cyber crime. 

Di per sé non è necessariamente, questa, una attività illegale: certo lo è nel momento in cui viola la privacy degli utenti e la proprietà intellettuale / i diritti di determinati contenuti. Non a caso il web scraping sta diventando un problema serio per i social, come ben sanno sia Facebook che Linkedin: entrambi i social, a distanza di poche settimane, hanno ritrovato in vendita nel dark web giganteschi archivi di dati sottratti ai propri utenti tramite questa tecnica. 

Per approfondire > Il gigantesco data leak di Facebook: coinvolti anche i dati di Zuckerberg, il Garante interviene

Per approfondire > Dopo Facebook, un massivo data leak coinvolge Linkedin: il Garante italiano interviene immediatamente

Scraping e crawling non vanno confusi
Sottolineiamo il punto: il crawling riferisce a processi largamente usati dai motori di ricerca: Google ad esempio utilizza un robot crawler, Googlebot, per indicizzare i contenuti Internet. La differenza è che un crawaler indica esplicitamente la finalità per il quale esegue l'analisi del documento HTML (e non solo): inoltre i crawaler non sono così complessi da prevedere, ad esempio, la possibilità di mirare ad un punto specifico di un sito web, dato che ne eseguono una analisi generale. Inoltre i crawler leggono le informazioni contenute nel file robot.txt e le rispettano, limitandosi all'analisi di quelle aree indicate appunto come analizzabili e non procedendo ad indicizzazione delle parti invece da evitare. 

Lo scraping è una terra di confine tra legalità e illegalità: l'intervento del Garante
In seguito alle notizie sul breach subito da Linkedin ad Aprile, il Garante italiano si è attivato sul tema per ricondurre l'attività dello scraping agli ambiti della legalità e perseguire invece gli utilizzi illeciti.  Nel provvedimento conseguente, il Garante specificava l'inutilizzabilità dei dati raccolti tramite web scraping in questo caso, poichè i dati erano stati raccolti senza il consenso degli utenti: insomma i dataset di dati riguardanti gli utenti Linkedin non potevano essere utilizzati perchè derivanti da illecito trattamento. Di conseguenza, è possibile adottare provvedimenti sanzionatori verso coloro che utilizzano dati raccolti tramite scraping in mancanza della condizione di liceità del trattamento. 

Nessun commento:

Posta un commento