AllInfo

Che cos'è lo scraping dei dati e perché è una minaccia?

fizkes/Shutterstock.com

Il data scraping è un altro modo per estrarre i dati dal tuo sito web, portale o piattaforma. Sorprendentemente, la legalità dello scraping dei dati è un'area grigia. Ecco come difendersi.

Cosa sono lo scraping dei dati e lo scraping web?

Lo scraping dei dati e il web scraping sono due diverse tecniche automatizzate che raggiungono lo stesso scopo. Raccolgono dati da sistemi di proprietà di terzi. Estraggono i dati, li raccolgono e li archiviano in modi che ne facilitano il riutilizzo. In genere questo significa inserirlo in un database o in un formato portatile come CSV.

Lo scraping dei dati utilizza le API fornite dalla piattaforma che viene sottoposta a scraping, anche se i termini di utilizzo dell'API quasi certamente vietano la raccolta di dati in massa.

Il web scraping funziona effettuando richieste di pagine web proprio come fa un browser web. Ma invece di visualizzare la pagina web, il software estrae i dati a cui è interessato, li salva e richiede un'altra pagina. I termini e le condizioni della maggior parte dei siti Web e certamente di tutte le piattaforme di social media vietano lo scraping di dati e Web. Nonostante ciò, i numeri di utenti associati alle piattaforme di social media li rendono bersagli interessanti per gli scraper.

Lo scraping può essere eseguito da criminali informatici che desiderano raccogliere credenziali di accesso, dettagli di pagamento o informazioni di identificazione personale. Può anche essere utilizzato per motivi legittimi come l'aggregazione di notizie, il monitoraggio dei rivenditori per verificare che non infrangano gli accordi sui prezzi o per analisi di mercato. Viene anche utilizzato per raccogliere informazioni aziendali, individuare lead di vendita e sostenere il marketing e la pubblicità.

RELAZIONATO: Come difendersi dagli attacchi API

strong>

Grandi numeri – Raschiamento e criminalità informatica

Nel 2020, il numero di record personali cancellati da YouTube è stato di 4 milioni. La cifra per TikTok era oltre dieci volte superiore, a 42 milioni. Nello stesso anno, 191 milioni di record personali sono stati cancellati da Instagram. Tutte queste piattaforme vietano lo scraping dei dati.

Pubblicità

Nell'aprile 2021, LinkedIn ha fatto notizia quando un database di 500 milioni di record personali è stato messo in vendita sul dark web. Microsoft, che possiede LinkedIn, ha affermato che non ci sono state violazioni della sicurezza. Il database è stato il risultato dello scraping dei dati.

Il database conteneva tutti i membri interessati:

Nel giugno 2021 è apparso un database di 700 milioni di record personali. Questo è oltre il 90% degli iscritti a LinkedIn. Insieme ai 200 milioni di record in più, il secondo database viene incrociato con dati prelevati da altre fonti, fornendo un quadro più dettagliato delle persone colpite.

Creato da criminali informatici per criminali informatici, il database può essere acquistato—per $ 5000 al momento della scrittura—su forum e mercati del dark web. Le informazioni in esso contenute verranno utilizzate per crimini come attacchi di phishing, attacchi di spear-phishing, attacchi di ingegneria sociale e altre frodi finanziarie.

RELAZIONATO: Come smettere Ladri di identità dall'apertura di account a tuo nome

Anche lo scraping commerciale è problematico

Che dire del web commerciale e dello scraping dei dati che avviene? Ci sono aziende con cui puoi interagire e che raccoglieranno dati per te. Puoi utilizzare toolkit di analisi dei dati come la libreria Python Beautiful Soup disponibile gratuitamente per creare le tue applicazioni di web scraping.

Il problema è che stai ancora quasi certamente violando le regole della piattaforma che stai 8217; raschiare. E le piattaforme cercheranno di difendersi. In caso contrario, i loro membri, clienti o altri utenti potrebbero lasciare la loro piattaforma.

Pubblicità

Quando scegli di fornire dati personali a un servizio online, stai affidando i tuoi dati a tale organizzazione. Non stai dando il permesso a nessun altro di venire a recuperare quei dati e usarli come meglio credono. Quando le organizzazioni raschiano i tuoi dati, non sai chi sono, cosa faranno con i dati, come li salvaguarderanno e proteggeranno, né con chi li condivideranno con.

LinkedIn ha portato hiQ Labs Inc. in tribunale per i suoi dati e il web scraping. In loro difesa, hiQ ha affermato che i dati che stavano prelevando da LinkedIn erano di dominio pubblico e ciò significava che erano in palio. Nel 2019, la Corte d'Appello del 9° Circuito degli Stati Uniti si è pronunciata a favore di hiQ. Ma il 14 giugno 2021, la Corte Suprema ha annullato la decisione del Nono Circuito. A partire da luglio 2021, lo scraping dei dati e il web scraping per scopi non criminali si trovano in un'area grigia legale.

E le cose si complicano se si tiene conto della legislazione sui dati che si applica ai membri della piattaforma. Ad esempio, indipendentemente dal fatto che i dati di un cittadino dell'UE siano di pubblico dominio o meno, non è possibile raccoglierli, archiviarli ed elaborarli digitalmente senza una base legale—come definita dal GDPR&#8212. ;per farlo. Inoltre, c'è una differenza tra pubblicamente visibile e di pubblico dominio.

Sotto il GDPR ci sono solo due basi legali che potrebbero plausibilmente applicarsi allo scraping dei dati. Uno è “consenso” e l'altro è “interesse legittimo.” Chiaramente, il consenso non è stato dato dagli individui, quindi questo è fuori discussione. E sarebbe estremamente difficile sostenere che avevi un legittimo interesse a raschiare i dati che non calpestavano gli interessi legittimi degli interessati e i loro diritti e libertà sulla privacy dei dati. Il GDPR richiede di sostenere tali diritti e libertà e di non calpestarli.

Il GDPR tutela i diritti alla riservatezza dei dati dei cittadini dell'UE indipendentemente dal luogo in cui avviene il trattamento. Un'organizzazione negli Stati Uniti che sta prelevando dati da un'altra organizzazione con sede negli Stati Uniti deve comunque conformarsi al GDPR se i dati che vengono eliminati contengono informazioni di identificazione personale di cittadini dell'UE.

La legislazione sulla protezione dei dati di altre regioni adotta il stessa posizione, con qualche piccola variazione. La legalità del raschiamento è tenue, per non dire altro. È probabile che vedremo sfide più formali.

RELAZIONI:Come le violazioni e le fughe di dati possono interessare i tuoi dipendenti

Come proteggere la tua organizzazione

Ci sono passaggi e misure che metti in atto per rendere la vita più difficile ai data scraper.

Termini e condizioni d'uso

Sebbene i Termini e condizioni e i Termini di utilizzo non facciano nulla per fermare i criminali informatici e potrebbero anche non fermare i “legittimi” scraping, ha ancora senso vietare esplicitamente la raccolta, l'elaborazione, l'archiviazione o la condivisione di dati inclusi, a titolo esemplificativo, dati di identificazione personale.

Potrebbe impedire ad alcune persone di eseguire lo scraping. Se lo fa, è stata una vittoria facile. Anche se così non fosse, ti darà un vantaggio legale se le questioni devono essere risolte in tribunale.

Disattiva hotlinking

La visualizzazione di immagini e altri media su un sito Web tramite il collegamento al sito Web originale è chiamata hotlinking. Utilizza la larghezza di banda del sito Web originale e altre risorse per servire i media.

Il web scraping di solito recupera direttamente le immagini e quindi la disattivazione dell'hotlinking non influenzerà le loro attività di scraping. Ma, se si verifica un raschiamento che si basa sull'hotlinking, almeno impedisce che la beffa si aggiunga al danno. Non occuperanno ancora più larghezza di banda quando vengono visualizzati i dati rubati.

Utilizza token CSRF

I sistemi automatizzati che eseguono lo scraping effettuano richieste HTTPS successive al tuo sito web. Scansionano da una pagina all'altra, seguendo i link. Creano anche URL da provare. Se individuano un pattern—come URL che differiscono di una sola cifra—il software procede attraverso le combinazioni prevedibili finché la sequenza non fallisce.

Pubblicità

L'introduzione di token di richiesta di falsificazione tra siti Web nel tuo sito Web può far fallire tutti tranne il più intelligente dei software di scraping. Un token CSRF è un identificatore univoco inviato dal server web al client che effettua la richiesta. In circostanze normali, questo sarebbe un browser.

Il client deve inviare il token CSRF al server quando effettua la sua richiesta successiva. Il server non risponderà a nessuna richiesta che non includa il token CSRF corretto. La maggior parte dei software di web scraping non può gestire i token CSRF, quindi questa è una misura efficace per limitare la tua esposizione.

Richieste di pagina con limite di velocità

La limitazione della velocità imposta le soglie sul numero di richieste che possono essere effettuate da un client in un determinato periodo di tempo. In genere questo viene fatto tramite l'indirizzo IP, con restrizioni sul numero di richieste di pagine o download che possono essere effettuati al secondo.

Usa software anti-scraping dedicato< /h3>

Sono disponibili pacchetti commerciali che rileveranno l'attività di scraping e la bloccheranno. Usano tecniche che superano di gran lunga la semplice identificazione di un client tramite il suo indirizzo IP. Usano tecniche di apprendimento automatico per identificare l'attività dei bot misurando azioni come la velocità con cui il cliente può compilare campi e moduli, il modo in cui il mouse si sposta sulla pagina e il modo in cui il cliente si muove attraverso il sito web. Qualsiasi attività non umana viene bloccata.

Richiedi interazione umana

Forzare i clienti a creare un account e utilizzare CAPTCHA o altri test di risposta alla richiesta può aiuta a rifiutare i raschiatori automatici.

Rendi le tue API a denti stretti

Proteggi le tue API e limita le loro capacità in modo che restituiscano la quantità minima di dati per soddisfare la chiamata API che stanno servendo.

Pubblicità

È interessante per gli sviluppatori fornire API ricche di dati e fornire un'offerta eccessiva anziché insufficiente. Ciò pone la responsabilità del cliente di analizzare le informazioni che desidera e di rifiutare il resto. Riduce la possibilità che sia necessaria una rielaborazione perché l'API non ha fornito una particolare informazione. Ma quella verbosità gioca nei raschietti’ mani.

Invece, rendi le tue API snelle e significative. Fornisci ciò che è stato chiesto e non di più. Puoi anche valutare i client API con limite.

I link nascosti su una pagina web saranno invisibili agli utenti autentici ma il software di web scraping troverà e seguirà tutti i link. Se un client segue un collegamento nascosto, è probabile che si tratti di un processo automatizzato. puoi quindi bloccarli.

Il tempo lo dirà

I criminali informatici, per definizione, non si preoccupano della legge. Le operazioni commerciali non hanno scelta. Se il caso hiQ v. LinkedIn stabilisce un precedente legale e considera lo scraping una violazione del Computer Fraud and Abuse Act, influirà solo sull'esecuzione di “commercial” raschiare. Lo scraping dei dati da parte dei criminali informatici continuerà.

Quindi, qualunque sia il risultato, dovrai comunque proteggere la tua organizzazione.

 

 < /p>

Exit mobile version