Wat is datascraping en waarom is het een bedreiging?

0
172
fizkes/Shutterstock.com

Dataschrapen is nog een andere manier waarop gegevens uit uw website, portal of platform kunnen worden gehaald. Verrassend genoeg is de wettigheid van het schrapen van gegevens een grijs gebied. Hier leest u hoe u zich ertegen kunt verdedigen.

Wat zijn datascraping en webscraping?

Gegevensschrapen en webschrapen zijn twee verschillende geautomatiseerde technieken die hetzelfde doel bereiken. Ze verzamelen gegevens van systemen die eigendom zijn van derden. Ze extraheren de gegevens, verzamelen ze en slaan ze op op manieren die hergebruik vergemakkelijken. Meestal betekent dit dat u het in een database of in een draagbaar formaat zoals CSV plaatst.

Data scraping maakt gebruik van API's die worden geleverd door het platform dat wordt geschraapt, ook al verbieden de gebruiksvoorwaarden van de API vrijwel zeker het massaal verzamelen van gegevens.

Webscraping werkt door verzoeken om webpagina's te doen, net zoals een webbrowser. Maar in plaats van de webpagina weer te geven, extraheert de software de gegevens waarin het geïnteresseerd is, slaat het op en vraagt ​​een andere pagina aan. De algemene voorwaarden van de meeste websites en zeker alle sociale-mediaplatforms verbieden data en webscraping. Desondanks maken de gebruikersaantallen die zijn gekoppeld aan sociale-mediaplatforms ze aantrekkelijke doelen voor scrapers.

Scraping kan worden uitgevoerd door cybercriminelen die inloggegevens, betalingsgegevens of persoonlijk identificeerbare informatie willen verzamelen. Het kan ook worden gebruikt om legitieme redenen, zoals het verzamelen van nieuwsberichten, het controleren van uw wederverkopers om te zien of ze prijsafspraken niet breken, of voor marktanalyse. Het wordt ook gebruikt voor het verzamelen van bedrijfsinformatie, het lokaliseren van verkoopleads en het ondersteunen van marketing en advertenties.

GERELATEERD: Hoe u uzelf kunt verdedigen tegen API-aanvallen

GERELATEERD: Hoe u uzelf kunt verdedigen tegen API-aanvallen

GERELATEERD: Hoe u uzelf kunt verdedigen tegen API-aanvallen

strong>

Grote getallen – Schrapen en cybercriminaliteit

In 2020 bedroeg het aantal persoonlijke records dat van YouTube werd geschraapt 4 miljoen. Het cijfer voor TikTok was ruim tien keer hoger, namelijk 42 miljoen. Datzelfde jaar werden 191 miljoen persoonlijke records van Instagram geschraapt. Al deze platforms verbieden het schrapen van gegevens.

Advertentie

In april 2021 haalde LinkedIn de krantenkoppen toen een database met 500 miljoen persoonlijke records te koop werd aangeboden op het dark web. Microsoft, dat eigenaar is van LinkedIn, zei dat er geen sprake was van een inbreuk op de beveiliging. De database was het resultaat van het schrapen van gegevens.

De database bevatte de volgende gegevens van elk betrokken lid:

  • Echte naam
  • Gender
  • LinkedIn-profiel-URL's
  • Geregistreerde e-mailadressen
  • Vaste en smartphonenummers
  • Fysieke adressen
  • Geolocatiegegevens
  • Gebruikersnamen voor andere sociale media-accounts

In juni 2021 verscheen een database van 700 miljoen persoonlijke records. Dat is meer dan 90 procent van het lidmaatschap van LinkedIn. Samen met de extra 200 miljoen records, wordt in de tweede database verwezen naar gegevens die uit andere bronnen zijn gehaald, wat een gedetailleerder beeld geeft van de getroffen personen.

De database is gemaakt door cybercriminelen voor cybercriminelen en kan op het moment van schrijven voor $ 5000 worden gekocht op darkweb-marktplaatsen en -forums. De informatie die het bevat zal worden gebruikt voor misdaden zoals phishing-aanvallen, spear-phishing-aanvallen, social engineering-aanvallen en andere financiële fraude.

GERELATEERD: Hoe te stoppen Identiteitsdieven die rekeningen op uw naam openen

Commercieel schrappen is ook problematisch

Hoe zit het met het commerciële web en datascraping dat plaatsvindt? Er zijn bedrijven waarmee u contact kunt opnemen en die gegevens voor u zullen schrapen. U kunt toolkits voor het ontleden van gegevens gebruiken, zoals de gratis beschikbare Beautiful Soup Python-bibliotheek om uw eigen webscraping-apps te maken.

Het probleem is dat u vrijwel zeker nog steeds de regels van het platform overtreedt. 8217; aan het schrapen. En de platforms zullen proberen zichzelf te verdedigen. Als ze dat niet doen, kunnen hun leden, klanten of andere gebruikers hun platform verlaten.

Advertentie

Als je ervoor kiest om persoonlijke gegevens te verstrekken aan een online dienst, vertrouw je die organisatie jouw gegevens toe. Je geeft geen toestemming aan iemand anders om die gegevens op te ruimen en te gebruiken zoals zij dat nodig achten. Wanneer organisaties uw gegevens schrapen, weet u niet wie ze zijn, wat ze met de gegevens gaan doen, hoe ze deze gaan beveiligen en beschermen, noch met wie ze deze gaan delen met.

LinkedIn heeft hiQ Labs Inc. voor de rechter gedaagd wegens hun gegevens en webscraping. In hun verdediging beweerde hiQ dat de gegevens die ze van LinkedIn schrapten zich in het publieke domein bevonden en dat het voor het grijpen lag. In 2019 oordeelde het 9e Amerikaanse Circuit Court of Appeals in het voordeel van hiQ. Maar op 14 juni 2021 vernietigde het Hooggerechtshof de beslissing van het Negende Circuit. Vanaf juli 2021 bevindt datascraping en webscraping voor niet-criminele doeleinden zich in een juridisch grijs gebied.

En het wordt nog ingewikkelder als je rekening houdt met de datawetgeving die geldt voor de leden van het platform. Of de gegevens van een EU-burger zich bijvoorbeeld in het publieke domein bevinden of niet, u kunt deze niet verzamelen, opslaan en digitaal verwerken zonder een wettelijke basis—zoals gedefinieerd door de AVG&#8212 ;om dit te doen. Er is ook een verschil tussen publiekelijk zichtbaar en in het publieke domein.

Onder de AVG zijn er slechts twee rechtsgrondslagen die mogelijk van toepassing kunnen zijn op het schrapen van gegevens. Een daarvan is “toestemming” en de andere is “legitiem belang.” Het is duidelijk dat er geen toestemming is gegeven door de individuen, dus dat is van tafel. En het zou buitengewoon moeilijk zijn om te beweren dat u een legitiem belang had bij het schrapen van de gegevens die de legitieme belangen van de betrokkenen en hun rechten en vrijheden op het gebied van gegevensprivacy niet schendden. De AVG eist dat u deze rechten en vrijheden hooghoudt en ze niet met voeten treedt.

De AVG beschermt de gegevensprivacyrechten van EU-burgers, ongeacht waar de verwerking plaatsvindt. Een organisatie in de VS die gegevens van een andere in de VS gevestigde organisatie schrapt, moet nog steeds voldoen aan de AVG als persoonlijk identificeerbare informatie van EU-burgers zich in de gegevens bevindt die worden geschraapt.

De wetgeving inzake gegevensbescherming van andere regio's neemt de hetzelfde standpunt, met enkele kleine afwijkingen. De legaliteit van schrapen is op zijn zachtst gezegd zwak. We zullen waarschijnlijk meer formele uitdagingen tegenkomen.

GERELATEERD:Hoe gegevensinbreuken en -lekken uw werknemers kunnen beïnvloeden

Hoe u uw organisatie kunt beschermen

Er zijn stappen en maatregelen die u heeft genomen om het leven van de gegevensschrapers moeilijker te maken.

Gebruiksvoorwaarden

Hoewel de algemene voorwaarden en gebruiksvoorwaarden niets zullen doen om cybercriminelen te stoppen en misschien niet eens de “legitieme” scraping, is het nog steeds logisch om het verzamelen, verwerken, opslaan of delen van gegevens expliciet te verbieden, inclusief maar niet beperkt tot persoonlijk identificeerbare gegevens.

Het kan sommige mensen ervan weerhouden om te scrapen. Als dat zo is, was dat een gemakkelijke overwinning. Zelfs als dit niet het geval is, geeft het u een juridisch voordeel als zaken voor de rechtbank moeten worden opgelost.

Hotlinking uitschakelen

Het weergeven van afbeeldingen en andere media op één website door terug te linken naar de originele website wordt hotlinking genoemd. Het gebruikt de bandbreedte van de originele website en andere bronnen om de media te bedienen.

Webscraping haalt afbeeldingen meestal rechtstreeks op en het uitschakelen van hotlinking heeft dus geen invloed op hun scraping-activiteiten. Maar als er schrapen plaatsvindt dat afhankelijk is van hotlinking, wordt in ieder geval voorkomen dat belediging wordt toegevoegd aan letsel. Ze zullen niet nog meer bandbreedte in beslag nemen wanneer uw gestolen gegevens worden bekeken.

Gebruik CSRF-tokens

De geautomatiseerde systemen die het scrapen doen, doen opeenvolgende HTTPS-verzoeken aan uw website. Ze kruipen van pagina naar pagina en volgen links. Ze maken ook URL's om te proberen. Als ze een patroon herkennen, zoals URL's die één cijfer verschillen, werkt de software zich een weg door de voorspelbare combinaties totdat de reeks mislukt.

Advertentie

Het introduceren van Cross-Site Request Forgery-tokens op uw website kan alles behalve de slimste scraping-software fokken. Een CSRF-token is een unieke identifier die door de webserver wordt verzonden naar de client die het verzoek doet. Onder normale omstandigheden zou dit een browser zijn.

De client moet het CSRF-token terugsturen naar de server wanneer het zijn volgende verzoek doet. De server reageert niet op verzoeken die niet het juiste CSRF-token bevatten. De meeste webscraping-software kan geen CSRF-tokens aan, dus dit is een effectieve maatregel om uw blootstelling te beperken.

Rate Limit Page Requests

Tariefbeperking stelt drempels in voor het aantal verzoeken dat binnen een bepaalde periode van een klant kan worden gedaan. Meestal gebeurt dit op IP-adres, met beperkingen op het aantal paginaverzoeken of downloads per seconde.

Gebruik speciale anti-scraping-software< /h3>

Er zijn commerciële pakketten beschikbaar die scraping-activiteit detecteren en blokkeren. Ze gebruiken technieken die het identificeren van een klant aan de hand van zijn IP-adres veel verder gaan. Ze gebruiken machine learning-technieken om botactiviteit te identificeren door acties te meten, zoals de snelheid die de klant kan invullen in velden en formulieren, de manier waarop de muis over de pagina beweegt en de manier waarop de klant door de website beweegt. Elke niet-menselijke activiteit wordt geblokkeerd.

Menselijke interactie vereisen

Klanten dwingen een account aan te maken en CAPTCHA of andere challenge-response-tests gebruiken kan hulp bij het afwijzen van automatische schrapers.

Maak uw API's strak

Beveilig uw API's en beperk hun mogelijkheden zodat ze de minimale hoeveelheid gegevens retourneren om te voldoen aan de API-aanroep die ze onderhouden.

Advertentie

Het is aantrekkelijk voor ontwikkelaars om gegevensrijke API's te bieden en om te veel te bieden in plaats van te weinig. Dit legt de verantwoordelijkheid bij de klant om de gewenste informatie te ontleden en de rest af te wijzen. Het verkleint de kans dat herbewerking nodig is omdat de API een bepaald stuk informatie niet verschafte. Maar die breedsprakigheid speelt in op de schrapers’ handen.

Maak in plaats daarvan uw API's 'lean and mean'. Geef waar om gevraagd wordt, en niet meer. Je kunt ook API-clients met limieten beoordelen.

Verborgen links op een webpagina zijn onzichtbaar voor echte gebruikers, maar webscraping-software vindt en volgt alle links. Als een klant een verborgen link volgt, is dit waarschijnlijk een geautomatiseerd proces. je kunt ze dan blokkeren.

Time Will Tell

Cybercriminelen geven per definitie niets om de wet. Commerciële operaties hebben geen keus. Als de hiQ v. LinkedIn-zaak een juridisch precedent schept en van mening is dat scraping in strijd is met de Computer Fraud and Abuse Act, heeft dit alleen gevolgen voor de uitvoering van “commerciële” schrapen. Het verzamelen van gegevens door cybercriminelen gaat door.

Dus wat de uitkomst ook is, u zult uw organisatie nog steeds moeten beschermen.

 

 < /p>