Vad är dataskrapning och varför är det ett hot?

fizkes/Shutterstock.com

Dataskrapning är ännu ett sätt att data kan extraheras från din webbplats, portal eller plattform. Överraskande nog är lagligheten för dataskrapning ett grått område. Så här kan du försvara dig mot det.

Vad är dataskrapning och webcraping?

Dataskrapning och webbskrapning är två olika automatiserade tekniker som uppnår samma mål. De skördar data från system som ägs av tredje part. De extraherar informationen, samlar in den och lagrar den på sätt som underlättar dess återanvändning. Vanligtvis betyder det att du lägger den i en databas eller i ett bärbart format som CSV.

Dataskrapning använder API: er som tillhandahålls av plattformen som skrapas, även om användningsvillkoren för API nästan säkert förbjuder insamling av data i massor.

Webbskrapning fungerar genom att göra förfrågningar för webbsidor precis som en webbläsare gör. Men istället för att visa webbsidan extraherar programvaran den information den är intresserad av, sparar den och begär en annan sida. Villkoren för de flesta webbplatser och säkert alla sociala medieplattformar förbjuder data och webbskrapning. Trots detta gör användarnumren associerade med sociala medieplattformar dem till attraktiva mål för skrapor.

Skrapning kan utföras av cyberbrottslingar som vill samla in inloggningsuppgifter, betalningsinformation eller personligt identifierbar information. Det kan också användas av legitima skäl som att samla nyheter, övervaka dina återförsäljare för att se att de inte bryter prisavtal eller för marknadsanalys. Den används också för att samla in affärsinformation, lokalisera försäljningsledningar och stödja marknadsföring och reklam.

RELATERAD: Hur du försvarar dig mot API-attacker

Stora siffror & # 8211; Skrapning och it-brottslighet

År 2020 var antalet personliga poster som skrapats från YouTube 4 miljoner. Siffran för TikTok var över tio gånger högre, 42 miljoner. Samma år skrapades 191 miljoner personliga poster från Instagram. Alla dessa plattformar förbjuder skrapning av data.

Annons

I april 2021 slog LinkedIn rubrikerna när en databas med 500 miljoner personuppgifter lades ut till försäljning på det mörka nätet. Microsoft, som äger LinkedIn, sa att det inte hade skett något säkerhetsbrott. Databasen var resultatet av dataskrapning.

Databasen innehöll alla berörda medlemmars:

  • Verkligt namn
  • Kön
  • Webbadresser för LinkedIn-profil
  • Registrerade e-postadresser
  • Fasta nummer och smartphonnummer
  • Fysiska adresser
  • Geolokaliseringsuppgifter
  • Användarnamn för andra sociala mediekonton

I juni 2021 uppstod en databas med 700 miljoner personliga poster. Det är över 90 procent av LinkedIn-medlemskapet. Tillsammans med de extra 200 miljoner posterna korsrefereras den andra databasen till data som skrapats från andra källor, vilket ger en mer detaljerad bild av de drabbade individerna.

Skapad av cyberbrottslingar för cyberbrottslingar kan databasen köpas för $ 5000 när detta skrivs på mörka webbmarknader och forum. Informationen den innehåller kommer att användas för brott som nätfiskeattacker, spjutfiskeattacker, socialtekniska attacker och andra ekonomiska bedrägerier.

RELATERAD: Hur man slutar Identitetstjuvar från att öppna konton i ditt namn

Kommersiell skrapning är också problematisk

Vad sägs om den kommersiella webb- och dataskrapningen som sker? Det finns företag du kan samarbeta med som kommer att skrapa data åt dig. Du kan använda dataparsningsverktygssatser som det fritt tillgängliga Beautiful Soup Python-biblioteket för att skapa dina egna webbskrapningsapplikationer.

Problemet är att du fortfarande nästan säkert bryter mot reglerna för plattformen du & # 39; 8217; re skrapa. Och plattformarna kommer att försöka försvara sig. Om de inte gör det kan deras medlemmar, kunder eller andra användare lämna sin plattform.

Annonsering

När du väljer att tillhandahålla personuppgifter till en onlinetjänst anförtror du din organisation dina uppgifter. Du ger inte tillåtelse för någon annan att komma och peka på den informationen och använda den som de anser lämpligt. När organisationer skrapar dina uppgifter vet du inte vem de är, vad de ska göra med uppgifterna, hur de ska skydda och skydda den, och inte heller vem de ska dela den med.

LinkedIn tog hiQ Labs Inc. till domstol över deras data och webbskrapning. I sitt försvar hävdade hiQ att uppgifterna som de skrapade från LinkedIn var offentliga och det innebar att det var uppenbart. År 2019 beslutade den 9: e amerikanska kretsrätten i hiQ: s favör. Men den 14 juni 2021 lämnade Högsta domstolen det nionde kretsens beslut. Från och med juli 2021 ligger dataskrapning och webbskrapning för icke-kriminella ändamål i ett lagligt grått område.

Och saker blir mer komplicerade när man tar hänsyn till datalagstiftningen som gäller plattformens medlemmar. Oavsett om en EU-medborgares uppgifter är offentliga eller inte, kan du inte skörda dem, lagra dem och bearbeta dem digitalt utan en laglig grund & # 8212; enligt definitionen i GDPR & # 8212 ; för att göra det. Det finns också en skillnad mellan offentligt synligt och offentligt.

Enligt GDPR finns det bara två lagliga grunder som tänkbart kan gälla för skrapning av data. Den ena är & # 8220; samtycke & # 8221; och den andra är & # 8220; legitimt intresse. & # 8221; Det är uppenbart att individer inte har gett sitt samtycke, så det är utanför bordet. Och det skulle vara extremt svårt att argumentera för att du hade ett berättigat intresse av att skrapa data som inte trampade på de registrerades legitima intressen och deras dataskyddsrättigheter och friheter. GDPR kräver att du upprätthåller dessa rättigheter och friheter och inte rider på dem.

GDPR skyddar EU-medborgarnas personuppgiftsrättigheter oavsett var behandlingen sker. En organisation i USA som skrapar data från en annan USA-baserad organisation måste fortfarande följa GDPR om personligt identifierbar information om EU-medborgare finns i de data som skrapas.

Dataskyddslagstiftning från andra regioner antar samma hållning, med några små avvikelser. Lagligheten för att skrapa är mildt sagt mild. Vi kommer sannolikt att se mer formella utmaningar.

RELATERAD: Hur dataintrång och läckage kan påverka dina anställda

Så här skyddar du din organisation

Det finns steg och åtgärder som du inför för att göra livet svårare för dataskraporna.

Användningsvillkor

Även om villkor och användarvillkor inte gör något för att stoppa cyberbrottslingar och kanske inte ens stoppar & # 8220; legitima & # 8221; skrapning är det ändå vettigt att uttryckligen förbjuda insamling, bearbetning, lagring eller delning av data inklusive men inte begränsat till personligt identifierbara uppgifter.

Det kan hindra vissa människor från att skrapa. Om det gör det var det en enkel vinst. Även om det inte kommer att ge dig en rättslig fördel om ärenden behöver lösas i domstol.

Inaktivera hotlinking

Att visa bilder och andra media på en webbplats genom att länka tillbaka till den ursprungliga webbplatsen kallas hotlinking. Den använder den ursprungliga webbplatsens bandbredd och andra resurser för att betjäna media.

Webbskrapning hämtar vanligtvis bilder direkt och så inaktiverar hotlinking påverkar inte deras skrapaktiviteter. Men om någon skrapning sker som är beroende av hotlinking, förhindrar det åtminstone förolämpning från att läggas till skada. De kommer inte att klämma ännu mer bandbredd när dina stulna data visas.

Använd CSRF-token

De automatiska systemen som gör skrapningen gör successiva HTTPS-förfrågningar till din webbplats. De kryper från sida till sida och följer länkar. De skapar också webbadresser för att försöka. Om de upptäcker ett mönster & # 8212; som webbadresser som skiljer sig åt med en enda siffra & # 8212; fungerar mjukvaran sig genom de förutsägbara kombinationerna tills sekvensen misslyckas.

Annons

Introduktion av förfalskningstoken på flera webbplatser på din webbplats kan vara alla utom den smartaste av skrapprogramvara. En CSRF-token är en unik identifierare som skickas från webbservern till klienten som gör begäran. Under normala omständigheter skulle detta vara en webbläsare.

Klienten måste skicka CSRF-token tillbaka till servern när den gör sin nästa begäran. Servern svarar inte på förfrågningar som inte innehåller rätt CSRF-token. De flesta program för webbskrapning kan inte hantera CSRF-tokens, så det här är ett effektivt mått för att begränsa din exponering.

Sidbegäranden för hastighetsbegränsning

Prisbegränsning anger trösklar för antalet förfrågningar som kan göras från en klient inom en viss tidsperiod. Vanligtvis görs detta med IP-adress, med begränsningar för hur många sidförfrågningar eller nedladdningar som kan göras per sekund.

Använd dedikerad antiskrapningsprogramvara

Kommersiella paket finns tillgängliga som kommer att upptäcka skrapaktivitet och blockera den. De använder tekniker som långt överträffar genom att helt enkelt identifiera en klient genom dess IP-adress. De använder maskininlärningstekniker för att identifiera botaktivitet genom att mäta åtgärder som hur snabbt klienten kan fylla i fält och formulär, hur musen rör sig över sidan och hur klienten rör sig genom webbplatsen. Alla icke-mänskliga aktiviteter är blockerade.

Kräv mänsklig interaktion

Tvinga kunder att skapa ett konto och använda CAPTCHA eller andra utmaning-svarstest kan hjälp med att avvisa automatiska skrapor.

Gör dina API: er snäva

Säkra dina API: er och begränsa deras kapacitet så att de returnerar minsta mängd data för att tillfredsställa det API-samtal som de underhåller.

Annons

Det är tilltalande för utvecklare att tillhandahålla datarika API: er och att över-tillhandahålla snarare än under-tillhandahålla. Detta placerar ansvaret för klienten att analysera den information de vill ha och att avvisa resten. Det minskar risken för att omarbetning krävs eftersom API: t inte gav en viss information. Men den grovheten spelar in i skraporna & # 8217; händer.

Gör istället dina API: er smala och meningsfulla. Ange vad som efterfrågades och inte mer. Du kan också betygsätta begränsa API-klienter.

Dolda länkar på en webbsida är osynliga för äkta användare men webbskrapning hittar och följer alla länkar. Om en klient följer en dold länk är det troligen en automatiserad process. Du kan sedan blockera dem.

Tiden kommer att berätta

Internetbrottslingar, per definition, bryr sig inte om lagen. Kommersiell verksamhet har inget val. Om ärendet hiQ v. LinkedIn skapar ett rättsligt prejudikat och anser att skrapning strider mot lagen om datorbedrägeri och missbruk påverkar det bara genomförandet av & # 8220; kommersiell & # 8221; skrapa. Dataskrapning av cyberbrottslingar fortsätter.

Så oavsett resultatet kommer du fortfarande att behöva skydda din organisation.

& nbsp;

& nbsp;


Posted

in

by

Tags: