Was ist Data Scraping und warum ist es eine Bedrohung?

0
310
fizkes/Shutterstock.com

Data Scraping ist eine weitere Möglichkeit, Daten aus Ihrer Website, Ihrem Portal oder Ihrer Plattform zu extrahieren. Überraschenderweise ist die Rechtmäßigkeit des Daten-Scrapings eine Grauzone. So können Sie sich dagegen wehren.

Was sind Data Scraping und Web Scraping?

Data Scraping und Web Scraping sind zwei verschiedene automatisierte Techniken, die dasselbe Ziel erreichen. Sie sammeln Daten aus Systemen, die sich im Besitz Dritter befinden. Sie extrahieren die Daten, stellen sie zusammen und speichern sie auf eine Weise, die ihre Wiederverwendung erleichtert. Normalerweise bedeutet dies, dass es in eine Datenbank oder in ein portables Format wie CSV eingefügt wird.

Beim Daten-Scraping werden APIs verwendet, die von der Plattform bereitgestellt werden, die gescrapt wird, obwohl die Nutzungsbedingungen der API mit ziemlicher Sicherheit die Massenerfassung von Daten verbieten.

Web Scraping funktioniert, indem es wie ein Webbrowser Anfragen für Webseiten stellt. Aber anstatt die Webseite anzuzeigen, extrahiert die Software die Daten, an denen sie interessiert ist, speichert sie und fordert eine andere Seite an. Die Allgemeinen Geschäftsbedingungen der meisten Websites und sicherlich aller Social-Media-Plattformen verbieten Daten- und Web-Scraping. Trotzdem machen die mit Social-Media-Plattformen verbundenen Nutzerzahlen sie zu attraktiven Zielen für Scraper.

Das Scraping kann von Cyberkriminellen durchgeführt werden, die Zugangsdaten, Zahlungsdetails oder personenbezogene Daten sammeln möchten. Es kann auch aus legitimen Gründen verwendet werden, z. B. zum Sammeln von Nachrichten, zur Überwachung Ihrer Reseller, um sicherzustellen, dass sie keine Preisvereinbarungen brechen, oder für Marktanalysen. Es wird auch zum Sammeln von Geschäftsinformationen, zum Auffinden von Vertriebskontakten und zur Unterstützung von Marketing und Werbung verwendet.

VERWANDTE: So schützen Sie sich gegen API-Angriffe

Große Zahlen – Scraping und Cyberkriminalität

Im Jahr 2020 betrug die Zahl der von YouTube gekratzten persönlichen Aufzeichnungen 4 Millionen. Bei TikTok lag die Zahl mit 42 Millionen mehr als zehnmal höher. Im selben Jahr wurden 191 Millionen persönliche Aufzeichnungen von Instagram abgekratzt. Alle diese Plattformen verbieten das Scraping von Daten.

Werbung

Im April 2021 machte LinkedIn Schlagzeilen, als eine Datenbank mit 500 Millionen personenbezogenen Datensätzen im Dark Web zum Verkauf angeboten wurde. Microsoft, dem LinkedIn gehört, sagte, es habe keine Sicherheitsverletzung gegeben. Die Datenbank war das Ergebnis eines Daten-Scrapings.

Die Datenbank enthielt die folgenden Personen:

  • richtiger Name
  • Geschlecht
  • LinkedIn-Profil-URLs
  • Registrierte E-Mail-Adressen
  • Festnetz- und Smartphonenummern
  • Physische Adressen
  • Geostandortdetails
  • Nutzernamen für andere Social-Media-Konten

Im Juni 2021 erschien eine Datenbank mit 700 Millionen personenbezogenen Datensätzen. Das sind über 90 Prozent der LinkedIn-Mitgliedschaft. Zusammen mit den zusätzlichen 200 Millionen Datensätzen wird in der zweiten Datenbank auf Daten aus anderen Quellen verwiesen, die ein detaillierteres Bild der betroffenen Personen liefern.

Die Datenbank wurde von Cyberkriminellen für Cyberkriminelle erstellt und kann zum Zeitpunkt des Schreibens für 5.000 US-Dollar auf Dark-Web-Marktplätzen und -Foren gekauft werden. Die darin enthaltenen Informationen werden für Straftaten wie Phishing-Angriffe, Spear-Phishing-Angriffe, Social-Engineering-Angriffe und andere Finanzbetrugsfälle verwendet.

VERBUNDEN: Wie man aufhört Identitätsdiebe durch Eröffnung von Konten in Ihrem Namen

Kommerzielle Scraping ist auch problematisch

Was ist mit dem kommerziellen Web- und Daten-Scraping, das stattfindet? Es gibt Unternehmen, mit denen Sie in Kontakt treten können und die Daten für Sie sammeln. Sie können Datenparsing-Toolkits wie die frei verfügbare Python-Bibliothek “Beautiful Soup” verwenden, um Ihre eigenen Web-Scraping-Anwendungen zu erstellen.

Das Problem ist, dass Sie mit ziemlicher Sicherheit immer noch gegen die Regeln der Plattform verstoßen, die Sie verwenden. 8217;wieder kratzen. Und die Plattformen werden versuchen, sich zu verteidigen. Wenn sie dies nicht tun, besteht die Gefahr, dass ihre Mitglieder, Kunden oder andere Benutzer ihre Plattform verlassen.

Werbung

Wenn Sie einem Onlinedienst personenbezogene Daten zur Verfügung stellen, vertrauen Sie dieser Organisation Ihre Daten an. Sie erteilen niemandem die Erlaubnis, diese Daten aufzusaugen und nach eigenem Ermessen zu verwenden. Wenn Unternehmen Ihre Daten kratzen, wissen Sie nicht, wer sie sind, was sie mit den Daten machen, wie sie sie schützen und schützen und wer sie weitergibt mit.

LinkedIn verklagte hiQ Labs Inc. wegen ihrer Daten- und Web-Scrapings. Zu ihrer Verteidigung behauptete hiQ, dass die Daten, die sie von LinkedIn kratzten, gemeinfrei waren und das bedeutete, dass sie zu gewinnen waren. Im Jahr 2019 entschied das 9. US-Berufungsgericht zu Gunsten von hiQ. Aber am 14. Juni 2021 hob der Oberste Gerichtshof die Entscheidung des Neunten Bezirks auf. Seit Juli 2021 befindet sich das Daten- und Web-Scraping für nicht-kriminelle Zwecke in einer rechtlichen Grauzone.

Und noch komplizierter wird es, wenn man die Datengesetzgebung berücksichtigt, die für die Mitglieder der Plattform gilt. Unabhängig davon, ob die Daten eines EU-Bürgers gemeinfrei sind oder nicht, können Sie sie beispielsweise nicht sammeln, speichern und digital verarbeiten, ohne dass eine gesetzliche Grundlage vorliegt, —wie in der DSGVO definiert— ;dafür. Außerdem gibt es einen Unterschied zwischen öffentlich sichtbar und gemeinfrei.

Nach der DSGVO gibt es nur zwei Rechtsgrundlagen, die für das Scraping von Daten denkbar sein könnten. Einer ist die “Einwilligung” und das andere ist “berechtigtes Interesse” Offensichtlich wurde von den Einzelpersonen keine Zustimmung gegeben, das ist also vom Tisch. Und es wäre äußerst schwierig zu argumentieren, dass Sie ein berechtigtes Interesse daran haben, die Daten zu vernichten, die die legitimen Interessen der betroffenen Personen und ihre Datenschutzrechte und -freiheiten nicht mit Füßen treten. Die DSGVO verlangt, dass Sie diese Rechte und Freiheiten wahren und sie nicht mit Füßen treten.

Die DSGVO schützt die Datenschutzrechte von EU-Bürgern unabhängig davon, wo die Verarbeitung stattfindet. Eine Organisation in den USA, die Daten von einer anderen in den USA ansässigen Organisation scrapt, muss dennoch die DSGVO einhalten, wenn personenbezogene Daten von EU-Bürgern in den gescrapten Daten enthalten sind.

Datenschutzgesetze anderer Regionen übernehmen gleiche Haltung, mit einigen kleinen Abweichungen. Die Rechtmäßigkeit des Abkratzens ist, gelinde gesagt, dürftig. Wir werden wahrscheinlich mehr formelle Herausforderungen sehen.

VERBUNDEN:Wie Datenverletzungen und -lecks Ihre Mitarbeiter beeinträchtigen können

So schützen Sie Ihr Unternehmen

Es gibt Schritte und Maßnahmen, die Sie ergreifen, um den Datenkratzern das Leben zu erschweren.

Nutzungsbedingungen

Obwohl die Allgemeinen Geschäftsbedingungen und Nutzungsbedingungen nichts tun, um Cyberkriminelle zu stoppen und möglicherweise nicht einmal “legitime” Scraping ist es dennoch sinnvoll, das Sammeln, Verarbeiten, Speichern oder Teilen von Daten, einschließlich, aber nicht beschränkt auf persönlich identifizierbare Daten, ausdrücklich zu verbieten.

Es könnte einige Personen vom Scraping abhalten. Wenn ja, war das ein einfacher Sieg. Selbst wenn dies nicht der Fall ist, bietet es Ihnen einen rechtlichen Vorteil, wenn die Angelegenheit vor Gericht geklärt werden muss.

Hotlinking deaktivieren

Die Anzeige von Bildern und anderen Medien auf einer Website durch Rückverlinkung auf die ursprüngliche Website wird als Hotlinking bezeichnet. Es verwendet die Bandbreite der ursprünglichen Website und andere Ressourcen, um die Medien bereitzustellen.

Web-Scraping ruft Bilder normalerweise direkt ab, sodass das Deaktivieren von Hotlinking die Scraping-Aktivitäten nicht beeinträchtigt. Aber wenn ein Kratzen stattfindet, das auf Hotlinking beruht, verhindert dies zumindest, dass Beleidigungen zur Verletzung hinzugefügt werden. Sie verbrauchen nicht noch mehr Bandbreite, wenn Ihre gestohlenen Daten angezeigt werden.

CSRF-Token verwenden

Die automatisierten Systeme, die das Scraping durchführen, stellen aufeinanderfolgende HTTPS-Anfragen an Ihre Website. Sie kriechen von Seite zu Seite und folgen Links. Sie erstellen auch URLs zum Ausprobieren. Wenn sie ein Muster erkennen,—wie URLs, die sich durch eine einzelne Ziffer unterscheiden— arbeitet sich die Software durch die vorhersehbaren Kombinationen, bis die Sequenz fehlschlägt.

Werbung

Die Einführung von Cross-Site Request Forgery-Token auf Ihrer Website kann alle außer der intelligentesten Scraping-Software manipulieren. Ein CSRF-Token ist eine eindeutige Kennung, die vom Webserver an den Client gesendet wird, der die Anfrage stellt. Unter normalen Umständen wäre dies ein Browser.

Der Client muss das CSRF-Token bei seiner nächsten Anfrage an den Server zurücksenden. Der Server antwortet nicht auf Anfragen, die nicht das richtige CSRF-Token enthalten. Die meisten Web-Scraping-Software können CSRF-Token nicht verarbeiten, daher ist dies eine wirksame Maßnahme, um Ihr Risiko zu begrenzen.

Ratenbegrenzungs-Seitenanfragen

Die Ratenbegrenzung legt Schwellenwerte für die Anzahl der Anfragen fest, die von einem Client innerhalb eines bestimmten Zeitraums gestellt werden können. In der Regel erfolgt dies über die IP-Adresse, mit Einschränkungen hinsichtlich der Anzahl der Seitenaufrufe oder Downloads pro Sekunde.

Verwenden Sie dedizierte Anti-Scraping-Software< /h3>

Es sind kommerzielle Pakete verfügbar, die Scraping-Aktivitäten erkennen und blockieren. Sie verwenden Techniken, die weit über die einfache Identifizierung eines Clients anhand seiner IP-Adresse hinausgehen. Sie verwenden Techniken des maschinellen Lernens, um Bot-Aktivitäten zu identifizieren, indem sie Aktionen wie die Geschwindigkeit, mit der der Kunde Felder und Formulare ausfüllen kann, die Art und Weise, wie sich die Maus über die Seite bewegt, und die Art und Weise, wie sich der Client durch die Website bewegt, messen. Alle nicht-menschlichen Aktivitäten werden blockiert.

Menschliche Interaktion erfordern

Kunden dazu zwingen, ein Konto zu erstellen und CAPTCHA oder andere Challenge-Response-Tests zu verwenden, können Hilfe bei der Ablehnung automatischer Scraper.

Machen Sie Ihre APIs straffer

Schützen Sie Ihre APIs und begrenzen Sie ihre Fähigkeiten, damit sie die minimale Datenmenge zurückgeben, um den API-Aufruf zu erfüllen, den sie bedienen.

Werbung

Es ist für Entwickler attraktiv, datenreiche APIs bereitzustellen und eher zu viel als zu wenig bereitzustellen. Dies legt die Verantwortung auf den Client, die gewünschten Informationen zu analysieren und den Rest abzulehnen. Es verringert die Wahrscheinlichkeit, dass Nacharbeiten erforderlich sind, weil die API eine bestimmte Information nicht bereitgestellt hat. Aber diese Ausführlichkeit spielt in die Schaber ’ Hände.

Stellen Sie stattdessen Ihre APIs schlank und gemein. Geben Sie an, wonach gefragt wurde, und nicht mehr. Sie können auch API-Clients bewerten.

Versteckte Links auf einer Webseite sind für echte Benutzer unsichtbar, aber Web-Scraping-Software findet und folgt alle Links. Wenn ein Kunde einem versteckten Link folgt, handelt es sich wahrscheinlich um einen automatisierten Prozess. Sie können sie dann blockieren.

Die Zeit wird es zeigen

Cyberkriminelle interessieren sich per Definition nicht für Gesetze. Kommerzielle Betriebe haben keine Wahl. Wenn der Fall hiQ gegen LinkedIn einen rechtlichen Präzedenzfall schafft und das Scraping als Verstoß gegen das Gesetz über Computerbetrug und -missbrauch betrachtet, wirkt sich dies nur auf die Ausführung von “gewerblichen” kratzen. Das Scraping von Daten durch Cyberkriminelle wird fortgesetzt.

Wie auch immer das Ergebnis ausfällt, Sie müssen Ihr Unternehmen trotzdem schützen.

 

 < /p>