Qu'est-ce que le grattage de données et pourquoi est-ce une menace ?

0
313
fizkes/Shutterstock.com

Scraping de données est encore une autre façon d'extraire les données de votre site Web, portail ou plate-forme. Étonnamment, la légalité du grattage des données est une zone grise. Voici comment s'en défendre.

Qu'est-ce que le grattage de données et le grattage Web ?

Le grattage de données et le grattage Web sont deux techniques automatisées différentes qui atteignent le même objectif. Ils récoltent des données à partir de systèmes appartenant à des tiers. Ils extraient les données, les rassemblent et les stockent de manière à faciliter leur réutilisation. Cela signifie généralement le mettre dans une base de données ou dans un format portable comme CSV.

Le grattage de données utilise les API fournies par la plate-forme en cours de grattage, même si les conditions d'utilisation de l'API interdisent presque certainement la collecte de données en masse.

Le grattage Web fonctionne en faisant des demandes de pages Web comme le fait un navigateur Web. Mais au lieu d'afficher la page Web, le logiciel extrait les données qui l'intéressent, les enregistre et demande une autre page. Les conditions générales de la plupart des sites Web et certainement de toutes les plateformes de médias sociaux interdisent le grattage de données et de sites Web. Malgré cela, le nombre d'utilisateurs associés aux plateformes de médias sociaux en font des cibles attrayantes pour les scrapers.

Le grattage peut être effectué par des cybercriminels qui souhaitent collecter des identifiants de connexion, des détails de paiement ou des informations personnellement identifiables. Il peut également être utilisé pour des raisons légitimes telles que l'agrégation d'actualités, la surveillance de vos revendeurs pour vérifier qu'ils ne rompent pas les accords de prix ou pour l'analyse du marché. Il est également utilisé pour collecter des informations commerciales, localiser des prospects et étayer le marketing et la publicité.

CONNEXION : Comment vous défendre contre les attaques d'API

Big Numbers – Scraping et cybercriminalité

En 2020, le nombre de dossiers personnels récupérés sur YouTube était de 4 millions. Le chiffre de TikTok était plus de dix fois plus élevé, à 42 millions. La même année, 191 millions de dossiers personnels ont été supprimés d'Instagram. Toutes ces plates-formes interdisent le grattage des données.

Publicité

En avril 2021, LinkedIn a fait la une des journaux lorsqu'une base de données de 500 millions d'enregistrements personnels a été mise en vente sur le dark web. Microsoft, propriétaire de LinkedIn, a déclaré qu'il n'y avait eu aucune violation de la sécurité. La base de données était le résultat du grattage des données.

La base de données contenait chaque membre concerné :

  • Nom réel
  • Sexe
  • URL de profil LinkedIn
  • Adresses e-mail enregistrées
  • Numéros de ligne fixe et de smartphone
  • Adresses physiques
  • Détails de géolocalisation
  • Noms d'utilisateur pour d'autres comptes de réseaux sociaux

En juin 2021, une base de données de 700 millions d'enregistrements personnels est apparue. Cela représente plus de 90 % des membres de LinkedIn. Avec les 200 millions d'enregistrements supplémentaires, la deuxième base de données est référencée avec des données extraites d'autres sources, fournissant une image plus détaillée des personnes concernées.

Créée par des cybercriminels pour des cybercriminels, la base de données peut être achetée pour 5 000 $ au moment de la rédaction sur les marchés et les forums du dark web. Les informations qu'il contient seront utilisées pour des crimes tels que des attaques de phishing, des attaques de spear-phishing, des attaques d'ingénierie sociale et d'autres fraudes financières.

CONNEXES : Comment arrêter Voleurs d'identité en ouvrant des comptes en votre nom

Le grattage commercial est également problématique

Qu'en est-il du Web commercial et du grattage des données qui ont lieu ? Il existe des entreprises avec lesquelles vous pouvez vous engager et qui récupéreront les données pour vous. Vous pouvez utiliser des boîtes à outils d'analyse de données telles que la bibliothèque Python Beautiful Soup disponible gratuitement pour créer vos propres applications de scraping Web.

Le problème est que vous violez presque certainement toujours les règles de la plate-forme sur laquelle vous 8217;re grattage. Et les plateformes vont essayer de se défendre. S'ils ne le font pas, leurs membres, clients ou autres utilisateurs sont susceptibles de quitter leur plateforme.

Publicité

Lorsque vous choisissez de fournir des données personnelles à un service en ligne, vous confiez vos données à cette organisation. Vous n'autorisez personne d'autre à récupérer ces données et à les utiliser comme bon leur semble. Lorsque des organisations récupèrent vos données, vous ne savez pas qui elles sont, ce qu'elles vont faire avec les données, comment elles vont les sauvegarder et les protéger, ni avec qui elles vont les partager avec.

LinkedIn a poursuivi hiQ Labs Inc. pour leurs données et leur grattage Web. Pour sa défense, hiQ a affirmé que les données qu'ils extrayaient de LinkedIn étaient dans le domaine public et que cela signifiait qu'elles étaient à gagner. En 2019, la 9e cour d'appel des États-Unis a statué en faveur de hiQ. Mais le 14 juin 2021, la Cour suprême a annulé la décision du neuvième circuit. Depuis juillet 2021, le grattage de données et le grattage Web à des fins non criminelles se trouvent dans une zone grise légale.

Et les choses se compliquent lorsque l'on prend en compte la législation sur les données qui s'applique aux membres de la plateforme. Par exemple, que les données d'un citoyen de l'UE soient dans le domaine public ou non, vous ne pouvez pas les récolter, les stocker et les traiter numériquement sans base légale, comme défini par le RGPD. ; pour le faire. De plus, il y a une différence entre visible publiquement et dans le domaine public.

En vertu du RGPD, il n'y a que deux bases légales qui pourraient éventuellement s'appliquer au grattage des données. L'un est le “consentement” et l'autre est « l'intérêt légitime ». De toute évidence, le consentement n'a pas été donné par les individus, ce qui est hors de propos. Et il serait extrêmement difficile de prétendre que vous aviez un intérêt légitime à supprimer les données qui n'empiètent pas sur les intérêts légitimes des personnes concernées, ainsi que sur leurs droits et libertés en matière de confidentialité des données. Le RGPD exige que vous respectiez ces droits et libertés et que vous ne les bafouiez pas.

Le RGPD protège les droits à la confidentialité des données des citoyens de l'UE, quel que soit le lieu du traitement. Une organisation aux États-Unis qui récupère des données d'une autre organisation basée aux États-Unis doit toujours se conformer au RGPD si des informations personnellement identifiables de citoyens de l'UE figurent dans les données récupérées.

La législation sur la protection des données d'autres régions adopte la même position, avec quelques petits écarts. La légalité du grattage est pour le moins ténue. Nous sommes susceptibles de voir des défis plus formels.

CONNEXES :Comment les violations de données et les fuites peuvent affecter vos employés

Comment protéger votre organisation

Il existe étapes et mesures que vous mettez en place pour rendre la vie plus difficile pour les grattoirs de données.

Conditions d'utilisation

Bien que les conditions générales et les conditions d'utilisation ne fassent rien pour arrêter les cybercriminels et pourraient même ne pas s'arrêter “légitime” scraping, il est toujours logique d'interdire explicitement la collecte, le traitement, le stockage ou le partage de toute donnée, y compris, mais sans s'y limiter, les données personnellement identifiables.

Cela pourrait empêcher certaines personnes de scraper. Si c'est le cas, c'était une victoire facile. Même si ce n'est pas le cas, cela vous donnera un avantage juridique si les problèmes doivent être résolus devant les tribunaux.

Désactiver les liens hypertexte

L'affichage d'images et d'autres médias sur un site Web en renvoyant au site Web d'origine est appelé hotlinking. Il utilise la bande passante du site Web d'origine et d'autres ressources pour servir les médias.

Le grattage Web récupère généralement les images directement. Par conséquent, la désactivation des hotlinks n'affectera pas leurs activités de grattage. Mais, s'il y a un grattage qui repose sur le hotlinking, cela empêche au moins l'insulte d'être ajoutée à la blessure. Ils ne pinceront pas encore plus de bande passante lorsque vos données volées sont affichées.

Utilisez des jetons CSRF

Les systèmes automatisés qui effectuent le grattage effectuent des requêtes HTTPS successives sur votre site Web. Ils rampent de page en page, en suivant des liens. Ils créent également des URL à essayer. S'ils détectent un modèle—tel que des URL qui diffèrent d'un seul chiffre—le logiciel parcourt les combinaisons prévisibles jusqu'à ce que la séquence échoue.

Publicité

L'introduction de jetons Cross-Site Request Forgery sur votre site Web peut rebuter tous les logiciels de grattage, sauf le plus intelligent. Un jeton CSRF est un identifiant unique envoyé du serveur Web au client effectuant la demande. Dans des circonstances normales, il s'agirait d'un navigateur.

Le client doit renvoyer le jeton CSRF au serveur lors de sa prochaine requête. Le serveur ne répondra à aucune demande qui n'inclut pas le jeton CSRF correct. La plupart des logiciels de scraping Web ne peuvent pas gérer les jetons CSRF, il s'agit donc d'une mesure efficace pour limiter votre exposition.

Demandes de page de limite de taux

La limitation du débit définit des seuils sur le nombre de requêtes pouvant être effectuées par un client au cours d'une période donnée. Généralement, cela se fait par adresse IP, avec des restrictions sur le nombre de demandes de pages ou de téléchargements pouvant être effectués par seconde.

Utiliser un logiciel anti-grattage dédié< /h3>

Des packages commerciaux sont disponibles pour détecter l'activité de grattage et la bloquer. Ils utilisent des techniques qui dépassent de loin la simple identification d'un client par son adresse IP. Ils utilisent des techniques d'apprentissage automatique pour identifier l'activité des robots en mesurant des actions telles que la vitesse à laquelle le client peut remplir les champs et les formulaires, la façon dont la souris se déplace sur la page et la façon dont le client se déplace sur le site Web. Toute activité non humaine est bloquée.

Exiger une interaction humaine

Forcer les clients à créer un compte et utiliser CAPTCHA ou d'autres tests de défi-réponse peut aide à rejeter les grattoirs automatiques.

Rendez vos API strictes

Sécurisez vos API et limitez leurs capacités afin qu'elles renvoient le minimum de données pour satisfaire l'appel d'API qu'elles traitent.

Publicité

Il est intéressant pour les développeurs de fournir des API riches en données et de sur-fournir plutôt que de sous-fournir. Cela place la responsabilité sur le client d'analyser les informations qu'il souhaite et de rejeter le reste. Cela réduit le risque de retravailler car l'API n'a pas fourni une information particulière. Mais cette verbosité joue dans les grattoirs’ mains.

Au lieu de cela, rendez vos API simples et efficaces. Fournir ce qui a été demandé, et pas plus. Vous pouvez également évaluer la limite des clients API.

Les liens cachés sur une page Web seront invisibles pour les utilisateurs authentiques, mais le logiciel de grattage Web trouvera et suivra tous les liens. Si un client suit un lien caché, il s'agit probablement d'un processus automatisé. vous pouvez ensuite les bloquer.

Le temps nous le dira

Les cybercriminels, par définition, ne se soucient pas de la loi. Les opérations commerciales n'ont pas le choix. Si l'affaire hiQ c. LinkedIn établit un précédent juridique et considère que le grattage constitue une violation de la loi sur la fraude et les abus informatiques, cela n'affectera que l'exécution des actions “commercial” grattage. Le grattage des données par les cybercriminels se poursuivra.

Donc, quel que soit le résultat, vous devrez toujours protéger votre organisation.

 

 < /p>