Culture du hacking

L’arnaque au téléchargement – Chapitre 1

Ceci est la suite de l’introduction à l’arnaque au téléchargement.

Comment peut-on amener un internaute à se rendre sur un portail qui va tenter de l’escroquer, sans éveiller ses soupçons ? En copiant ce qui se fait sur les sites légitimes mais sans se référencer soi-même. C’est exactement la démarche suivie par Lilplay et consorts.

L’alimentation des différents supports

Pour que les utilisateurs soient en confiance, il faut que les différents supports, servant de porte d’entrée vers les sites finaux, mettent en confiance les potentielles victimes. De ce fait, il ne suffit pas de mettre trois liens, renvoyant vers les mêmes sites : il faut produire des contenus, avec du texte, des images d’illustration et ensuite les liens. Que ce soit dans les Fusion Tables ou les contenus de blogs voire les descriptions des vidéos Youtube, ce sont toujours les mêmes textes. Il s’agit en réalité des descriptions piochées sur les portails légaux. Ainsi, dans le cas des livres français, ce sont tout simplement les descriptions insérées par les éditeurs ou les auteurs sur Amazon.

Ce copier-coller a une double vertu : il permet d’avoir rapidement du texte à insérer et ne comporte que très peu, voire pas du tout, de fautes d’orthographe et de grammaire. En effet, on peut repérer les différentes arnaques sur le Web par les erreurs contenues dans la syntaxe. Mais quand un utilisateur normal tombe sur un article de blog, faisant une description du contenu qu’il cherche à acquérir, dans un français à peu près correct, il n’a aucune raison de se méfier. Il se méfie d’autant moins que les blogs en question semblent en apparence tenus par d’autres utilisateurs normaux : blogs hébergés sur des grandes plateformes connus, au design peu recherché, bref, en apparence extrêmement banals.

Se pose donc deux questions :

  • Comment savoir quels sont les contenus qui vont être recherchés ?
  • Comment récupérer au plus vite les descriptions des contenus ?

En fait, les sites légaux sont mis à contribution sans le savoir. Il suffit de se référer au Top des ventes des sites comme Amazon, au classement IMDB ou encore à celui de Steam pour savoir quels seront les contenus les plus demandés.

Une simple recherche dans Google permet de voir quels sont les sites légaux les plus consultés en matière de contenus culturels et pour être sûr de cibler de façon encore plus précise et fine, il suffit de paramétrer certains critères régionaux : les demandes en matière de séries ne sont pas nécessairement les mêmes en Amérique que celles qu’il peut y avoir en Europe ou en Russie.

Il ne reste plus qu’à configurer un outil de scrape – récupération de données dans le cas présent – ou de web monitoring – surveillance de mise à jour de page Web – au bon endroit pour se mettre à la place d’un consommateur ordinaire. Certains outils de monitoring – assez onéreux pour un particulier – sont particulièrement efficaces en la matière. 

Ensuite, il suffit d’utiliser un outil de réécriture – on appelle cela des articles spinners – pour donner une vague impression de personnalisation.

Evidemment, une surveillance manuelle serait impossible, tout comme une récupération manuelle, c’est pour cela qu’on a codé des outils pour surveiller et récupérer automatiquement les données. Du côté des sites, il n’y a aucune véritable raison de bloquer ces scripts car ils ne font que récupérer de l’information disponible, il n’y a pas d’intrusion. Par ailleurs, même en essayant de les bloquer, un changement d’user-agent permet de bypasser ce type de blocage.

Quant à la récupération des descriptions, c’est encore plus simple, au point ça en est inquiétant. Il existe des outils voire des plugins pour WordPress, qui vous permettent de récupérer automatiquement les contenus et descriptions d’autres sites ou blogs.

Le schéma est donc le suivant :

  • Un livre apparaît dans le Top 100 des ventes sur le portail d’Amazon France, peu importe d’ailleurs qu’il existe en numérique ou non ;
  • Une alerte est reçue dans les systèmes de surveillance de la « maison-mère » ;
  • Le système de la « maison-mère » récupère automatiquement la description du livre ;
  • Cette description est automatiquement ajoutée sur les différents blogs, comptes Youtube et autres Fusion Table, le tout indexé par Google, qui privilégie ses propres produits.

Cette technique de récupération de contenus automatiques et surtout de publication dupliquée est normalement pénalisée par Google car elle s’apparente à du black SEO – c’est d’ailleurs sur des forums traitant du sujet que j’ai découvert ces outils. Mais personne n’est capable de déterminer avec précision à quel moment le couperet tombera. Par ailleurs, les descriptions sont parfois copiées-collées deux fois de suite dans le corps du contenu.  On note également que sur certains sites, des pages temporaires avec de faux commentaires Facebook sont ajoutés. Pour l’utilisateur, on a l’impression que c’est en temps réel et que les commentaires sont postés par de vraies personnes. En fait, il existe des générateurs de commentaires Facebook, plus vrais que nature et il suffit de paramétrer correctement son script pour qu’ils s’affichent au fur à mesure. Combinés avec des générateurs de faux profils, on a le kit parfait pour faire croire à un internaute que le contenu qu’il recherche va se trouver là où on le lui dit. Il n’est donc même pas nécessaire de faire de faux comptes Facebook. Enfin, comme il s’agit de blogs gratuits, sans forcément de noms de domaine « en propre », s’ils sont bannis des résultats, il suffit simplement de les fermer et d’en ouvrir d’autres ou plus simplement : d’en activer d’autres.

Un blog temporaire

Parmi les joyeusetés des forums de black SEO, on trouve des packs vendant des blogs WordPress, BlogSpot (fusionné avec Blogger car racheté par Google) et autres comptes sur différentes plateformes, notamment Russes et Nord-Américaines. Pour un pack de 100 comptes Tumblr, comptez 50€. Pour un pack de 100 comptes Blogger – la plateforme de blogs de Google – comptez 120€ et pour un pack 100 comptes WordPress, cela vous coûtera seulement 30€.  

Dans la mesure où ces sites n’ont pas vocation à devenir des incontournables mais bien des portes d’entrées éphémères, il n’est pas nécessaire d’y passer des heures à les configurer, à les mettre en forme comme on le ferait avec de vrais blogs. Mais comme ces sites se référencent les uns les autres, que les utilisateurs passent dessus et qu’ils sont en apparence classiques, ils ressortent dans les premiers résultats de recherche. Un utilisateur normal n’a aucune raison de se méfier, d’autant qu’il n’y a pas de publicités incrustées par le blogueur la plupart du temps.

Parfois, ces blogs mènent directement vers les fermes de sites que je vais décrire dans les prochains chapitres mais parfois, ils amènent à des sites intermédiaires.