Le spam du futur sur les blogs
Voici quelques détails sur un tout nouveau type de spam sur les blogs, particulièrement ingénieux, tout en subtilité et difficile à détecter.
Globalement, tout le monde sait ce qu’est un spam : pour rappel, c’est un message non désiré, faisant la plupart du temps de la publicité. En général, il contient un lien vers un site marchand, ainsi que parfois une description du produit que l’on veut vous refourguer vanter. A titre d’exemples, beaucoup de spams contiennent de la pub pour du Viagra (et simili) ou des produits de contrefaçon (soit-disant marques à des prix irréalistes).
La plupart des spams sont sous forme d’e-mail. On commence aussi à en rencontrer par SMS. Cependant, le spam sur les blogs est aussi devenue monnaie courante. Il prend la forme de commentaires contenant souvent des listes d’adresse web (parfois plusieurs dizaines), et pouvant parfois pleuvoir par dizaines en même temps sur un seul blog.
Le spam par blog est relativement facile à gérer. Il existe principalement deux possibilité :
- L’utilisation d’un captcha est souvent radicale. Il s’agit d’une image contenant des lettres déformées et qu’il vous est demandé de reproduire. Le principe est très simple : le programme informatique à l’origine des spams sera tout simplement incapable de reproduire les-dites lettres. L’inconvénient est pour l’utilisateur, qui est alors obligé de perdre du temps à recopier ce code.
- L’utilisation d’un filtre bayésien fonctionne assez bien aussi. C’est ce que je fais sur mon blog. Le principe est de filtrer tous les commentaires ; le filtre va alors apprendre ce qui est un spam et ce qui n’en est pas. Au départ, il y a une phase où je doit lui indiquer la différence entre les deux, mais la mise en place est assez rapide.
Cependant, une toute nouvelle forme de spam sur les blogs semble se développer depuis peu. Il s’agit toujours de commentaires, mais infiniement plus subtiles. Ceux-ci sont rédigés en français, avec quelques fautes de frappe/orthographe. L’adresse web n’est pas indiquée dans le commentaire, mais en tant que site du visiteur (lien sur le pseudonyme). Là où c’est fort, c’est que le commentaire est souvent généraliste (non ciblé), et est presque toujours un compliment sur le blog ou l’article. Du coup, il est difficile d’y voir un spam. D’ailleurs, l’adresse web indiquée au niveau du pseudo n’est pas souvent un site marchand, mais plutôt un site quelconque contenant pas mal de publicités.
Là où c’est encore très fort, c’est que du coup, le filtre bayésien ne peut pas les détecter comme spam. En effet, si je récapitule : pas d’adresse web dans le commentaire, écrit en français, pseudos réalistes, adresses mails avec des domaines existants… Même les « fautes volontaires » (lettres inversées ou doublées) sont aléatoires pour deux commentaires-spams identiques. A titre d’exemple, voici un de ces fameux nouveaux spam sur mon blog : ici. Pour finir, il semblerait que les blogs ayant eu leur URL sur Facebook soient les premiers touchés.
Je suis donc en train de réfléchir à un moyen d’enrayer ce type de pollution. Un captcha serait la solution, mais j’ai toujours trouvé ça anti-ergonomique. Affaire à suivre…
Personnellement, je n’aime pas trop les captcha sous forme de lettres tordues très moches à déchiffrer. Je sais pas si c’est moi, mais sur certains sites, j’ai parfois un peu de mal à reconnaître les lettres, du coup il faut recommencer, et c’est pénible.
Mais n’y a-t-il pas d’autres solutions que les lettres toutes moches ?
Un captcha sous forme de "écrivez 1 plus 4" me paraît déjà beaucoup moins pénible, l’effort de calcul mental demandé étant à mon goût largement préférable aux interrogations métaphysiques du style "c’est un "7" ou un "1" le 2ème gribouilli ?"
Il y a aussi la solution adoptée par le forum d’une célèbre distribution GNU/Linux dont je tairais le nom 😉 qui met tout simplement "écrivez "robot"" ou "tapez "ubuntu"".
Sinon, comme tu récupères le nom de l’internaute si on a déjà posté un message, est-ce que tu ne peux pas ne demander de taper le captcha que si c’est un illustre inconnu ?
Je suis assez d’accord avec toi concernant les lettres tordues.
Une captcha du type "8/2 = ?" m’avais aussi élfeuré, et je pense que c’est là-dessus que je me dirigerai… Concernant ton idée prennant en compte le fait que l’internaute ait déjà commenté, c’est très très bien vu ! Je ne sais pas si c’est possible, mais je vais creuser…
Bon, j’ai installé un captcha honnête, mais un gros problème demeure : on peu très bien envoyer un commentaire sans rien entrer dans le captcha. C’est assez embêtant (et inutile, donc). 😀
J’étudie le problème…
Voilà qui semble désormais fonctionner
je rajoute à te commentaires que les pseudo de ces nouveaux spams sont des pseudo féminin, probablement pour que les possesseur de blog (majoritairement masculin sur le web) hésitent à les supprimer ! C’est pousser le vice assez loin, je trouve XD
Héhé, je savais qu’un jour tu serais obligé d’y passer ^^. Pour ma part cela fait bien longtemps que j’en ai mis un.
J’ai pour ma part une autre solution dont je ne parlerai pas ici mais que vous verrez sur la prochaine version de mon blog…
@ Lyr :
Effectivement, bien vu. Je n’avais même pas fait gaffe.
@ Tharkun :
A mon grand damn, effectivement. 🙁
Par contre, je ne suis pas fan du tout du captcha de ton blog : trop long et pas assez clair (ça m’arrive régulièrement de l’entrer 2 ou 3 fois pour valider un commentaire.
@Ekho :
Pourquoi ne me l’as-tu pas dis plutôt ? Je l’aurai modifié plus tôt…
Cela te convient mieux ?
Ouf !!
Ca a été dur, mais j’ai retrouvé le commentaire de ton blog où je te l’avais indique ! 😉 C’est ici : http://www.dev-tharkun.com/blog/...
Le nouveau semble bien mieux, effectivement.
oki cool
@Lyr : effectivement ce sont tous des pseudos féminins, je n’avais pas remarqué. Ça doit être pour flatter les Kevin et autres Kikoolol pour qu’ils croient qu’ils ont du succès auprès des filles.
@Coco : ton captcha est pas mal, je trouve (comprendre par là : pas trop pénible). Je me demande pourtant tant de sites optent pour des lettres et chiffres tout tordus, c’est anti-ergonomique au possible.
Oh, mais il y même des questions de culture générale ! C’est pas que du calcul mental et des mots à trous. C’est bien, ça.
La plupart des sites optent pour ces solutions car elles sont quasiment impossibles à résoudre.
Pour trouver quels sont les chiffres ou lettres, il faut utiliser des algorithmes puissants.
@ Eldermê :
J’aime bien aussi ce principe. Concernant les questions de culture générale, c’est moi qui les ai ajouté. Je me suis fait plaisir… 🙂
@ Tharkun :
Les questions bateaux de mon captcha me semblent assez difficiles à passer aussi, non ?! Parce que avec des questions du genre "quelle est la couleur de Dark Vador" (véridique, je l’ai mise celle-là :-D), y’a aucune chance qu’un robot puisse passer. Si ?
Sinon, de manière générale, est-ce qu’il est assez visible ?! De toute façon, a priori, il y a une message d’alerte en cas d’oubli…
Bah de toute façon, il y a toujours le moyen de passer ta protection. Mais pour cela il faudrait mettre une logique en place et un robot ne suffira pas c’est certain.
Pour ton histoire de Captchas, il est possible d’en faire qui soient invisibles pour les visiteurs en utilisant du Javascript.
Le principe est plutôt simple et pars du principe que les bots de spams n’ont pas d’engine JS.
Il faut un champ dans ton formulaire, HIDDEN. Au chargement de la page, tu peux supprimer ce champ, ou, un peu mieux le remplacer par une autre valeur et lors de la vérification du message il faut vérifier la valeur du champ.
En général les bots ne vont pas toucher les champs HIDDEN, même si il le faut ce sera une valeur arbitraire qui ne va pas correspondre à celle que tu voulais.Au cas où le bot embarque une Engine JS, patiente quelques secondes après le chargement de la page pour effectuer le changement dans le champ.