Un titre choc pour faire frissonner les geeks les plus aguerris ! :)
Depuis quelques jours maintenant, Tribords.com est victime d'un assaut de commentaires d'un nouveau genre : pas ceux pour les pilules habituelles ou les sempiternels "merci pour le bon travail, j'adore votre site" des linkeurs du dimanche. Il s'agit d'une manière de faire malicieuse et pleine d'une sournoiserie qu'on ne trouve que chez les plus enragés d'entre nous. Le topo en quelques mots : les pseudos utilisés sont des chaînes de caractères aléatoires mal formées avec en texte pour le commentaire, du français parfaitement correct et presque bien orthographié. Le seul hic de cet extravagant mélange : tous ces avis sont à coté de la plaque. Avec un systématisme qui sent bon l'automatisme des robots de tous poils.
Ils viennent probablement pourrir ma base de prose bien tournée non pas pour faire fleurir mes user generated contents mais plutôt faire grimper mon taux de duplicate content ; voilà ma conclusion. Du negative-SEO pur jus dont me voilà la cible. Pourquoi je dis ça ? Parce que le petit fripon que voilà a posté des sentences et bouts de phrases qui laissent clairement penser à des conversations. Si sur mon billet à propos des medias sociaux on me répond sans ciller tu l'as dit tonio elle est trop gentille martine ! xD ... on voit bien que cette déclamation là vient du zinc le plus fréquenté du web : Facebook. Là où fleurissent les discussions les plus avancées de l'ère moderne.
Grâce à la très délicieuse API de Facebook, il est relativement aisé d'accéder aux likes mais aussi aux replys et commentaires de n'importe quelle page dont on connaît l'identifiant. Un bon petit tour de moulinette là dedans en se basant par exemple sur le top des pages fans Facebook les plus importantes et l'affaire est dans le sac. Les spammeurs disposent là de milliers de petits textes uniques qui ne sont pas encore tous indexés par l'ami Google. Car oui ; c'est déjà en cours, les robots de Moutain View commencent à indexer et analyser ses conversations d'un autre monde ...
Heureusement quand on maîtrise le PHP sur le bout des phalanges, on ne se laisse pas berner longtemps : j'ai donc mis au point une petite parade que j'ai ajoutée à mon fichier nettoie.php sur lequel vous pouvez cliquer avec grand plaisir pour m'aider à alléger MySQL ; dans le code, quelques lignes pour une idée simple : virer les messages dont le pseudo utilisé contient plus de deux voyelles ou consonnes à la suite. Parce que dans la vie courante de notre bonne vieille francophonie, ce genre de cas se présente fort rarement : trois voyelles qui se suivent et plus, c'est forcément du robot illettré.
Maintenant et au delà de cette astuce de base, j'ai bien conscience que cela va m'être difficile de pouvoir détecter la provenance (via la récurrence) des commentaires qui sont postées sur ces pages ... La modération manuelle sera toujours de mise dans ce monde où l'ingéniosité machiavélique nous rassure, tout de même, sur la vivacité de l'esprit humain.
Ce n'est pas la première fois que j'évoque ici mes techniques et réflexions autour du spam ; en voici un florilège : un anti-spam en PHP assez efficace ou alors celui-ci ; les joies du dofollow sans risques ainsi qu'une édifiante théorie sur les bienfaits du spam pour les blogueurs qui en ont. Et chez vous, avez-vous déjà eu maille à partir avec ce genre de procédé ?