Content spinning avec DeepL : Retour d’Expérience

Intro: J’ai voulu écrire un big article sur ma manière d’écrire en optimisant pour le SEO mais j’ai perdu la sauvegarde. Je remets donc ça à plus tard. ¯\_(ツ)_/¯ 

Intro #2 : Je vais parler de content spinning, si tu ne sais pas ce que c’est, rends-toi ici et reviens ensuite lire l’article, c’est mieux. – Disclaimer : Je vais parler de « content spinning » dans cet article plutôt dans le sens « reformulation » que « génération automatique de contenu à partir d’une source unique ».

Intro #3 : N’ayant pas trouvé de retour d’expérience similaire permettant de vérifier ma théorie, j’ai dû en faire le test et voici le résultat.

Bonjour, ça va ?

Aujourd’hui, je vais vous parler d’une expérience que j’ai effectué et qui, il faut le dire, n’a pas été très concluante à l’heure où j’écris ces mots.

Parce que le Labo Webmarketing, ce n’est pas seulement un endroit où on expose les réussites, c’est aussi un endroit où on balance les expériences qui ont raté pour comprendre pourquoi ça n’a pas fonctionné et ouvrir de nouvelles pistes de réflexion quant à l’optimisation SEO du contenu.

Parce que l’échec, c’est aussi comprendre un peu mieux les rouages de Google et potentiellement formuler de nouvelles théories.

D’ailleurs je vais en tester une autre qui est un peu moins white-hat que celle-ci dans peu de temps.

Allez, on entre dans le sujet les enfants.

Contexte de l’expérience

Je gère le référencement d’un site internet, ce site possède déjà un profil de liens plutôt solide avec des ancres optimisées sur l’ancien positionnement dudit site internet. (Trust flow / Citation Flow équilibrés autour de 50)

Comme vous pouvez le deviner, le positionnement du site a changé il y a quelques mois déjà, mais les liens contenant des ancres optimisées sur l’ancien positionnement restent toujours actifs. Donc nous avons des liens optimisés sur un mot-clé renvoyant vers une page qui ne le contient pas vraiment. En effet, le nouveau positionnement de la page est proche de l’ancien positionnement mais il est tout de même différent.

En regardant le positionnement du site sur les différents mots-clés que le site pouvait viser, il s’est avéré que la page d’accueil du site, même en ayant un nouveau positionnement, ressortait plutôt bien sur l’ancien mot-clé. Je me suis donc dit : Si la nouvelle page -ne contenant pas le mot clé- arrive à se positionner en troisième page juste grâce à ses liens, Google doit encore considérer le site comme étant pertinent sur cet ancien mot-clé.

DONC : Il pourrait être intéressant de créer une page spécifiquement optimisée pour ce mot-clé voisin du mot clé sur lequel le site se positionne actuellement pour attirer le trafic qualifié.

Théorie : Créer un clone de la page d’accueil et l’optimiser sur ce mot-clé

L’idée derrière cette théorie est que, les pages étant plutôt proches en terme de contenu et de positionnement, il serait intéressant de la dupliquer et reformuler l’ensemble du texte en gardant le sens général tout en optimisant pour l’ancien mot-clé. J’ai donc téléchargé la page d’accueil (CTRL+U et Sauvegarder la page) pour commencer à l’éditer.

La méthode utilisée : DeepL et spinning manuel

Comme je l’ai dit un peu plus tôt, le but est de reformuler l’ensemble du contenu. Dans la mesure où le positionnement est relativement proche de l’ancien et que le contenu du nouveau positionnement est bien optimisé SEO, j’ai décidé de garder le même sens en reformulant l’ensemble du contenu.

Donc, mon plan d’attaque :

  • Remplacer les mots par des équivalents
  • Changer des tournures de phrases
  • Utiliser des expressions

Le but était de garder un champ sémantique proche du texte d’origine, tout en étant différent.

C’est ici que DeepL entre en jeu.

Pour vous la faire courte : DeepL est un traducteur qui se sert de l’intelligence artificielle pour effectuer des traductions. Comme les développeurs sont des gens sympathiques et qu’ils veulent entraîner leur algorithme de traduction, ils proposent de corriger soi-même les traductions, directement depuis l’éditeur.

Et c’est ici que ça commençait à devenir intéressant. DeepL propose de corriger et reformuler la phrase. Pas mal pour reformuler des parties de contenu entières.

J’ai donc copié le contenu, traduit en anglais puis retraduit pour pouvoir l’éditer. Comme ça.

On entre dans le vif du sujet, on peut commencer à spinner le contenu manuellement depuis l’éditeur.

Pour l’exemple, j’ai pris une portion de texte présent dans un de mes anciens articles :

Certaines personnes l’ont remarqué, depuis quelques jours, lorsque nous visitons une page d’un site et que l’on revient sur la page de résultats de Google, un léger encart qui propose une suggestion de mots clés apparaît sous la page précédemment visitée.

Cet encart n’est pas vraiment nouveau, puisqu’il ne s’agit ni plus ni moins que des recherches associées, autrefois placées en bas de page.

Après modification, nous arrivons à ce résultat :

Depuis quelques jours, si on visite des pages de sites et que nous revenons sur les résultats de la recherche Google, un petit texte qui suggère des idées de mots-clés fait son apparition sous la page consultée antérieurement.

Cet encart est assez récent, car il ne constitue rien de plus que des recherches associées, anciennement situées dans la partie inférieure de la page.

Comme vous pouvez le voir, une très grande partie des mots du texte d’exemple a été remplacée en conservant le sens.

J’ai fait cette modification sur l’ensemble du contenu de la page en y mettant les optimisations SEO habituelles.

Mise en ligne de la page et résultat : ❌

Ce n’est pas un secret, ça n’a pas fonctionné. Je vais cependant aller un peu plus loin en checkant les optimisations de contenu effectuées :

  • Optimisation de l’URL sur le mot-clé : ✔️
  • Modification des thèmes abordés par la page : ❌
  • Remaniement du contenu : ✔️
  • Modification des titres : ✔️, partiellement.
  • Modification du nom des images et attributs alt : ❌
  • Accessibilité de la page par Google : ✔️
  • Structure de la page : Identique 

J’ai donc mis en ligne la page dans un sous-répertoire monsite.com/mot-clé-optimisé/ et placé le lien d’accès à cette page dans un menu pour que les moteurs de recherche puissent la trouver.

La mise en ligne a eu lieu il y a deux jours, Google a crawlé la page aujourd’hui et celle-ci ne rank pas du tout. Pour vérifier si le non-positionnement de la page était dû à la fraîcheur de celle-ci par rapport aux autres sites déjà positionnés, j’ai checké si elle apparaîssait avec la commande site:monsite.com et là : RIEN.

Conclusion : Mauvaise idée

DeepL SEO content spinning
– Google : « F.B.I : Fausse Bonne Idée, parle à ma main ».

En faisant le point à J+2, la page ne se positionne pas du tout. Je ne pense pas que cela va changer. Je vais la laisser encore quelques jours pour voir ce que cela donne et si rien ne change, je la retire.

Leçon à tirer de cette expérience

Changer les mots et reformuler ne suffit pas. C’est clair. Je pensais que la modification du champ sémantique, suffirait à produire du contenu de qualité moyenne mais indexable. Hé bien non.

Ma théorie à ce propos :

Google doit certainement définir un champ sémantique pour chaque mot ou chaque groupe de mots utilisé sur une page pour en définir « le sens ». Ou en tous cas, son univers.

Dans le cas où quelqu’un s’amuserait à vouloir créer du contenu seulement en choisissant des mots voisins à ceux déjà présents, Google doit pouvoir identifier les mots « trop » voisins et conclure que le contenu est le même… et donc dupliqué.

Sémantique Google Optimisation SEO
Sémantique autour de chaque mot sur un exemple simple.

Voici un exemple simple permettant d’illustrer le propos. Ici, nous pouvons voir que chaque mot a son équivalent et que l’ensemble des équivalents créent des phrases différentes par leur contenu mais pas par leur sens. En observant l’image, on peut donc suggérer que Google traite chaque mot en observant les « voisins sémantiques » de chacun d’eux pour définir le sens. Si trop de voisins apparaissent à la suite, Google, bien qu’étant un robot, peut déterminer si la phrase a le même sens.

Ce que j’ai appris : Même si Google ne « comprend » pas un texte, il peut déterminer le sens d’un contenu et définir si deux contenus, bien que différents sémantiquement, signifient la même chose.

Conclusion : Si linguee a su créer DeepL qui peut reconnaître les tournures de phrases et les équivalences de mots dans leur contexte, Google l’a déjà fait depuis bien longtemps. Donc, il faudra être plus fin la prochaine fois.

Ce qui, à mon avis, a bloqué pendant cette expérience, c’est la structuration du contenu qui est restée la même. Le prochain défi sera donc de trouver du contenu non textuel permettant de construire la structure d’une page et me servir de DeepL pour reformuler la page et essayer de la positionner.

Prochain défi : Scraper du contenu depuis un format différent du texte et le spinner avec DeepL pour créer du contenu unique.

Summary
Content spinning avec DeepL : Retour d'Expérience
Article Name
Content spinning avec DeepL : Retour d'Expérience
Douichen Sofiane
Publisher Name
Le Labo Webmarketing
Publisher Logo
Douichen Sofiane Écrit par :

SEO depuis maintenant deux ans, je travaille en agence web et je m'intéresse pas mal au e-commerce. Découvrez-en plus sur moi en cliquant ici.

4 Comments

  1. BIERNACKI
    9 août 2018
    Reply

    Hello Sofiane,
    L’idée est bonne et nous l’appliquons aussi dans mon agence. Nous réalisons des spins sur la forme MC + Geolocalisation. Nous obtenons des pages qui arrivent à se positionner en première page sur Google de cette manière.
    Je pense qu’il faut déjà travailler sur autre chose que la page d’accueil du site.
    Puis soumettre les nouvelles pages via la Search Console pour indiquer au robot Google où elles se trouvent et attendre plus de temps que 2 jours.
    Il faut aussi bien entendu que l’ensemble des optimisations SEO soit en place (Title & Méta, balisage ALT )

    • 10 août 2018
      Reply

      Salut Céline, ça fait plaisir de te recroiser !

      C’est intéressant d’avoir ton retour ! Effectivement, au vu de la structure de ton positionnement, je déduis que :
      – Tu dois créer des contenus uniques sur une même thématique en la traitant différemment à chaque fois pour chaque localisation (ex : Formation SEO Marseille 13006 / Formation SEO Marseille 13002 / Formation SEO Marseille 13008)
      – Que tu dois travailler sur de l’hyperlocal, avec peu de concurrence du coup. Ce qui expliquerait que des contenus spinnés puissent ranker en première page plus facilement. Moins de concurrents, moins d’exigences de qualité. Pour extrapoler, j’ai déjà vu un SEO optimiser son fleuriste pour chaque rue de chaque arrondissement de Marseille, il ne pouvait qu’être bien référencé, forcément vu qu’il était seul à cibler ces mots-clés.

      Donc en soi, ce que fait ton agence, ce n’est pas une mauvaise idée mais pour pouvoir comparer réellement nos expériences, nous devrions tester nos deux techniques sur des mots-clés ayant une difficulté de positionnement similaire ainsi que des sites similaires au niveau de leur profil de liens.

      « Je pense qu’il faut déjà travailler sur autre chose que la page d’accueil du site. »
      – > Ici je ne suis pas d’accord avec toi, la page d’accueil du site est une page HTML comme les autres. Pour le coup, je pense que la même expérience faite sur des articles de blog par exemple aurait donné les mêmes résultats car au final, que ce soit un duplicata de la page d’accueil ou un autre type de page, ça reste du HTML/CSS/JS et des médias.

      Sinon, je ne suis pas très fan de la soumission d’URL à Google, je préfère le laisser venir seul, histoire de montrer le moins d’indices qui indiquent que j’optimise mon contenu (et donc que j’essaie de manipuler l’algorithme, d’une certaine manière). D’ailleurs, Google vient d’annoncer la fin de cette fonction. Ca montre bien qu’ils sont moyen-chauds pour laisser les webmasters faire des actions d’optimisation :).
      Mais la question n’est pas vraiment ici.
      Bien entendu, j’ai laissé le temps à Google de crawler les pages qui donnent accès à cette page et j’ai vérifié cela en regardant le cache de Google, il te donne le dernier passage de Google sur chaque page, et donc, la dernière prise en compte de ton contenu.

      Sur le site d’exemple, Google passe assez rapidement et les contenus sont souvent indexés rapidement, là clairement, à J+7, la page est tombée dans les méandres de la SERP. J’ai rechecké aujourd’hui et elle n’est toujours pas indexée… 🙂 (adieu petit ange parti trop tôt).

      Dans cette expérience, j’ai seulement reformulé les mots avec des équivalents, ce qui a créé des spuns synonymes les uns des autres. Si ton master-spin fait vraiment varier le sens de ton contenu, je ne doute pas que cela fonctionne.

      Sinon oui, je suis d’accord sur le fait qu’il aurait fallut, selon-moi, aller plus loin dans la modification de la page. Bon, pour les métadonnées, c’est ok. Balises alt, ok aussi. Mais j’ai un doute sur les images tout de même. Je ne les ai pas du tout modifiées, ni avec des retouches graphiques, ni leur lien, ni leur nombre, nada.

      C’est possible que ça ait joué en ma défaveur mais je n’en n’ai pas la preuve. Tu peux peut-être faire un petit retour d’expérience à ce propos ? 🙂

      En bref, pour moi, aujourd’hui, le spinning ne semble pas être la bonne solution dans le sens où on passe vraiment beaucoup de temps à créer le master-spin et à vérifier ensuite les contenus. Disons que pour faire un contenu « de qualité » destiné à convertir, je ne pense pas que ce soit une solution (sans compter que je n’ai pas la conscience tranquille avec ce genre de pratique). Mais je comprends très bien que quand tu dois produire 25 contenus différents pour parler du même sujet car ton positionnement diffère seulement d’un arrondissement ou un quartier, le spinning puisse être une solution.

      Après, je n’ai pas creusé le sujet du Content Spinning jusqu’au bout, donc je considère que cette expérience est vraiment le basique du content spinning.
      Mais si tu veux, on peut organiser un match retour du content spinning sous forme d’article pour avoir ton expérience à ce sujet vu que tu as l’air de bien le maîtriser.

  2. 25 août 2018
    Reply

    Bonjour Sofiane,

    Ça ne fonctionne pas car tu n’as pas fait du spinning évolué, en tenant compte des principes que Google applique pour faire des mesures de similarité. Et la proximité sémantique n’a rien à voir dans ce calcul ; Google sait bien que sur un site hôtelier, par exemple, plein de pages parleront de chambres, de lits, de mini-bar, de télévision, etc. D’ailleurs, au plus le site aura de pages sémantiquement proches, au plus Google lui attribuera du « poids sémantique », le favorisant sur les clusters de mots-clés correspondants.

    Voici une analyse très basique mais néanmoins éclairante sur la première portion de la première phrase du texte que tu nous as montré : https://i.imgur.com/QkxIwK2.jpg

    Je la colle ci-dessous en texte mais avec la capture d’écran c’est mieux car on voit les codes couleurs.

    #debut

    ● Phrase 1 : Certaines personnes l’ont remarqué, depuis quelques jours, lorsque1 nous5 visitons2 une page3 d’un site4 et que l’on5 revient6 sur la page de résultats7 de Google8

    ● Phrase 2 : Depuis quelques jours, si1 on5 visite2 des pages3 de sites4 et que nous5 revenons6 sur les résultats7 de la recherche Google8

    Nombre de mots : 25 + 21 = 46
    Tri-grams communs :
    • Depuis quelques jours
    • 1-5-2
    • 5-2-3
    • 2-3-4
    • 3-4-5
    • 4-5-6
    • 5-6-7
    • 6-7-8

    Total nb de mots dans n-grams communs : 24
    Similarité : 52,17 %.

    #fin

    C’est une analyse très simplifiée mais c’est pour te montrer pourquoi ça n’a pas fonctionné dans ton cas. Oui, Google place les synonymes les plus évidents dans ce qu’on appelle en linguistique des « sacs de mots » : « lorsque » et « si », par exemple, ou les différentes flexions d’un même verbe, ou les flexions d’un nom (« beau » > « beauté », « page » > « pages »). Un prestataire qui sait faire du content spinning évolué dispose d’outils internes pour réduire le taux de similarité à des niveaux suffisamment bas pour que Google laisse passer. Typiquement, en-dessous de 20 %. Il y a également un mécanisme de pondération des n-grams en fonction de leur popularité et de leur longueur, qui entre en ligne de compte : avoir en commun des n-grams courts et très populaires n’a quasiment pas d’impact. Par contre, avoir en commun des n-grams longs et plus rares déclenche beaucoup plus vite des mécanismes pénalisants. Là aussi, un prestataire qui n’a pas l’outil adéquat ne sera pas en mesure de faire du bon travail, c’est-à-dire de livrer des textes qui sauront se positionner sur les requêtes visées. Le spinning « amateur » c’est fini, il y a longtemps que ça ne fonctionne plus 🙂

    • 25 août 2018
      Reply

      Je n’ai rien d’autre à ajouter, un commentaire hyper qualitatif qui vaut le coup d’être lu, je te remercie pour tes precisions ! Je t’ai envoyé un email du coup, un petit article à ce sujet pourrait avoir sa place dans mon blog si ça te dis. 🙂

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *