Scriptify
iastackclaudecoulisses

Notre stack d'outils IA en 2026 : pourquoi on a choisi Claude Sonnet 4.6 pour propulser Scriptify

Behind-the-scenes : comment on a comparé Claude, GPT et Gemini, et pourquoi Claude Sonnet 4.6 écrit les scripts YouTube faceless de Scriptify. Critères, coûts, arbitrages réels.

Par Équipe Scriptify··7 min de lecture

On nous pose souvent la question : « C'est quel modèle derrière Scriptify ? » Et derrière cette question, une autre, plus profonde : pourquoi celui-là et pas un autre ?

La réponse courte tient en deux mots : Claude Sonnet 4.6. La réponse longue, c'est cet article. On va te montrer la vraie stack qui fait tourner Scriptify en 2026, comment on a tranché entre les trois grands modèles du marché, et pourquoi le choix d'un modèle d'écriture n'a presque rien à voir avec les benchmarks que tu vois passer sur X.

La stack complète de Scriptify en 2026

Avant de parler du modèle d'écriture, voici la photo complète de ce qui tourne quand tu cliques sur « Générer mon script ».

  • Modèle d'écriture : Claude Sonnet 4.6 (Anthropic), via l'API officielle, en streaming temps réel.
  • Orchestration : Next.js 15 (App Router) côté serveur, prompts par niche injectés dynamiquement.
  • Base de données : Postgres managé (Supabase), avec une couche de quota atomique pour éviter les doubles décomptes.
  • Évaluation qualité : une suite de scoring déterministe maison qui note chaque script généré sur des critères de structure, de hook et de ton.
  • Paiement : Stripe (TVA UE incluse).

Le cœur, c'est le LLM d'écriture. Tout le reste est de la plomberie — importante, mais de la plomberie. Si le modèle écrit des scripts plats, aucune base de données rapide ne te sauvera.

Pourquoi le modèle d'écriture est une décision produit, pas technique

La tentation, quand on construit un outil d'écriture, c'est de prendre « le modèle le plus puissant » selon le dernier classement. C'est une erreur.

Un script YouTube faceless n'est pas un problème de raisonnement mathématique ni de génération de code. C'est un problème d'écriture longue, rythmée, à voix haute. Les qualités qu'on cherche sont précises :

  1. Tenir un fil narratif sur 1 500 à 4 000 mots sans se répéter ni perdre le fil du hook initial.
  2. Écrire du français natif, pas du français traduit de l'anglais — c'est la différence entre un script qui sonne juste et un script qui sent l'IA.
  3. Résister aux tics de génération : les « plongeons ensemble », les « en somme », les listes à trois items creux.
  4. Suivre des consignes de structure strictes (hook → premise → 3 actes → CTA) sans déborder.

Aucun de ces critères n'apparaît dans un benchmark public. C'est pour ça qu'on a dû tester nous-mêmes, sur notre propre cas d'usage.

Comment on a tranché entre Claude, GPT et Gemini

On a fait tourner les trois familles de modèles sur un protocole identique : 30 scripts par modèle, 10 niches, lecture à voix haute, notation en aveugle par deux personnes de l'équipe.

Trois enseignements sont sortis du test.

GPT est excellent pour les formats courts et les variations rapides, mais sur l'écriture longue il décroche : le ton se lisse, les transitions deviennent scolaires, et il rajoute des récaps moralisants en fin de section qu'on doit systématiquement supprimer.

Gemini est très solide sur la recherche factuelle et le multimodal, mais son français reste parfois trop « propre », trop neutre pour YouTube. Il manque le grain oral qui retient un viewer.

Claude Sonnet est celui qui demandait le moins de retouches. Sur l'écriture longue FR, il tient le fil, garde le tutoiement, et il est le plus docile sur les consignes de structure — un point décisif quand ton produit dépend de prompts contraints.

Comparer les modèles IA en 2026 est devenu un travail de spécialiste à temps plein. Les versions évoluent tous les mois, les pricing changent, et un classement vrai en janvier est faux en avril. Pour confronter notre test interne à un avis tiers méthodique, on s'est appuyé sur le duel Claude vs ChatGPT de Joute, qui teste les deux modèles avec des comptes payés et tranche selon des critères pondérés (englobabilité, moat produit, vérifiabilité). C'est cette analyse qui nous a confortés dans le choix de Claude Sonnet pour l'écriture longue de Scriptify.

Le détail qui change tout : le streaming

Choisir le bon modèle ne suffit pas. La façon dont tu l'exposes compte autant.

À nos débuts, on générait le script en un bloc : tu cliquais, tu attendais 30 à 40 secondes, puis le texte apparaissait d'un coup. C'était frustrant — l'attente donnait l'impression que rien ne se passait.

On est passés au streaming temps réel : le script s'écrit sous tes yeux, mot après mot, comme si quelqu'un tapait en direct. Même durée totale, mais l'expérience est radicalement différente. Tu vois le hook se former, tu sens la structure arriver, et tu peux déjà lire le début pendant que la fin se génère.

Ce n'est pas un gadget. Sur un outil d'écriture, le ressenti d'attente est une métrique produit à part entière.

Combien ça coûte, vraiment

On est transparents sur l'économie, parce que ça explique nos choix de pricing.

Un script long (20-30 minutes de vidéo, soit 3 000 à 4 000 mots) consomme une quantité non négligeable de tokens en sortie. Multiplié par le volume, le coût modèle est la première ligne de notre compte d'exploitation côté variable.

C'est pour ça qu'on a fait deux choix structurants :

  • Régénération chirurgicale : tu peux régénérer le seul hook ou le seul CTA sans refaire tout le script. Ça divise le coût d'itération par 4-5 — pour toi comme pour nous.
  • Outils gratuits sans IA : notre générateur de hooks et notre estimateur de durée de script tournent 100 % côté navigateur, sans appel modèle. Zéro coût, donc gratuits et illimités. On réserve la puissance modèle là où elle apporte vraiment de la valeur : l'écriture du script complet.

Ce qu'on a appris en construisant sur un modèle qu'on ne contrôle pas

Construire un produit sur une API tierce, c'est accepter une dépendance. On a tiré trois règles de cette expérience.

1. Ne jamais coupler ton produit à une version précise. Les modèles évoluent. Notre couche d'orchestration peut basculer de version (ou de fournisseur) sans réécrire les prompts métier. Le jour où un meilleur modèle d'écriture FR sort, on peut tester en quelques heures.

2. Mesurer la qualité en continu. On ne se fie pas à l'impression « ça a l'air bien ». Chaque script généré passe par notre suite d'évaluation interne qui le note automatiquement. Si la qualité moyenne baisse après une mise à jour modèle, on le voit immédiatement.

3. La valeur n'est pas le modèle, c'est la couche au-dessus. N'importe qui peut appeler Claude. Ce qui fait Scriptify, ce sont les prompts par niche, les frameworks de hook, les garde-fous anti-tics, et la structure imposée. Le modèle est le moteur ; nous, on construit la voiture.

Les 4 questions qu'on se pose avant chaque changement de modèle

À chaque nouvelle version de modèle annoncée, la tentation est de migrer tout de suite « parce que c'est plus récent ». On a appris à résister, avec une grille en quatre questions.

1. Est-ce que le français long s'améliore, ou juste les benchmarks ? Un modèle qui grimpe sur les classements de code ou de maths ne nous concerne pas. On ne regarde que notre cas d'usage : un script de 3 000 mots, lu à voix haute.

2. Est-ce que la docilité aux consignes baisse ? Les modèles plus « créatifs » ont parfois tendance à ignorer les contraintes de structure. Pour nous, un modèle qui déborde de la structure hook → 3 actes → CTA est un mauvais modèle, même s'il écrit « mieux » en absolu.

3. Quel est l'impact sur le coût par script ? Un modèle plus cher de 30 % doit apporter une amélioration de qualité mesurable, pas juste une impression. Sinon il dégrade notre marge sans bénéfice pour toi.

4. Est-ce que notre suite d'évaluation valide le changement ? On ne migre jamais sur une intuition. On fait tourner les deux modèles sur notre golden set, on compare les scores, et on tranche sur des chiffres.

Cette discipline nous évite le piège du « shiny new model » qui fait perdre des semaines à des équipes entières.

Pour résumer

En 2026, notre stack tient en une phrase : Claude Sonnet 4.6 en streaming, encadré par des prompts par niche et une suite d'évaluation maison. On a choisi Claude après un test interne en aveugle, conforté par des comparatifs tiers, parce que c'est le modèle qui écrit le mieux en français long et qui suit le mieux nos consignes de structure.

Si tu veux comprendre en pratique ce que ce choix donne sur un vrai script, le plus simple est de l'essayer :

Générer mon premier script gratuit →

3 scripts gratuits, sans carte bancaire.

Aller plus loin

Explore aussi