Un confrère me montre fièrement sa perspective Midjourney : une extension bois magnifique, lumière dorée, jardin d’oliviers. Je regarde l’escalier au fond. Les marches ne tombent pas droit, le palier débouche sur un mur. L’image est superbe et inconstruisible. Voilà le malentendu de l’ESQ outillée à l’IA : on confond la séduction d’un rendu avec le travail d’esquisse.
Car réduire la phase ESQ au prompt Midjourney, c’est en oublier la moitié. L’esquisse a deux dimensions qui n’avancent pas au même rythme. Il y a un texte rigoureux qui formalise le projet (note d’intention, parti pris, justification du diagnostic, hypothèses programmatiques, première estimation budgétaire) et une image qui le rend lisible au MOA (croquis, perspective d’ambiance, insertion paysagère). L’IA est utile sur les deux, mais ses forces se répartissent : ChatGPT et Claude tiennent le texte, Midjourney et DALL-E tiennent l’image. Confondre les deux, c’est se priver du premier et surinvestir le second.
Midjourney, DALL-E, ControlNet : à chacun sa phase de l’esquisse
| Outil | Force | Limite ESQ | Tarif 2026 |
|---|---|---|---|
| Midjourney V7 | Qualité esthétique, ambiances, matériaux | Suit mal les briefs précis | Dès 10 €/mois |
| DALL-E 3 (ChatGPT) | Suit les briefs complexes, intégré | Moins artistique | Inclus ChatGPT Plus |
| Stable Diffusion + ControlNet | Guides edges/depth/pose | Compétences techniques requises | Gratuit (auto-hébergement) |
Ces trois outils ne se concurrencent pas, ils interviennent à des moments différents de l’esquisse. À toi de savoir lequel sortir quand.
Midjourney pour le moodboard de départ et la divergence créative : tu décris en quelques lignes, tu obtiens des variations qui ouvrent des pistes inattendues. Son défaut de précision devient une qualité quand tu cherches l’inspiration. La V7 a réduit le taux de générations ratées de 30 à 40%.
DALL-E 3 pour l’image qui doit coller à un brief précis (façade nord, parement bois vertical, grande baie à gauche, casquette zinc). Il suit mieux ces consignes complexes, et l’intégration native dans ChatGPT permet d’enchaîner texte et image dans la même conversation, sans coût supplémentaire si tu as déjà ChatGPT Plus.
Stable Diffusion + ControlNet pour le contrôle fin : tu uploades ton croquis main, ton plan masse, ta photo de site, et tu génères une variation qui respecte tes lignes et tes proportions. La voie la plus puissante pour guider l’IA, mais elle suppose des compétences techniques (GPU, ComfyUI) qu’un cabinet sans profil tech ne tiendra pas.
Architecture sketch, hand-drawn perspective view of a contemporary residential
extension in southwestern France, attached to a 1920s stone house, single-story
volume with flat green roof, large vertical wooden cladding (douglas fir),
full-height glazed bay opening on a south garden, integrated terrace with concrete
paving, late afternoon warm sunlight, mediterranean garden with olive trees,
ink and watercolor style, architectural rendering, hand-drawn lines, light pencil
shading, no people, --ar 16:9 --style raw --v 7
Le prompt est en anglais : Midjourney comprend mieux les briefs anglais que français, même si quelques mots de matériaux français fonctionnent (“douglas”, “zinc”, “pierre de Bourgogne”). Prépare toujours trois variantes par projet pour ouvrir la discussion avec le MOA, jamais une seule image.
L’escalier qui ne tombe pas droit : six erreurs que le MOA ne verra pas
Reviens à la perspective de mon confrère. Le problème n’est pas que l’image soit moche, c’est qu’elle est crédible. Les générateurs n’ont pas appris l’architecture : ils produisent des images qui ressemblent à de l’architecture, ce qui n’est pas la même chose. Un profane ne repère rien, toi si. Six erreurs à traquer systématiquement avant de montrer quoi que ce soit.
Conséquence pratique : ces images sont un outil de discussion avec le MOA, jamais un document de travail technique. Signale toujours dans la communication client que ces visuels sont des aides à la décision, et non des engagements de projet. Cette précaution, recommandée par les ordres professionnels, te protège juridiquement : c’est l’APS qui formalisera réellement la géométrie.
La note d’intention en une heure au lieu d’une demi-journée
La note d’intention de quelques pages qui accompagne tes images est la partie la plus chronophage de l’ESQ : elle justifie ton parti pris, fait le lien avec le diagnostic, prépare le permis et l’APD. Tu fournis tes matières premières (relevé finalisé, attentes client, PLU, premier parti dessiné), l’IA produit une trame articulée.
Tu es mon assistant pour rédiger une note d'intention d'esquisse architecturale (ESQ).
Contexte :
- Type de mission : [extension / rénovation lourde / construction neuve / surélévation]
- Surface concernée : [m² existant + m² créés]
- Localisation : [ville, département, contexte urbain ou rural]
- PLU : zone [U / N / A], hauteur max, emprise au sol
- Contraintes : [ABF / RE2020 / patrimoine / risque inondation]
- Programme du MOA : [besoins exprimés, réorganisations souhaitées]
Documents fournis : synthèse du relevé, notes PLU, croquis et plans masse
première intention, notes des échanges MOA.
Produis une note d'intention en 4 pages maximum :
1. Diagnostic et contexte (contexte urbain/patrimonial, lecture de l'existant,
contraintes réglementaires structurantes)
2. Programme retenu (reformulation des besoins, surfaces cibles, hiérarchie des espaces)
3. Parti pris architectural (implantation, orientation, gabarit, langage architectural,
articulation avec l'existant, réponse au PLU et à l'ABF)
4. Suite (variantes à étudier en APS, points à investiguer, première estimation
budgétaire en fourchette, calendrier jusqu'au permis)
Contraintes :
- Ton professionnel, pas commercial
- Reprends exactement les chiffres et cotes que je t'ai donnés
- Si une donnée manque, signale-le, n'invente pas
- Reste prudent sur le budget (fourchette large, pas de chiffrage précis à ce stade)
- Format Markdown intégrable dans Word.
Tu enrichis ensuite avec ce qui ne se substitue pas : la finesse de l’analyse de site, l’intuition architecturale, les détails qui font le projet. Gain net : trois à quatre heures économisées sur la mise en forme, qui repartent dans la conception.
L’image fait rêver le MOA. Le texte engage l’architecte.
Une demi-journée chrono : le déroulé d’une ESQ d’extension
Voici comment ça s’enchaîne concrètement sur un projet d’extension. La première version exploitable tient en une demi-journée :
- Préparation (30 min). Tu réunis relevé, note PLU, brief client dans ton projet ChatGPT ou Claude, et tu poses tes premières intuitions (implantation, gabarit, langage).
- Note d’intention (1 h). Tu lances le prompt ci-dessus, tu personnalises, tu coupes ce qui sonne générique.
- Moodboard (1 h). Trois ou quatre ambiances avec Midjourney ou DALL-E, tu choisis la direction, tu génères deux ou trois variantes du parti retenu.
- Croquis et plans (2 à 3 h). Tu reprends tes outils habituels (ARCHICAD, Revit, croquis main). C’est cette phase qui t’engage techniquement, l’IA ne la remplace pas : elle te fait juste arriver là avec un contexte clair et un parti mûri.
- RDV MOA (1 h). Tu présentes note, ambiances et plans esquissés, le MOA réagit, tu ajustes pour la version finale.
La ligne rouge juridique, et où elle ne bouge pas
C’est le point où l’enthousiasme doit s’arrêter. Le statut juridique des images IA reste incertain en 2026 (procès en cours non tranchés, copyright refusé aux oeuvres sans intervention humaine substantielle). Pour un usage en agence, trois réflexes suffisent : cantonne l’IA à la phase ESQ, archive les prompts et les sources d’inspiration, et écris noir sur blanc au client que ces images sont des supports de réflexion, pas des engagements contractuels. Le contrat de mission peut utilement le mentionner.
Et ce que l’IA ne touchera pas reste précisément ton métier : l’intuition architecturale, l’analyse fine du site, la géométrie réelle qui s’engage à l’APS. L’IA fait rêver le MOA et te débroussaille le texte, elle ne conçoit pas le projet. C’est rassurant : la valeur que tu vends ne se génère pas en un prompt.
Pour aller plus loin
L’ESQ bien posée alimente directement le dossier de permis et la notice PCMI 4 puis la phase APS-APD. Voir aussi le pilier IA pour l’architecte. Pour cadrer ces usages, un audit IA ou une formation IA.
Sources
- Procédures Disney, Universal, Warner Bros contre Midjourney (2025-2026) ; jurisprudence US sur le copyright des oeuvres générées
- Union Wallonne des Architectes (usage des images IA, vigilance contractuelle)
- Réglementation accessibilité (cheminement PMR, cercle de giration 1,50 m) et sécurité incendie ERP
Rédigé par IA, validé par humain. Aucun éditeur cité ne nous rémunère.