Un confrère me montre fièrement sa perspective Midjourney : une extension bois magnifique, lumière dorée, jardin d’oliviers. Je regarde l’escalier au fond. Les marches ne tombent pas droit, le palier débouche sur un mur. L’image est superbe et inconstruisible. Voilà le malentendu de l’ESQ outillée à l’IA : on confond la séduction d’un rendu avec le travail d’esquisse.

Car réduire la phase ESQ au prompt Midjourney, c’est en oublier la moitié. L’esquisse a deux dimensions qui n’avancent pas au même rythme. Il y a un texte rigoureux qui formalise le projet (note d’intention, parti pris, justification du diagnostic, hypothèses programmatiques, première estimation budgétaire) et une image qui le rend lisible au MOA (croquis, perspective d’ambiance, insertion paysagère). L’IA est utile sur les deux, mais ses forces se répartissent : ChatGPT et Claude tiennent le texte, Midjourney et DALL-E tiennent l’image. Confondre les deux, c’est se priver du premier et surinvestir le second.

À savoir Toutes les images générées par IA en 2026 portent une fragilité juridique : Disney, Universal et Warner Bros ont engagé des procédures contre Midjourney, et la jurisprudence américaine refuse le copyright aux oeuvres sans intervention humaine substantielle. L'Union Wallonne des Architectes rappelle qu'une image IA n'est pas un plan exécutable et que son usage suppose une vigilance contractuelle. C'est le cadre dans lequel se déploie ce qui suit.

Midjourney, DALL-E, ControlNet : à chacun sa phase de l’esquisse

OutilForceLimite ESQTarif 2026
Midjourney V7Qualité esthétique, ambiances, matériauxSuit mal les briefs précisDès 10 €/mois
DALL-E 3 (ChatGPT)Suit les briefs complexes, intégréMoins artistiqueInclus ChatGPT Plus
Stable Diffusion + ControlNetGuides edges/depth/poseCompétences techniques requisesGratuit (auto-hébergement)

Ces trois outils ne se concurrencent pas, ils interviennent à des moments différents de l’esquisse. À toi de savoir lequel sortir quand.

Midjourney pour le moodboard de départ et la divergence créative : tu décris en quelques lignes, tu obtiens des variations qui ouvrent des pistes inattendues. Son défaut de précision devient une qualité quand tu cherches l’inspiration. La V7 a réduit le taux de générations ratées de 30 à 40%.

DALL-E 3 pour l’image qui doit coller à un brief précis (façade nord, parement bois vertical, grande baie à gauche, casquette zinc). Il suit mieux ces consignes complexes, et l’intégration native dans ChatGPT permet d’enchaîner texte et image dans la même conversation, sans coût supplémentaire si tu as déjà ChatGPT Plus.

Stable Diffusion + ControlNet pour le contrôle fin : tu uploades ton croquis main, ton plan masse, ta photo de site, et tu génères une variation qui respecte tes lignes et tes proportions. La voie la plus puissante pour guider l’IA, mais elle suppose des compétences techniques (GPU, ComfyUI) qu’un cabinet sans profil tech ne tiendra pas.

Architecture sketch, hand-drawn perspective view of a contemporary residential
extension in southwestern France, attached to a 1920s stone house, single-story
volume with flat green roof, large vertical wooden cladding (douglas fir),
full-height glazed bay opening on a south garden, integrated terrace with concrete
paving, late afternoon warm sunlight, mediterranean garden with olive trees,
ink and watercolor style, architectural rendering, hand-drawn lines, light pencil
shading, no people, --ar 16:9 --style raw --v 7

Le prompt est en anglais : Midjourney comprend mieux les briefs anglais que français, même si quelques mots de matériaux français fonctionnent (“douglas”, “zinc”, “pierre de Bourgogne”). Prépare toujours trois variantes par projet pour ouvrir la discussion avec le MOA, jamais une seule image.

L’escalier qui ne tombe pas droit : six erreurs que le MOA ne verra pas

Reviens à la perspective de mon confrère. Le problème n’est pas que l’image soit moche, c’est qu’elle est crédible. Les générateurs n’ont pas appris l’architecture : ils produisent des images qui ressemblent à de l’architecture, ce qui n’est pas la même chose. Un profane ne repère rien, toi si. Six erreurs à traquer systématiquement avant de montrer quoi que ce soit.

Six pièges 1. Escaliers absurdes : marches qui ne tombent pas droit, paliers qui n'arrivent nulle part. 2. Garde-corps fantaisistes : hauteurs incohérentes, espacements non conformes au DTU. 3. Échelles incohérentes : une porte de 2,40 m à côté d'une fenêtre de 1,20 m, l'IA ne raisonne pas en cotes. 4. PMR ignoré : aucune notion de cheminement accessible, de cercle 1,50 m, de seuil inférieur à 2 cm. 5. Incendie ignoré : pas d'unité de passage ni de distance d'évacuation pour les ERP. 6. Détails impossibles : linteaux qui flottent, raccords façade-toiture invraisemblables, descentes EP absentes.

Conséquence pratique : ces images sont un outil de discussion avec le MOA, jamais un document de travail technique. Signale toujours dans la communication client que ces visuels sont des aides à la décision, et non des engagements de projet. Cette précaution, recommandée par les ordres professionnels, te protège juridiquement : c’est l’APS qui formalisera réellement la géométrie.

La note d’intention en une heure au lieu d’une demi-journée

La note d’intention de quelques pages qui accompagne tes images est la partie la plus chronophage de l’ESQ : elle justifie ton parti pris, fait le lien avec le diagnostic, prépare le permis et l’APD. Tu fournis tes matières premières (relevé finalisé, attentes client, PLU, premier parti dessiné), l’IA produit une trame articulée.

Tu es mon assistant pour rédiger une note d'intention d'esquisse architecturale (ESQ).

Contexte :
- Type de mission : [extension / rénovation lourde / construction neuve / surélévation]
- Surface concernée : [m² existant + m² créés]
- Localisation : [ville, département, contexte urbain ou rural]
- PLU : zone [U / N / A], hauteur max, emprise au sol
- Contraintes : [ABF / RE2020 / patrimoine / risque inondation]
- Programme du MOA : [besoins exprimés, réorganisations souhaitées]

Documents fournis : synthèse du relevé, notes PLU, croquis et plans masse
première intention, notes des échanges MOA.

Produis une note d'intention en 4 pages maximum :
1. Diagnostic et contexte (contexte urbain/patrimonial, lecture de l'existant,
   contraintes réglementaires structurantes)
2. Programme retenu (reformulation des besoins, surfaces cibles, hiérarchie des espaces)
3. Parti pris architectural (implantation, orientation, gabarit, langage architectural,
   articulation avec l'existant, réponse au PLU et à l'ABF)
4. Suite (variantes à étudier en APS, points à investiguer, première estimation
   budgétaire en fourchette, calendrier jusqu'au permis)

Contraintes :
- Ton professionnel, pas commercial
- Reprends exactement les chiffres et cotes que je t'ai donnés
- Si une donnée manque, signale-le, n'invente pas
- Reste prudent sur le budget (fourchette large, pas de chiffrage précis à ce stade)
- Format Markdown intégrable dans Word.

Tu enrichis ensuite avec ce qui ne se substitue pas : la finesse de l’analyse de site, l’intuition architecturale, les détails qui font le projet. Gain net : trois à quatre heures économisées sur la mise en forme, qui repartent dans la conception.

L’image fait rêver le MOA. Le texte engage l’architecte.

Une demi-journée chrono : le déroulé d’une ESQ d’extension

Voici comment ça s’enchaîne concrètement sur un projet d’extension. La première version exploitable tient en une demi-journée :

  1. Préparation (30 min). Tu réunis relevé, note PLU, brief client dans ton projet ChatGPT ou Claude, et tu poses tes premières intuitions (implantation, gabarit, langage).
  2. Note d’intention (1 h). Tu lances le prompt ci-dessus, tu personnalises, tu coupes ce qui sonne générique.
  3. Moodboard (1 h). Trois ou quatre ambiances avec Midjourney ou DALL-E, tu choisis la direction, tu génères deux ou trois variantes du parti retenu.
  4. Croquis et plans (2 à 3 h). Tu reprends tes outils habituels (ARCHICAD, Revit, croquis main). C’est cette phase qui t’engage techniquement, l’IA ne la remplace pas : elle te fait juste arriver là avec un contexte clair et un parti mûri.
  5. RDV MOA (1 h). Tu présentes note, ambiances et plans esquissés, le MOA réagit, tu ajustes pour la version finale.

La ligne rouge juridique, et où elle ne bouge pas

C’est le point où l’enthousiasme doit s’arrêter. Le statut juridique des images IA reste incertain en 2026 (procès en cours non tranchés, copyright refusé aux oeuvres sans intervention humaine substantielle). Pour un usage en agence, trois réflexes suffisent : cantonne l’IA à la phase ESQ, archive les prompts et les sources d’inspiration, et écris noir sur blanc au client que ces images sont des supports de réflexion, pas des engagements contractuels. Le contrat de mission peut utilement le mentionner.

Et ce que l’IA ne touchera pas reste précisément ton métier : l’intuition architecturale, l’analyse fine du site, la géométrie réelle qui s’engage à l’APS. L’IA fait rêver le MOA et te débroussaille le texte, elle ne conçoit pas le projet. C’est rassurant : la valeur que tu vends ne se génère pas en un prompt.

Confidentialité et calibrage Ne charge pas de données identifiantes (nom MOA, adresse précise, montants) dans une version standard. Sur ChatGPT Plus, la désactivation de l'entraînement existe mais doit être activée explicitement. Sur Midjourney, les images du plan Basic sont publiques par défaut : le Stealth Mode (plan Pro) est nécessaire pour les projets sensibles. Et l'apprentissage se fait projet par projet : compte trois ou quatre ESQ avant d'avoir tes prompts calibrés et ton workflow stable.

Pour aller plus loin

L’ESQ bien posée alimente directement le dossier de permis et la notice PCMI 4 puis la phase APS-APD. Voir aussi le pilier IA pour l’architecte. Pour cadrer ces usages, un audit IA ou une formation IA.

Sources

  • Procédures Disney, Universal, Warner Bros contre Midjourney (2025-2026) ; jurisprudence US sur le copyright des oeuvres générées
  • Union Wallonne des Architectes (usage des images IA, vigilance contractuelle)
  • Réglementation accessibilité (cheminement PMR, cercle de giration 1,50 m) et sécurité incendie ERP

Rédigé par IA, validé par humain. Aucun éditeur cité ne nous rémunère.

Questions fréquentes

Quel générateur d'images choisir pour l'esquisse ?
Cela dépend de l'objectif. Midjourney pour le moodboard et l'exploration d'ambiances (son imprécision devient une qualité créative). DALL-E 3 (inclus dans ChatGPT Plus) pour une image fidèle à un brief précis. Stable Diffusion avec ControlNet pour guider la génération à partir de tes propres croquis, si tu as les compétences techniques.
Peut-on présenter une image IA comme un projet au client ?
Non. Ces images contiennent des erreurs architecturales invisibles au profane (escaliers impossibles, échelles fausses, accessibilité ignorée) et leur statut juridique est incertain. Tu les utilises comme support de discussion, en précisant toujours dans la communication client qu'il s'agit d'aides à la décision et non d'engagements de projet. C'est l'APS qui formalisera la géométrie réelle.
L'IA peut-elle rédiger la note d'intention ?
Elle en produit la trame structurée en quelques minutes à partir de tes matières premières (relevé, PLU, brief MOA, premières intuitions). Tu enrichis ensuite avec ce qui ne se substitue pas : la finesse de l'analyse de site, l'intuition architecturale. Gain net de trois à quatre heures sur la mise en forme.