El mismo modelo. La misma versión. El mismo usuario. Y dos imágenes que no tienen nada que ver entre sí. Eso es lo que ocurre cuando cambias un prompt de tres palabras por uno de treinta. Llevo meses documentando mis propias generaciones en Midjourney y la conclusión es siempre la misma: el modelo no falla, el prompt falla. Cuando el resultado no se parece a lo que tenías en mente, casi nunca es un problema de la IA. Es un problema de instrucciones incompletas.
Esta guía descompone la anatomía de un prompt efectivo en Midjourney, con ejemplos reales que ilustran cada elemento y una biblioteca de fórmulas organizadas por tipo de imagen. No es teoría: es el método que uso en sesiones de trabajo real y que reduce a la mitad el número de iteraciones necesarias para llegar a un resultado usable.
Los seis elementos de un prompt que funciona
Un prompt bien construido no es una lista de adjetivos bonitos. Es una instrucción estructurada que le dice al modelo exactamente qué representar, cómo iluminarlo, desde qué perspectiva verlo y con qué lenguaje visual. Estos son los seis bloques que, combinados, producen resultados predecibles:
1. Sujeto principal
El elemento central de la imagen. Debe ser específico y descriptivo. "A woman" no es un sujeto, es una categoría. "A middle-aged Japanese botanist examining a rare orchid" sí lo es. Cuanto más preciso sea el sujeto, menos margen de interpretación tiene el modelo y más fiel es el resultado a lo que visualizas.
2. Entorno y contexto
Dónde ocurre la escena y qué elementos la rodean. El entorno condiciona la paleta de colores, la iluminación posible y el tono general. "In an abandoned greenhouse overgrown with moss and ferns, broken glass ceiling, late afternoon" da al modelo información sobre luz, texturas, color y atmósfera sin necesidad de describirlos por separado.
3. Iluminación
Es el elemento que más impacto tiene en el resultado final y el más ignorado por quienes empiezan. La misma escena con diferente iluminación produce imágenes completamente distintas en emoción y composición. Los términos que producen resultados más consistentes: golden hour light, dramatic side lighting, soft diffused natural light, neon glow, candlelight, overcast sky, backlit silhouette.
4. Estilo artístico
El lenguaje visual con el que quieres que se represente la escena. Aquí la especificidad también importa: "oil painting" es diferente a "oil painting in the style of Dutch Golden Age portraiture", que a su vez produce resultados distintos a "impressionist oil painting with visible brushstrokes". Combinar un medio (watercolor, photography, pencil sketch) con una referencia de época o movimiento artístico aumenta la coherencia estética del resultado.
5. Estado de ánimo o atmósfera
La carga emocional de la imagen. Términos como melancholic, serene, tense, whimsical, ominous o nostalgic afectan a cómo el modelo selecciona colores, composición y detalles secundarios. No siempre es necesario incluirlo explícitamente —el entorno y la iluminación ya lo comunican parcialmente— pero añadirlo como capa adicional refuerza la coherencia del resultado.
6. Parámetros técnicos
Los modificadores que van al final del prompt y controlan aspectos técnicos de la generación. Los más útiles en uso cotidiano: --ar para la relación de aspecto, --v 6.1 para usar la versión más reciente del modelo, --stylize para controlar el nivel de interpretación artística y --no para excluir elementos no deseados.
Tres niveles de prompt: la diferencia en la práctica
| Nivel | Prompt | Resultado esperable |
|---|---|---|
| Básico | an old lighthouse | Resultado genérico. El modelo elige todos los parámetros visuales por defecto. Impredecible. |
| Intermedio | an old lighthouse on rocky coast, stormy night, cinematic photography, dramatic lighting | Resultado coherente con atmósfera definida. Composición todavía variable entre las cuatro opciones. |
| Avanzado | a weathered 19th century lighthouse perched on jagged coastal rocks, violent ocean storm, rain streaks, low angle shot looking up, dramatic chiaroscuro lighting, long exposure photography style, moody and ominous atmosphere, dark teal and grey palette --ar 2:3 --v 6.1 --stylize 200 | Imagen directamente utilizable. Las cuatro variaciones son coherentes entre sí y con la intención original. |
Biblioteca de fórmulas por tipo de imagen
Estas fórmulas funcionan como plantillas que puedes adaptar sustituyendo los elementos entre corchetes por tu contenido específico. Están ordenadas por los casos de uso más frecuentes:
- Retrato artístico: [descripción del sujeto], [entorno o fondo], [tipo de iluminación], shallow depth of field, [estilo fotográfico o pictórico], [estado de ánimo] --ar 2:3 --v 6.1
- Paisaje o arquitectura: [elemento arquitectónico o natural] in [localización y contexto], [hora del día o condición meteorológica], [perspectiva: aerial view / wide angle / eye level], [estilo: cinematic / documentary photography / oil painting] --ar 16:9 --v 6.1
- Ilustración editorial o de portada: [concepto o escena], [referencia de movimiento artístico: Art Nouveau / Bauhaus / ukiyo-e woodblock], [paleta de colores: muted earth tones / vibrant complementary colors], flat design with intricate details, [formato: book cover / magazine illustration] --ar 3:4
- Concept art o fantástico: [personaje o criatura con descripción detallada], [entorno fantástico], [fuente de luz principal], highly detailed, intricate textures, fantasy illustration style, [referencia visual: in the style of classic D&D illustrations / Studio Ghibli aesthetic] --v 6.1 --stylize 400
- Imagen de producto o comercial: [producto] on [superficie o entorno], [iluminación de estudio o natural], clean background, commercial photography style, [color o material destacado], --no text watermark logo shadows --ar 1:1
Prompts negativos: decirle a Midjourney lo que no quieres
El parámetro --no permite excluir elementos específicos del resultado. Es especialmente útil para evitar problemas recurrentes: texto ilegible que aparece en imágenes sin pedirlo, marcas de agua, fondos cargados cuando quieres uno limpio, o elementos que el modelo tiende a añadir por defecto en ciertos estilos.
Ejemplos de uso frecuente: --no text, watermark, blur, oversaturation para imágenes de producto; --no extra limbs, deformed hands, disfigured faces para retratos de personas (un punto débil histórico del modelo); --no modern elements, cars, electricity poles para escenas de época. En mis pruebas, añadir un prompt negativo específico al problema más frecuente de cada tipo de imagen reduce los resultados inutilizables en más de un 30%.
Preguntas frecuentes sobre prompts en Midjourney
¿El orden de los términos en el prompt importa?
Sí, y más de lo que intuitivamente parece. Midjourney da más peso a los términos que aparecen primero en el prompt. Si el estilo artístico es más importante que el entorno para tu resultado, ponlo antes. Una práctica habitual entre usuarios avanzados es colocar siempre el sujeto principal y el estilo en las primeras posiciones y dejar los detalles secundarios para el final.
¿Puedo escribir prompts en español o debo hacerlo en inglés?
Midjourney procesa prompts en español, pero los resultados en inglés son consistentemente más precisos, especialmente en términos de estilos artísticos, referencias técnicas de fotografía e iluminación. La razón es que el modelo fue entrenado con mucho más material en inglés para esas categorías. Para sujetos o escenas con referencias culturales específicas en castellano, el español funciona bien; para todo lo relacionado con técnica visual, el inglés produce mejores resultados.
¿Qué hace exactamente el parámetro --stylize y cuándo conviene subirlo?
El parámetro --stylize (o --s) controla cuánta libertad interpretativa toma el modelo respecto al prompt. Con valores bajos (0–100), el resultado es más literal y fiel a la descripción. Con valores altos (700–1000), el modelo prioriza la estética y puede alejarse del prompt en favor de una composición más impactante visualmente. Para trabajos de cliente donde la precisión es crítica, usa valores bajos. Para exploración creativa donde quieres sorprenderte, valores altos.
¿Cómo puedo replicar el estilo de una imagen que me ha gustado?
Midjourney tiene una función llamada image prompting que permite usar una imagen como referencia visual además del texto. Con el comando /imagine, pegas primero la URL de la imagen de referencia y después escribes tu prompt de texto. El parámetro --iw (image weight) controla cuánto peso tiene la imagen frente al texto, con valores entre 0 y 3. Otra opción es analizar visualmente la imagen de referencia e identificar qué términos de estilo, iluminación y composición la describen, e incorporarlos a tu prompt.
¿Por qué el modelo sigue generando manos deformadas?
Las manos son una debilidad conocida de todos los modelos de generación de imagen, incluido Midjourney, aunque la versión 6.1 ha mejorado notablemente. Las estrategias que mejor funcionan en la práctica: añadir --no deformed hands, extra fingers al prompt, evitar poses donde las manos sean el elemento central de la composición cuando no es necesario, y usar la función de edición por región (Vary Region) para retocar manualmente solo la zona problemática una vez que el resto de la imagen es satisfactorio.
¿Existe alguna forma de hacer que Midjourney genere siempre en el mismo estilo?
Sí, mediante la función --sref (style reference), que permite guardar el estilo visual de una imagen generada y aplicarlo a prompts futuros. También puedes usar --cref (character reference) para mantener la coherencia de un personaje específico a través de distintas imágenes. Estas funciones son especialmente útiles para proyectos que requieren consistencia visual entre varias piezas, como ilustraciones para un libro, una campaña o una serie de contenido.
Meta-descripción: Cómo escribir prompts perfectos en Midjourney: los 6 elementos clave, fórmulas por tipo de imagen y los errores que arruinan tus resultados.