Captura de Datos

Software ePaper

Seguridad

Ver todos los servicios
Destacado

ePaper

Gestión documental en la nube. Accede desde cualquier lugar.

Conocer más
Inteligencia Artificial

Como Funcionan los Modelos de Difusion? De Stable Diffusion a DALL-E 3 — Guia Tecnica 2026

Guia tecnica sobre modelos de difusion: matematicas del proceso, arquitectura U-Net, CLIP, espacio latente, DDPM y aplicaciones reales en gestion documental.

Rodrigo Espinoza
40 min de lectura
Compartir:
Este artículo fue escrito en español. Use el botón para traducirlo automáticamente.

Puntos Clave

  • Los modelos de difusión aprenden a generar imágenes revirtiendo un proceso de agregar ruido gradualmente
  • Stable Diffusion opera en espacio latente (comprimido), lo que lo hace eficiente y accesible
  • CLIP conecta texto e imágenes permitiendo generar imágenes a partir de descripciones textuales
  • ControlNet y LoRA permiten personalizar la generación con control preciso y ajuste fino económico

Escriba una frase en su computadora — “un documento colonial peruano restaurado en alta resolucion, iluminado por luz de vela” — y en menos de diez segundos aparecera una imagen fotorrealista que nunca antes existio. Ningun fotografo la tomo, ningun disenador la creo manualmente: fue generada desde cero por un modelo de inteligencia artificial que aprendio a convertir ruido aleatorio en arte. Stable Diffusion, DALL-E 3, Midjourney y Flux producen juntos mas de cien millones de imagenes al dia en 2026, transformando industrias enteras desde la publicidad hasta la investigacion cientifica.

Pero, como es posible que un algoritmo convierta ruido puro en una imagen coherente? Que matematica hay detras de este proceso que parece casi magico? Y por que esta tecnologia es relevante para empresas que, como AyP Digital, se dedican a la digitalizacion y gestion de documentos?

En este articulo vamos a desmontar pieza por pieza el mecanismo interno de los modelos de difusion. Recorreremos las matematicas, las arquitecturas neuronales y las innovaciones que hacen posible la generacion de imagenes mas avanzada de la historia. Lo haremos con rigor tecnico pero tambien con analogias claras, diagramas y formulas que le permitiran comprender — de verdad — como funcionan estos sistemas.

La Intuicion Detras de la Difusion

La Idea Central: Aprender a Limpiar

Imagine que le entregan un bloque de marmol y le piden crear una escultura. Usted no construye la escultura anadiendo material; la revela quitando lo que sobra. Los modelos de difusion funcionan con una logica similar: en lugar de aprender a generar una imagen directamente (algo extremadamente dificil), aprenden a eliminar ruido de una imagen ruidosa paso a paso, hasta que emerge una imagen limpia y coherente.

Esta intuicion es profunda: es mucho mas facil aprender a limpiar una imagen ligeramente ruidosa que aprender a crear una imagen desde cero. El truco esta en encadenar muchos pasos pequenos de limpieza, cada uno trivialmente simple, para lograr una transformacion espectacular en conjunto.

El proceso tiene dos fases complementarias:

  1. Proceso forward (hacia adelante): Se toma una imagen real y se le anade ruido gaussiano progresivamente, paso a paso, hasta que queda completamente destruida — solo ruido puro.
  2. Proceso reverse (inverso): Una red neuronal aprende a revertir este proceso, removiendo el ruido paso a paso hasta reconstruir una imagen limpia.
flowchart LR
    subgraph FORWARD["PROCESO FORWARD - Destruir"]
        direction LR
        I0["Imagen original<br/>x0"] --> I1["Poco ruido<br/>x1"]
        I1 --> I2["Mas ruido<br/>x2"]
        I2 --> I3["..."]
        I3 --> IT["Ruido puro<br/>xT"]
    end

    subgraph REVERSE["PROCESO REVERSE - Crear"]
        direction LR
        RT["Ruido puro<br/>xT"] --> R3["..."]
        R3 --> R2["Menos ruido<br/>x2"]
        R2 --> R1["Casi limpia<br/>x1"]
        R1 --> R0["Imagen generada<br/>x0"]
    end

    FORWARD -.->|"La red neuronal aprende<br/>a invertir cada paso"| REVERSE

    style FORWARD fill:#fce4ec,stroke:#c62828,color:#000000
    style REVERSE fill:#e8f5e9,stroke:#2e7d32,color:#000000

La elegancia de este enfoque es que el proceso forward es completamente matematico — no requiere aprendizaje, solo agregar ruido gaussiano con una formula conocida. Todo el aprendizaje se concentra en el proceso reverse, donde la red neuronal debe predecir que ruido se anadio en cada paso para poder eliminarlo.

El Proceso Forward: Destruyendo la Senal

Anadiendo Ruido Paso a Paso

El proceso forward define como destruir gradualmente una imagen real $x_0$ a lo largo de $T$ pasos temporales (tipicamente $T = 1000$). En cada paso $t$, se anade una pequena cantidad de ruido gaussiano controlada por un parametro $\beta_t$ llamado schedule de ruido:

\[q(x_t \mid x_{t-1}) = \mathcal{N}(x_t;\, \sqrt{1 - \beta_t}\, x_{t-1},\, \beta_t\, I)\]

Esta formula dice que $x_t$ se obtiene de $x_{t-1}$ mediante una distribucion normal (gaussiana) con:

  • Media: $\sqrt{1 - \beta_t}\, x_{t-1}$ — la imagen anterior ligeramente atenuada
  • Varianza: $\beta_t\, I$ — ruido fresco proporcional a $\beta_t$

Los valores de $\beta_t$ son pequenos (tipicamente entre $10^{-4}$ y $0.02$) y crecen gradualmente. Esto asegura que cada paso individual solo anade un poco de ruido, pero despues de 1000 pasos, la imagen original queda completamente destruida.

El Truco de la Reparametrizacion

Un problema practico inmediato: si queremos obtener $x_t$ a partir de $x_0$, debemos aplicar $t$ pasos secuenciales de ruido? Eso seria computacionalmente prohibitivo durante el entrenamiento, donde necesitamos acceder a $x_t$ para miles de valores de $t$ diferentes.

Afortunadamente, existe una solucion elegante. Definimos:

\[\alpha_t = 1 - \beta_t \qquad \text{y} \qquad \bar{\alpha}_t = \prod_{s=1}^{t} \alpha_s\]

Gracias a las propiedades de las distribuciones gaussianas, podemos saltar directamente desde $x_0$ a cualquier $x_t$ en un solo paso usando la reparametrizacion:

\[x_t = \sqrt{\bar{\alpha}_t}\, x_0 + \sqrt{1 - \bar{\alpha}_t}\, \epsilon \qquad \text{donde } \epsilon \sim \mathcal{N}(0, I)\]

Esta es una de las formulas mas importantes de todo el framework. Dice que $x_t$ es simplemente una mezcla ponderada de la imagen original $x_0$ y ruido puro $\epsilon$:

  • Cuando $t$ es pequeno, $\bar{\alpha}_t \approx 1$, asi que $x_t \approx x_0$ (casi toda la senal original se conserva)
  • Cuando $t$ es grande, $\bar{\alpha}_t \approx 0$, asi que $x_t \approx \epsilon$ (solo queda ruido)

La relacion senal-ruido (SNR) en el paso $t$ se define como:

\[\text{SNR}(t) = \frac{\bar{\alpha}_t}{1 - \bar{\alpha}_t}\]

A medida que $t$ crece, el SNR disminuye hasta ser esencialmente cero en $t = T$, lo que confirma que la senal original ha sido completamente destruida.

Schedules de Ruido: Lineal vs Coseno

La eleccion de como crecen los $\beta_t$ impacta significativamente la calidad de generacion. Las dos opciones principales son:

Schedule lineal (DDPM original): $\beta_t$ crece linealmente de $\beta_1 = 10^{-4}$ a $\beta_T = 0.02$. Simple pero suboptimo — destruye demasiada informacion en los primeros pasos.

Schedule coseno (propuesto por Nichol y Dhariwal, 2021): Usa una funcion coseno que preserva mas senal en los pasos intermedios:

\[\bar{\alpha}_t = \frac{f(t)}{f(0)} \qquad \text{donde } f(t) = \cos\!\left(\frac{t/T + s}{1 + s} \cdot \frac{\pi}{2}\right)^2\]

El schedule coseno produce imagenes con mas detalles finos y texturas realistas, y es el estandar en la mayoria de modelos modernos.

El Proceso Reverse: Aprendiendo a Crear

Invirtiendo la Destruccion

Si pudieramos invertir el proceso forward — comenzando desde ruido puro $x_T$ y removiendo el ruido paso a paso — obtendriamos una imagen nueva generada desde cero. El proceso reverse se modela como:

\[p_\theta(x_{t-1} \mid x_t) = \mathcal{N}(x_{t-1};\, \mu_\theta(x_t, t),\, \Sigma_\theta(x_t, t))\]

Aqui, $\mu_\theta$ y $\Sigma_\theta$ son funciones aprendidas por una red neuronal con parametros $\theta$. La red recibe la imagen ruidosa $x_t$ y el paso temporal $t$, y predice la media y la varianza de la distribucion que deberia producir $x_{t-1}$ (un paso menos de ruido).

En la practica, la varianza $\Sigma_\theta$ generalmente se fija a un valor conocido, y la red solo necesita predecir la media $\mu_\theta$. Pero hay una reformulacion aun mas elegante.

Prediccion de Ruido: La Clave del Entrenamiento

En lugar de predecir directamente $\mu_\theta(x_t, t)$, Ho et al. (2020) descubrieron que es mucho mas efectivo entrenar la red para predecir el ruido $\epsilon$ que fue anadido. La relacion entre la media y la prediccion de ruido es:

\[\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}}\, \epsilon_\theta(x_t, t) \right)\]

Donde $\epsilon_\theta(x_t, t)$ es la prediccion de ruido de la red neuronal. La funcion de perdida se simplifica de manera espectacular:

\[\mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\!\left[\left\| \epsilon - \epsilon_\theta(x_t, t) \right\|^2\right]\]

Esta es la formula central del entrenamiento de modelos de difusion. Dice: muestrear un paso temporal $t$ aleatorio, crear $x_t$ anadiendo ruido $\epsilon$ a una imagen real $x_0$, y entrenar a la red para predecir exactamente ese ruido. El error cuadratico entre el ruido real y el predicho es la perdida que se minimiza.

Derivacion del ELBO

La justificacion teorica de esta funcion de perdida proviene del Evidence Lower Bound (ELBO), que conecta los modelos de difusion con la teoria de modelos generativos variacionales. El ELBO descompone la log-verosimilitud negativa en terminos tratables:

\[-\log p_\theta(x_0) \leq \underbrace{D_{\text{KL}}(q(x_T|x_0)\, \|\, p(x_T))}_{L_T} + \sum_{t=2}^{T} \underbrace{D_{\text{KL}}(q(x_{t-1}|x_t, x_0)\, \|\, p_\theta(x_{t-1}|x_t))}_{L_{t-1}} - \underbrace{\log p_\theta(x_0|x_1)}_{L_0}\]
El termino $L_T$ es constante (no depende de $\theta$). Los terminos $L_{t-1}$ comparan la distribucion posterior real $q(x_{t-1} x_t, x_0)$ con la aproximacion aprendida $p_\theta(x_{t-1} x_t)$. Minimizar estas divergencias KL es equivalente a minimizar la funcion de perdida simplificada que presentamos arriba.

La belleza de la perdida simplificada $\mathcal{L}_{\text{simple}}$ es que pondera uniformemente todos los pasos temporales, lo cual empiricamente produce mejores resultados que la ponderacion teoricamente optima del ELBO.

La Arquitectura U-Net: El Cerebro del Modelo

Por Que U-Net?

La red neuronal que predice el ruido $\epsilon_\theta(x_t, t)$ no es una red cualquiera: es una U-Net, una arquitectura disenada originalmente para segmentacion de imagenes medicas que resulto ser perfecta para los modelos de difusion.

La U-Net tiene forma de “U”: un encoder que comprime la imagen a representaciones de baja resolucion, seguido de un decoder que la expande de vuelta a la resolucion original. Lo critico son las conexiones de salto (skip connections) que conectan directamente capas del encoder con capas correspondientes del decoder, preservando detalles finos que de otro modo se perderian.

flowchart TB
    subgraph ENCODER["ENCODER - Comprimir"]
        direction TB
        E1["Conv 64<br/>256x256"] --> E2["Conv 128<br/>128x128"]
        E2 --> E3["Conv 256<br/>64x64"]
        E3 --> E4["Conv 512<br/>32x32"]
    end

    subgraph BOTTLENECK["BOTTLENECK"]
        B1["Conv 1024<br/>16x16<br/>+ Self-Attention"]
    end

    subgraph DECODER["DECODER - Expandir"]
        direction TB
        D4["Conv 512<br/>32x32"] --> D3["Conv 256<br/>64x64"]
        D3 --> D2["Conv 128<br/>128x128"]
        D2 --> D1["Conv 64<br/>256x256"]
    end

    E4 --> B1
    B1 --> D4

    E1 -.->|"Skip Connection"| D1
    E2 -.->|"Skip Connection"| D2
    E3 -.->|"Skip Connection"| D3
    E4 -.->|"Skip Connection"| D4

    TE["Time Embedding t"] --> B1
    TE --> D4
    TE --> D3
    TE --> D2

    style ENCODER fill:#e8f4f8,stroke:#2D495D,color:#000000
    style BOTTLENECK fill:#fff3e0,stroke:#FF9900,color:#000000
    style DECODER fill:#e8f5e9,stroke:#2e7d32,color:#000000

Time Embeddings: Saber en Que Paso Estamos

La U-Net necesita saber en que paso temporal $t$ se encuentra, porque la cantidad de ruido es diferente en cada paso. El paso $t$ se codifica usando embeddings sinusoidales (similares a los embeddings posicionales de los Transformers):

\[\text{TE}(t)_{2i} = \sin\!\left(\frac{t}{10000^{2i/d}}\right) \qquad \text{TE}(t)_{2i+1} = \cos\!\left(\frac{t}{10000^{2i/d}}\right)\]

Este embedding se inyecta en cada bloque residual de la U-Net, permitiendole adaptar su comportamiento segun la cantidad de ruido presente.

Mecanismo de Atencion en la U-Net

Los modelos de difusion modernos incorporan capas de self-attention dentro de la U-Net, especialmente en las resoluciones intermedias y bajas (32x32, 16x16, 8x8). Esto permite que cada pixel “atienda” a todos los demas, capturando relaciones globales en la imagen.

La atencion se calcula como:

\[\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right) V\]

donde $Q$, $K$ y $V$ se derivan de los feature maps de la imagen. Estas capas de atencion son fundamentales para la coherencia global: aseguran que las partes distantes de una imagen sean consistentes entre si (por ejemplo, que las dos manos de una persona tengan el mismo tono de piel).

CLIP y el Poder del Texto: Text-to-Image

De Texto a Imagen: El Gran Salto

Los modelos de difusion puros generan imagenes sin control sobre su contenido — simplemente producen imagenes realistas aleatorias. La verdadera revolucion ocurrio cuando se les anadio condicionamiento textual: la capacidad de generar imagenes guiadas por una descripcion en lenguaje natural.

El componente clave es CLIP (Contrastive Language-Image Pre-training), un modelo desarrollado por OpenAI que aprendio a relacionar texto e imagenes al ser entrenado con 400 millones de pares imagen-texto de internet.

Como Funciona el Condicionamiento

El pipeline text-to-image funciona asi:

  1. El prompt de texto se pasa por el encoder de texto de CLIP (o un encoder T5 en modelos mas recientes), produciendo una secuencia de embeddings
  2. Estos embeddings se inyectan en la U-Net mediante cross-attention: en cada capa de atencion, los queries vienen de la imagen y los keys/values vienen del texto
  3. La U-Net aprende a generar imagenes que sean coherentes con la descripcion textual
flowchart LR
    subgraph TEXT["PROCESAMIENTO DE TEXTO"]
        P["Prompt:<br/>un gato astronauta<br/>en la luna"] --> TOK["Tokenizador"]
        TOK --> CLIP["Encoder de Texto<br/>CLIP / T5"]
        CLIP --> EMB["Embeddings<br/>de texto"]
    end

    subgraph DIFUSION["PROCESO DE DIFUSION"]
        NOISE["Ruido gaussiano<br/>aleatorio"] --> UNET["U-Net con<br/>Cross-Attention"]
        UNET --> STEP["Iteraciones de<br/>denoising<br/>t=T...1"]
        STEP --> UNET
    end

    subgraph SALIDA["DECODIFICACION"]
        LAT["Imagen latente<br/>limpia"] --> VAE["VAE<br/>Decoder"]
        VAE --> IMG["Imagen final<br/>generada"]
    end

    EMB -->|"Cross-Attention<br/>en cada paso"| UNET
    STEP --> LAT

    style TEXT fill:#e8f4f8,stroke:#2D495D,color:#000000
    style DIFUSION fill:#fff3e0,stroke:#FF9900,color:#000000
    style SALIDA fill:#e8f5e9,stroke:#2e7d32,color:#000000

Classifier-Free Guidance: Amplificando el Texto

Una tecnica crucial para obtener imagenes que realmente correspondan al prompt es Classifier-Free Guidance (CFG). Durante el entrenamiento, la U-Net se entrena tanto con condicionamiento textual como sin el (reemplazando el texto por un embedding vacio con cierta probabilidad). En la inferencia, se combinan ambas predicciones:

\[\tilde{\epsilon}_\theta(x_t, c) = \epsilon_\theta(x_t, \varnothing) + s \cdot \left(\epsilon_\theta(x_t, c) - \epsilon_\theta(x_t, \varnothing)\right)\]

Donde:

  • $\epsilon_\theta(x_t, \varnothing)$ es la prediccion sin condicionamiento (incondicional)
  • $\epsilon_\theta(x_t, c)$ es la prediccion con el texto $c$
  • $s$ es la escala de guidance (tipicamente entre 7 y 15)

Cuando $s > 1$, el modelo se “aleja” de la prediccion incondicional y se acerca mas a lo que el texto pide. Valores altos de $s$ producen imagenes mas fieles al prompt pero potencialmente menos diversas y con colores mas saturados. Valores bajos producen imagenes mas naturales pero menos controlables.

Esta formula es sorprendentemente poderosa: permite un control preciso del balance entre calidad, diversidad y fidelidad al texto.

El Espacio Latente: La Innovacion de Stable Diffusion

El Problema del Espacio de Pixeles

Los primeros modelos de difusion — como DDPM (2020) y DALL-E 2 (2022) — operaban directamente en el espacio de pixeles. Una imagen de 512x512 pixeles en RGB tiene $512 \times 512 \times 3 = 786{,}432$ dimensiones. Ejecutar 1000 pasos de difusion sobre un tensor de esta dimension es extremadamente costoso en memoria y computo.

Latent Diffusion Models: Trabajar en Pequeno

La solucion, propuesta por Rombach et al. (2022) en el articulo que introdujo Stable Diffusion, fue genial: en lugar de hacer la difusion en el espacio de pixeles, hacerla en un espacio latente comprimido.

El enfoque utiliza un Variational Autoencoder (VAE) pre-entrenado:

  1. Encoder del VAE: Comprime la imagen de $512 \times 512 \times 3$ a un tensor latente de $64 \times 64 \times 4$ — una compresion de 48x en dimensionalidad
  2. Difusion en espacio latente: Todo el proceso forward y reverse ocurre sobre este tensor compacto
  3. Decoder del VAE: Convierte el latente limpio de vuelta a una imagen de pixeles
flowchart TB
    subgraph PIXEL["ESPACIO DE PIXELES"]
        IMG_IN["Imagen de entrenamiento<br/>512 x 512 x 3"]
        IMG_OUT["Imagen generada<br/>512 x 512 x 3"]
    end

    subgraph LATENTE["ESPACIO LATENTE"]
        direction LR
        Z0["Latente limpio<br/>64 x 64 x 4"] --> ZT["Latente ruidoso<br/>64 x 64 x 4"]
        ZT --> Z0G["Latente generado<br/>64 x 64 x 4"]
    end

    subgraph MODELO["COMPONENTES"]
        VENC["VAE Encoder<br/>Comprime 48x"]
        VDEC["VAE Decoder<br/>Expande 48x"]
        UNET2["U-Net + Texto<br/>Difusion en latente"]
    end

    IMG_IN --> VENC
    VENC --> Z0
    ZT --> UNET2
    UNET2 --> Z0G
    Z0G --> VDEC
    VDEC --> IMG_OUT

    style PIXEL fill:#e8f4f8,stroke:#2D495D,color:#000000
    style LATENTE fill:#fff3e0,stroke:#FF9900,color:#000000
    style MODELO fill:#e8f5e9,stroke:#2e7d32,color:#000000

El VAE se entrena con un objetivo que combina reconstruccion y regularizacion:

\[\mathcal{L}_{\text{VAE}} = \mathbb{E}_{q(z|x)}\!\left[\|x - \hat{x}\|^2\right] + \lambda \cdot D_{\text{KL}}(q(z|x)\, \|\, p(z))\]

Donde el primer termino asegura que la imagen reconstruida $\hat{x}$ sea fiel a la original, y el segundo regulariza el espacio latente para que sea suave y continuo.

Comparativa: Espacio de Pixeles vs Espacio Latente

Caracteristica Difusion en Pixeles Difusion Latente (LDM)
Dimensionalidad 786,432 (512x512x3) 16,384 (64x64x4)
Compresion Ninguna 48x
Memoria GPU 40+ GB 6-10 GB
Tiempo por imagen 5-15 minutos 5-30 segundos
Calidad Excelente Excelente (casi identica)
Accesibilidad Requiere GPU A100/H100 Funciona en GPU consumer
Ejemplos DALL-E 2, Imagen Stable Diffusion, SDXL, Flux

Esta innovacion fue transformadora: convirtio la generacion de imagenes de un privilegio exclusivo de grandes laboratorios a algo que cualquier persona con una GPU de gama media puede ejecutar en su computadora.

DDPM, DDIM y Schedulers: Controlando la Generacion

DDPM: El Algoritmo Original

El Denoising Diffusion Probabilistic Model (DDPM) de Ho et al. (2020) fue el trabajo fundacional. Su proceso de muestreo es estocastico: en cada paso se anade un poco de ruido aleatorio junto con la eliminacion de ruido. Esto produce imagenes de alta calidad pero requiere los $T = 1000$ pasos completos, haciendo el muestreo lento.

El paso de muestreo DDPM es:

\[x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}}\, \epsilon_\theta(x_t, t) \right) + \sigma_t\, z\]

donde $z \sim \mathcal{N}(0, I)$ y $\sigma_t$ es una varianza predefinida. El termino $\sigma_t z$ es el componente estocastico que anade diversidad.

DDIM: Muestreo Determinista y Rapido

DDIM (Denoising Diffusion Implicit Models) de Song et al. (2020) descubrio que se puede definir un proceso de muestreo determinista que produce resultados equivalentes pero permite usar muchos menos pasos. En lugar de 1000 pasos, DDIM puede producir imagenes de calidad comparable en solo 20-50 pasos.

El truco es que DDIM define una familia de procesos no-Markovianos que comparten las mismas distribuciones marginales $q(x_t x_0)$ que DDPM pero permiten saltar pasos. Cuando el parametro de estocasticidad $\eta = 0$, el proceso se vuelve completamente determinista: el mismo ruido inicial siempre produce la misma imagen.

DPM-Solver y Schedulers Modernos

Los DPM-Solvers (Lu et al., 2022) llevaron la velocidad al siguiente nivel al reformular el muestreo como la solucion de una ecuacion diferencial ordinaria (ODE). DPM-Solver++ puede producir imagenes de alta calidad en tan solo 15-20 pasos, una mejora de 50x sobre DDPM original.

Scheduler Pasos tipicos Calidad Velocidad Determinismo
DDPM 1000 Excelente Lenta Estocastico
DDIM 20-50 Muy buena Rapida Opcional
DPM-Solver++ 15-25 Excelente Muy rapida Configurable
Euler Ancestral 20-30 Buena Rapida Estocastico
UniPC 10-20 Muy buena Muy rapida Determinista
Flow Matching 20-30 Excelente Rapida Determinista

Los schedulers modernos han convertido la generacion de imagenes en un proceso practicamente interactivo: una imagen de 1024x1024 puede generarse en menos de 2 segundos con hardware actual.

De DALL-E a Stable Diffusion 3: Evolucion de los Modelos

La historia de los modelos de difusion es una de las evoluciones mas rapidas en la historia de la tecnologia. En menos de cinco anos, pasamos de imagenes borrosas y distorsionadas a generaciones fotorrealistas indistinguibles de fotografias reales.

flowchart TB
    subgraph GEN1["2020-2021: Fundaciones"]
        A1["DDPM<br/>Ho et al. 2020<br/>Primer modelo funcional"]
        A2["DALL-E 1<br/>OpenAI 2021<br/>VAE discreto + Transformer"]
    end

    subgraph GEN2["2022: Explosion"]
        B1["DALL-E 2<br/>Abril 2022<br/>CLIP + Difusion"]
        B2["Imagen<br/>Google 2022<br/>Cascaded diffusion"]
        B3["Stable Diffusion 1.x<br/>Agosto 2022<br/>LDM, Open Source"]
        B4["Midjourney v3-v4<br/>2022<br/>Calidad artistica"]
    end

    subgraph GEN3["2023: Maduracion"]
        C1["SDXL<br/>Julio 2023<br/>1024px, dos U-Nets"]
        C2["Midjourney v5-v6<br/>2023<br/>Fotorrealismo"]
        C3["DALL-E 3<br/>Oct 2023<br/>Mejor texto y prompts"]
    end

    subgraph GEN4["2024-2026: Nueva Era"]
        D1["Stable Diffusion 3<br/>Feb 2024<br/>DiT, Flow Matching"]
        D2["Flux.1<br/>Ago 2024<br/>Black Forest Labs"]
        D3["Ideogram 2.0<br/>2024-2025<br/>Texto en imagenes"]
        D4["Modelos de video<br/>Sora, Runway Gen-3<br/>2024-2026"]
    end

    GEN1 --> GEN2
    GEN2 --> GEN3
    GEN3 --> GEN4

    style GEN1 fill:#e8f4f8,stroke:#2D495D,color:#000000
    style GEN2 fill:#fff3e0,stroke:#FF9900,color:#000000
    style GEN3 fill:#e8f5e9,stroke:#2e7d32,color:#000000
    style GEN4 fill:#f3e5f5,stroke:#6a1b9a,color:#000000

Hitos Clave

DALL-E 1 (enero 2021) fue el primer sistema capaz de generar imagenes desde texto a gran escala. Utilizaba un enfoque radicalmente diferente a la difusion: un VAE discreto que tokenizaba imagenes, seguido de un Transformer autoregresivo que generaba tokens de imagen condicionados en tokens de texto. Las imagenes eran creativas pero de baja resolucion y calidad limitada.

DALL-E 2 (abril 2022) cambio completamente de arquitectura, adoptando difusion con condicionamiento CLIP. Introdujo la generacion en cascada (primero 64x64, luego upscale a 256x256, finalmente 1024x1024) y produjo resultados notablemente mejores.

Stable Diffusion 1.x (agosto 2022) fue el punto de inflexion. Stability AI publico el modelo como open source, democratizando el acceso a la generacion de imagenes. Su innovacion clave fue la difusion en espacio latente (LDM), que redujo dramaticamente los requisitos de hardware. Millones de personas comenzaron a generar imagenes en sus computadoras personales.

SDXL (julio 2023) duplico la resolucion nativa a 1024x1024, introdujo un pipeline de dos etapas con dos U-Nets, y mejoro significativamente la comprension de prompts y la calidad general.

DALL-E 3 (octubre 2023) ataco el problema mas persistente de los modelos: la mala comprension de prompts complejos. OpenAI entreno un modelo de captioning que genero descripciones extremadamente detalladas para las imagenes de entrenamiento, produciendo un modelo que finalmente entendia composiciones espaciales, conteo de objetos y texto dentro de imagenes.

Stable Diffusion 3 y Flux (2024) representan la transicion arquitectonica mas importante desde el DDPM original: reemplazaron la U-Net por Diffusion Transformers (DiT) y adoptaron flow matching en lugar del framework DDPM clasico. El flow matching define un transporte optimo entre la distribucion de ruido y la distribucion de datos, simplificando el entrenamiento y mejorando la calidad:

\[\frac{dx_t}{dt} = v_\theta(x_t, t) \qquad \text{donde } x_t = (1-t)\, x_0 + t\, \epsilon\]

La red aprende un campo vectorial $v_\theta$ que transporta muestras de la distribucion de ruido a la distribucion de datos a lo largo de trayectorias rectas.

Tecnicas Avanzadas

ControlNet: Control Preciso de la Generacion

ControlNet (Zhang et al., 2023) fue una innovacion que transformo los modelos de difusion de juguetes creativos en herramientas de produccion. Permite condicionar la generacion no solo en texto sino en senales espaciales adicionales: poses humanas, mapas de profundidad, bordes detectados, mapas de segmentacion, entre otros.

flowchart TB
    subgraph INPUTS["ENTRADAS"]
        PROMPT["Prompt de texto"]
        CTRL["Imagen de control<br/>Pose / Bordes / Profundidad"]
    end

    subgraph PROCESAMIENTO["PROCESAMIENTO"]
        CNET["ControlNet<br/>Copia de U-Net encoder<br/>congelada + adaptadores"]
        UNET3["U-Net principal<br/>Modelo de difusion"]
        CLIP2["CLIP Encoder"]
    end

    subgraph RESULTADO["RESULTADO"]
        GEN["Imagen generada<br/>respetando la estructura<br/>de control"]
    end

    PROMPT --> CLIP2
    CLIP2 --> UNET3
    CTRL --> CNET
    CNET -->|"Inyeccion de features<br/>via zero convolutions"| UNET3
    UNET3 --> GEN

    style INPUTS fill:#e8f4f8,stroke:#2D495D,color:#000000
    style PROCESAMIENTO fill:#fff3e0,stroke:#FF9900,color:#000000
    style RESULTADO fill:#e8f5e9,stroke:#2e7d32,color:#000000

ControlNet funciona creando una copia del encoder de la U-Net que procesa la imagen de control, y luego inyecta sus features en la U-Net principal a traves de “zero convolutions” — capas convolucionales inicializadas a cero que gradualmente aprenden a integrar la informacion de control sin destruir las capacidades pre-entrenadas del modelo.

LoRA: Fine-Tuning Accesible

LoRA (Low-Rank Adaptation) permite adaptar modelos de difusion a estilos o dominios especificos con un costo minimo. En lugar de actualizar todos los parametros de la U-Net (cientos de millones), LoRA anade pequenas matrices de bajo rango a las capas de atencion:

\[W' = W + \Delta W = W + BA\]

Donde $B \in \mathbb{R}^{m \times r}$ y $A \in \mathbb{R}^{r \times n}$ con $r \ll \min(m, n)$. Un LoRA tipico tiene solo 10-100 MB frente a los 2-6 GB del modelo completo, y puede entrenarse en minutos con una sola GPU consumer.

Las aplicaciones de LoRA incluyen:

  • Estilos artisticos: Entrenar con obras de un artista especifico
  • Dominios especializados: Adaptar a imagenes medicas, satelitales o documentales
  • Personajes y objetos: Generar un sujeto especifico en cualquier contexto
  • Conceptos abstractos: Ensenar al modelo estilos de iluminacion, composicion o atmosfera

Otras Tecnicas Esenciales

img2img (Image-to-Image): En lugar de partir de ruido puro, se comienza con una imagen existente parcialmente ruidificada. Controlando cuanto ruido se anade (parametro de “fuerza”), se puede transformar una imagen preservando su estructura general pero cambiando estilo, detalles o contenido.

Inpainting: Se enmascarar una region de la imagen y el modelo regenera solo esa area, manteniendo perfecta coherencia con el contexto circundante. Fundamental para edicion fotografica y restauracion.

Outpainting: Similar al inpainting pero extendiendo la imagen mas alla de sus bordes originales, generando contenido nuevo que se integra naturalmente con la imagen existente.

IP-Adapter (Image Prompt Adapter): Permite usar imagenes como parte del prompt, no solo texto. El modelo puede generar imagenes que combinan el contenido de una imagen de referencia con una descripcion textual, habilitando transferencia de estilo y composicion visual avanzada.

Aplicaciones Empresariales en Gestion Documental

Los modelos de difusion no son solo herramientas creativas. Para empresas dedicadas a la digitalizacion y gestion documental, como AyP Digital, estas tecnologias abren posibilidades concretas y de alto impacto.

Restauracion y Mejora de Documentos Escaneados

Los modelos de difusion pueden actuar como sistemas de super-resolucion y restauracion para documentos historicos o escaneados con baja calidad. A diferencia de los filtros tradicionales, un modelo de difusion entrenado en pares de documentos degradados y limpios puede:

  • Aumentar la resolucion de escaneos de 150 DPI a 600 DPI con detalles coherentes
  • Eliminar manchas, pliegues y artefactos preservando el texto y las firmas
  • Reconstruir secciones danadas del documento usando el contexto circundante (inpainting documental)
  • Mejorar el contraste de documentos con tinta desvanecida

Generacion de Datos Sinteticos para Entrenamiento de OCR

Uno de los mayores desafios del OCR es obtener datos de entrenamiento suficientes para formatos de documentos especificos. Los modelos de difusion pueden generar documentos sinteticos realistas que sirven para entrenar y mejorar los sistemas de reconocimiento:

  • Facturas con diferentes formatos, tipografias y degradaciones
  • Documentos manuscritos con variaciones de caligrafia
  • Sellos, firmas y membretes con estilos diversos
  • Documentos con arrugas, manchas y desgaste simulados
flowchart LR
    subgraph GEN_DATOS["GENERACION DE DATOS"]
        T1["Prompt:<br/>factura peruana<br/>con sello y firma"]
        T1 --> DIF["Modelo de<br/>Difusion"]
        DIF --> SYN["Documentos<br/>sinteticos<br/>realistas"]
    end

    subgraph ENTRENAMIENTO["ENTRENAMIENTO OCR"]
        SYN --> DATOS["Dataset<br/>ampliado"]
        REAL["Documentos<br/>reales"] --> DATOS
        DATOS --> OCR2["Modelo OCR<br/>mejorado"]
    end

    subgraph PRODUCCION["PRODUCCION"]
        DOC_REAL["Documentos<br/>a digitalizar"] --> OCR2
        OCR2 --> RESULTADO2["Texto extraido<br/>con mayor<br/>precision"]
    end

    style GEN_DATOS fill:#e8f4f8,stroke:#2D495D,color:#000000
    style ENTRENAMIENTO fill:#fff3e0,stroke:#FF9900,color:#000000
    style PRODUCCION fill:#e8f5e9,stroke:#2e7d32,color:#000000

Generacion de Plantillas Documentales

Los modelos de difusion pueden generar plantillas y borradores visuales de documentos para estandarizacion empresarial, creando propuestas de layout, formatos de formularios y disenos de comprobantes que se ajusten a normativas especificas.

Aumento de Datos para Clasificacion Documental

Cuando una organizacion tiene pocas muestras de cierta categoria documental (por ejemplo, un tipo raro de resolucion administrativa), los modelos de difusion pueden generar variaciones realistas que aumentan el dataset de entrenamiento para clasificadores automaticos, mejorando su precision con categorias infrecuentes.

El Futuro: Tendencias 2026-2027

Difusion de Video: La Proxima Frontera

La extension de los modelos de difusion a video es la frontera mas activa de investigacion. Modelos como Sora (OpenAI), Runway Gen-3, Kling (Kuaishou) y Veo 2 (Google DeepMind) pueden generar clips de video de hasta un minuto con calidad cinematografica desde una descripcion textual.

La arquitectura tipica extiende los Diffusion Transformers a tres dimensiones: ancho x alto x tiempo. Los principales desafios son:

  • Consistencia temporal: Mantener la identidad de objetos y personajes a lo largo del video
  • Fisica realista: Simular movimiento, gravedad, fluidos y colisiones de forma creible
  • Costo computacional: Un solo video puede requerir 10-100x mas computo que una imagen
  • Duracion: Escalar de segundos a minutos manteniendo coherencia narrativa

Generacion 3D

Modelos como Point-E, Shap-E (OpenAI), DreamFusion (Google) y Meshy estan llevando la difusion al espacio tridimensional, generando objetos 3D, texturas y escenas completas desde texto o imagenes. Las aplicaciones van desde videojuegos y realidad virtual hasta simulacion industrial y diseno de productos.

Generacion en Tiempo Real

Los Consistency Models (Song et al., 2023) y la Latent Consistency Model (LCM) han logrado reducir el muestreo a 1-4 pasos, permitiendo generacion de imagenes en tiempo real (menos de 100 milisegundos). Esto habilita aplicaciones interactivas como:

  • Dibujo asistido por IA en tiempo real
  • Previsualizacion instantanea de disenos
  • Filtros de camara con efectos de difusion en vivo
  • Edicion de imagenes interactiva con retroalimentacion inmediata

Flow Matching y Rectified Flows

El flow matching esta emergiendo como el sucesor natural del framework DDPM. En lugar de definir procesos de difusion complejos, el flow matching aprende un transporte optimo directo entre la distribucion de datos y la distribucion de ruido. Las ventajas incluyen:

  • Entrenamiento mas estable y rapido
  • Muestreo con menos pasos
  • Mejor calidad a igual computo
  • Formulacion matematica mas limpia

Stable Diffusion 3 y Flux ya utilizan flow matching, y se espera que se convierta en el paradigma dominante para 2027.

IA Generativa para Documentos

Una tendencia especificamente relevante para la gestion documental es el uso de modelos de difusion y generativos para:

  • Reconstruccion de documentos historicos: Restaurar automaticamente documentos danados, incluyendo paginas parcialmente destruidas
  • Traduccion visual de documentos: Generar versiones de documentos en diferentes idiomas manteniendo el formato original
  • Accesibilidad: Convertir documentos complejos en formatos accesibles con visualizaciones generadas por IA
  • Verificacion de autenticidad: Entrenar detectores que distingan documentos reales de falsificaciones generadas por IA

Preguntas Frecuentes

Que es un modelo de difusion en terminos simples?

Un modelo de difusion es un tipo de inteligencia artificial que aprende a generar imagenes (u otros datos) mediante un proceso de dos pasos: primero, aprende como se ve una imagen cuando se le anade ruido gradualmente hasta destruirla; luego, aprende a invertir ese proceso, partiendo de ruido puro y eliminandolo paso a paso hasta obtener una imagen nueva y coherente. Es como aprender a limpiar una fotografia ruidosa, pero tan bien que puede crear fotografias nuevas desde cero.

Cual es la diferencia entre Stable Diffusion, DALL-E y Midjourney?

Los tres son modelos de generacion de imagenes basados en difusion, pero difieren en arquitectura y acceso. Stable Diffusion es open source y funciona en su propia computadora, usa difusion en espacio latente (LDM). DALL-E 3 es de OpenAI, accesible via API y ChatGPT, con excelente comprension de prompts complejos. Midjourney es un servicio comercial accesible via Discord y web, reconocido por su calidad artistica excepcional. En 2024-2026, Stable Diffusion 3 y Flux han adoptado la arquitectura DiT (Diffusion Transformer), mientras que los tres continuan mejorando en calidad y velocidad.

Necesito una GPU potente para usar modelos de difusion?

Depende del modelo. Stable Diffusion 1.5 puede funcionar en GPUs con 4 GB de VRAM. SDXL requiere al menos 8 GB. Los modelos mas recientes como Flux necesitan 12-16 GB para resultados optimos. Con tecnicas de cuantizacion y optimizacion, es posible ejecutar modelos en hardware cada vez mas accesible. Servicios en la nube como Replicate, RunPod o las APIs de OpenAI y Stability AI eliminan la necesidad de hardware propio.

Los modelos de difusion pueden generar texto legible dentro de las imagenes?

Historicamente, esta fue una de las mayores debilidades: los modelos producian texto ilegible o sin sentido. DALL-E 3 fue el primer modelo en abordar esto seriamente mediante entrenamiento con captions extremadamente detallados. Modelos como Ideogram 2.0, Flux y las versiones mas recientes de Midjourney han mejorado significativamente en este aspecto, aunque la generacion de texto largo sigue siendo desafiante.

Que es el espacio latente y por que es importante?

El espacio latente es una representacion comprimida de los datos de imagen. En lugar de trabajar con los millones de pixeles de una imagen directamente, un autoencoder comprime la imagen a un espacio de menor dimension que captura su esencia. La difusion en este espacio comprimido es 48 veces mas eficiente computacionalmente, lo que permitio que Stable Diffusion funcionara en GPUs de consumo en lugar de requerir hardware de datacenter.

Como afectan los modelos de difusion a la gestion documental?

Los modelos de difusion tienen aplicaciones concretas en gestion documental: restauracion y mejora de documentos escaneados con baja calidad, super-resolucion de escaneos de baja DPI, generacion de datos sinteticos para entrenar mejores sistemas de OCR, y deteccion de falsificaciones documentales. En AyP Digital, exploramos estas tecnologias para ofrecer digitalizacion de mayor calidad y precision.

La situacion legal esta en evolucion. En la mayoria de jurisdicciones, incluido Peru, las imagenes generadas por IA pueden usarse comercialmente, pero no pueden registrarse como propiedad intelectual del usuario (ya que no hay “autor humano” segun la legislacion actual). Es importante verificar los terminos de servicio del modelo utilizado: algunos, como Midjourney y DALL-E, otorgan derechos comerciales a los usuarios de sus planes de pago. Para documentos oficiales, se recomienda siempre usar imagenes reales o claramente identificar el contenido generado por IA.

Conclusion

Los modelos de difusion representan una de las ideas mas elegantes de la inteligencia artificial moderna: convertir el problema dificil de la generacion en el problema mas simple de la eliminacion de ruido. Detras de cada imagen generada por Stable Diffusion o DALL-E hay una danza precisa entre matematicas — el proceso forward gaussiano, la reparametrizacion, la prediccion de ruido — y arquitectura neuronal — la U-Net con atencion, el encoder CLIP, el VAE latente.

Hemos recorrido todo el stack: desde la formula del proceso forward $q(x_t x_{t-1})$ hasta la funcion de perdida simplificada $|\epsilon - \epsilon_\theta|^2$, desde la estructura de la U-Net hasta el Classifier-Free Guidance que permite controlar la generacion con texto. Hemos visto como la difusion en espacio latente democratizo el acceso a estas herramientas, como ControlNet y LoRA anadieron control y personalizacion, y como la evolucion hacia DiT y flow matching esta definiendo la proxima generacion de modelos.

Para las organizaciones que gestionan grandes volumenes de documentos, estas tecnologias no son curiosidades academicas: son herramientas practicas para mejorar la calidad de la digitalizacion, generar datos de entrenamiento para OCR, restaurar documentos historicos y construir pipelines de procesamiento mas robustos.

El campo avanza a una velocidad vertiginosa. Los modelos de video, la generacion 3D y la inferencia en tiempo real estan transformando lo que es posible. Las organizaciones que comprendan estos fundamentos — la matematica, las arquitecturas, las posibilidades y las limitaciones — estaran mejor preparadas para aprovechar cada nueva generacion de modelos generativos.


En AyP Digital combinamos tecnologia de inteligencia artificial con experiencia en gestion documental para transformar como las organizaciones peruanas procesan, almacenan y consultan su informacion. Desde OCR inteligente hasta restauracion de documentos con IA generativa, implementamos soluciones que generan retorno de inversion medible.

Desea explorar como la IA generativa puede mejorar la gestion documental de su organizacion? Contactenos para una evaluacion personalizada.

Telefono: +51 942 867 653 Email: ventas@aypdigital.com

Etiquetas

modelos de difusion stable diffusion DALL-E inteligencia artificial generativa generacion de imagenes IA deep learning U-Net CLIP VAE DDPM DDIM Midjourney text-to-image ControlNet LoRA espacio latente gestion documental

Preguntas Frecuentes

Stable Diffusion aprende a eliminar ruido de imágenes. Durante el entrenamiento, se agrega ruido gradualmente a imágenes reales y el modelo aprende a revertir el proceso. Para generar, empieza con ruido puro y lo va limpiando paso a paso guiado por un texto descriptivo (prompt), produciendo una imagen coherente.
Stable Diffusion es open source (puedes correrlo localmente, modificarlo, sin costos por imagen). DALL-E 3 (OpenAI) tiene mayor coherencia con prompts complejos y está integrado en ChatGPT. Midjourney produce la mejor calidad artística pero es solo accesible vía Discord. Todos usan variantes de modelos de difusión.
Sí, con precauciones. Casos válidos: material de marketing, ilustraciones para blog, prototipos de diseño, variaciones de productos. Precauciones: verifique derechos de uso comercial (Stable Diffusion es libre, DALL-E y Midjourney tienen licencias específicas), no use para falsificar documentos, y revise la calidad antes de publicar.