Captura de Datos

Software ePaper A&P

Ver todos los servicios
Destacado

ePaper A&P

Gestión documental en la nube. Accede desde cualquier lugar.

Conocer más
Inteligencia Artificial

Computer Vision para Documentos: Reconocimiento de Tablas, Firmas y Sellos

Guía de computer vision para documentos: reconocimiento de tablas, detección de firmas y sellos, deep learning, LayoutLM y aplicaciones empresariales en Perú 2025.

Rodrigo Espinoza
18 min de lectura
Compartir:

Puntos Clave

  • Computer vision supera al OCR tradicional al comprender la estructura visual del documento: tablas, firmas, sellos, layouts y relaciones espaciales
  • Modelos como LayoutLMv3 y DiT combinan visión y lenguaje para extraer datos de tablas complejas con precisión superior al 95%
  • La detección automatizada de firmas y sellos reduce el tiempo de validación documental de horas a segundos en notarías y entidades financieras
  • En Perú, estas tecnologías transforman la digitalización de expedientes en SUNARP, SUNAT, notarías y archivos históricos

El procesamiento de documentos ha superado la era del OCR simple. Mientras que la tecnología OCR convencional se limita a convertir imágenes de texto en caracteres digitales, el computer vision aplicado a documentos comprende la estructura visual completa: identifica dónde comienza y termina una tabla, detecta si un documento está firmado y sellado, reconoce el layout de formularios complejos y extrae información con un nivel de comprensión que se acerca al humano.

En 2025, esta convergencia entre visión por computadora y procesamiento de lenguaje natural está transformando industrias enteras. En Perú, donde millones de documentos físicos en notarías, registros públicos, entidades financieras y archivos gubernamentales esperan ser digitalizados inteligentemente, el computer vision documental representa un salto cualitativo respecto a las técnicas tradicionales.

Del OCR al Entendimiento Visual de Documentos

La Evolución del Procesamiento Documental

Generación Tecnología Capacidad Limitación
OCR 1.0 (1990s) Template matching Texto impreso simple, fuentes estándar Falla con layouts complejos
OCR 2.0 (2010s) ML + reglas Texto manuscrito básico, formularios Requiere templates por tipo
IDP (2018-2022) NLP + ML Extracción semántica de campos No comprende estructura visual
Document AI (2023+) Vision Transformers + LLMs Comprensión visual completa del documento Costo computacional alto

La cuarta generación —Document AI con computer vision— integra tres capacidades que anteriormente eran sistemas separados:

  1. Análisis visual: Comprensión del layout, detección de regiones, identificación de elementos gráficos
  2. Comprensión textual: OCR de alta precisión + NLP semántico
  3. Razonamiento multimodal: Integración de lo visual y lo textual para extraer significado

Arquitectura de Document AI con Computer Vision

flowchart TB
    subgraph "Entrada"
        A[Imagen/Scan del Documento]
    end
    
    subgraph "Análisis Visual"
        A --> B[Pre-procesamiento<br/>Deskew, Denoise, Binarize]
        B --> C[Layout Analysis<br/>Detectron2, DiT]
        C --> D1[Regiones de Texto]
        C --> D2[Tablas]
        C --> D3[Firmas/Sellos]
        C --> D4[Imágenes/Logos]
        C --> D5[Encabezados/Pies]
    end
    
    subgraph "Procesamiento por Tipo"
        D1 --> E1[OCR + NER]
        D2 --> E2[Table Transformer]
        D3 --> E3[Signature Verification]
        D4 --> E4[Logo Recognition]
    end
    
    subgraph "Integración Multimodal"
        E1 & E2 & E3 & E4 --> F[LayoutLMv3 / Donut]
        F --> G[Datos Estructurados + Metadatos]
    end

Reconocimiento y Extracción de Tablas

El Desafío de las Tablas en Documentos

Las tablas son uno de los elementos más difíciles de procesar en documentos escaneados. A diferencia del texto corrido, una tabla codifica información en dos dimensiones — filas y columnas — y su estructura puede variar enormemente:

Tipo de Tabla Complejidad Ejemplo Desafío Principal
Simple con líneas Baja Facturas estándar SUNAT Detección de celdas clara
Sin líneas horizontales Media Reportes financieros Alineación vertical ambigua
Con celdas fusionadas Alta Presupuestos, cronogramas Spanning rows/columns
Anidadas Muy alta Formularios gubernamentales Tablas dentro de tablas
Manuscritas Extrema Registros históricos, actas Estructura irregular, variabilidad

Modelos Estado del Arte para Tablas

Los avances recientes en detección y extracción de tablas son notables:

Modelo Desarrollador Enfoque F1-Score (ICDAR) Velocidad
Table Transformer (TATR) Microsoft Detection + Structure Recognition 96.2% 0.3 seg/tabla
DiT (Document Image Transformer) Microsoft Pre-trained document backbone 97.1% 0.4 seg/tabla
PubTables-1M Microsoft Dataset + modelo entrenado 95.7% 0.2 seg/tabla
TableFormer IBM End-to-end structure recognition 94.8% 0.5 seg/tabla
LayoutLMv3 Microsoft Multimodal (text + layout + image) 96.8% 0.6 seg/tabla

Pipeline de Extracción de Tablas

El proceso completo para extraer datos de tablas en documentos escaneados sigue estas etapas:

  1. Table Detection: Localizar la tabla dentro de la página (bounding box)
  2. Structure Recognition: Identificar filas, columnas y celdas
  3. Cell Content Extraction: OCR del contenido de cada celda
  4. Semantic Understanding: Identificar encabezados, tipos de datos, relaciones
  5. Output Structuring: Generar CSV, JSON, Excel o insertar en base de datos
flowchart LR
    A[Página Escaneada] --> B[Table Detection<br/>DETR/Faster R-CNN]
    B --> C[Structure Recognition<br/>Table Transformer]
    C --> D[Cell Extraction<br/>OCR por celda]
    D --> E[Semantic Mapping<br/>NLP + reglas]
    E --> F[Datos Estructurados<br/>JSON/CSV/DB]
    
    B -->|Confianza < 80%| G[Revisión Humana]
    G --> C

Detección y Verificación de Firmas

Tipos de Análisis de Firma

El computer vision aplicado a firmas abarca tres tareas distintas:

Tarea Descripción Precisión Típica Aplicación
Detección ¿Existe una firma en el documento? ¿Dónde? 97-99% Validación de completitud
Segmentación Separar la firma del fondo, sellos y texto 94-97% Extracción y archivo
Verificación ¿La firma corresponde al firmante esperado? 90-96% Autenticación, fraude

Detección de Firmas con Deep Learning

Los modelos de detección de firmas utilizan arquitecturas de object detection adaptadas al dominio documental:

  • Faster R-CNN entrenado con datasets de documentos notariales peruanos logra mAP de 95%+ para localizar firmas en escrituras públicas
  • YOLOv8 ofrece detección en tiempo real (<50ms por página) ideal para procesamiento masivo
  • Segment Anything Model (SAM) permite segmentación precisa del trazo de firma para análisis posterior

Verificación Offline de Firma

La verificación de firma offline (sobre imagen escaneada, sin datos de presión o velocidad del trazo) es un problema complejo que los modelos actuales abordan mediante:

  1. Feature extraction: Redes Siamesas que aprenden representaciones de la firma
  2. Comparación: Distancia entre la firma analizada y firmas de referencia
  3. Decisión: Clasificación genuina/falsificada con umbral configurable
Método Arquitectura EER (Equal Error Rate) Ventaja
SigNet CNN Siamesa 4.6% Buena generalización
ViT-Signature Vision Transformer 3.2% Captura patrones globales
CLIP-Sig Multimodal CLIP 2.8% Zero-shot a nuevos firmantes
Ensemble híbrido CNN + ViT + métricas 2.1% Máxima precisión

Detección y Verificación de Sellos

Sellos Institucionales en el Contexto Peruano

En Perú, los sellos institucionales tienen un rol particularmente importante en la validación de documentos oficiales. Notarías, municipalidades, ministerios, y entidades como SUNARP y SUNAT utilizan sellos como mecanismo de autenticación complementario a la firma.

Tipo de Sello Uso en Perú Elementos Detectables
Sello notarial Escrituras públicas, poderes Número de notaría, nombre, colegiatura
Sello institucional Documentos gubernamentales Logo, nombre entidad, dirección
Sello de recepción Mesa de partes, trámites Fecha, hora, número de registro
Sello de agua/seguridad Títulos, certificados Patrones UV, microtexto, hologramas
Timbre fiscal Documentos tributarios Denominación, serie, número

Pipeline de Detección de Sellos

flowchart TB
    A[Documento Escaneado] --> B[Pre-procesamiento<br/>Binarización adaptativa]
    B --> C[Detección de Regiones<br/>Hough Circles + CNN]
    C --> D{¿Tipo de sello?}
    D -->|Circular| E1[Análisis Polar<br/>Unwrapping + OCR]
    D -->|Rectangular| E2[OCR Directo<br/>+ Layout Analysis]
    D -->|Irregular| E3[Segmentación<br/>Instance Segmentation]
    E1 & E2 & E3 --> F[Extracción de Datos<br/>Entidad, Fecha, Número]
    F --> G[Verificación<br/>vs. Base de Datos]
    G --> H[Resultado: Válido/Inválido/Sospechoso]

La detección de sellos circulares (comunes en notarías peruanas) utiliza técnicas especializadas:

  • Hough Circle Transform para localizar regiones circulares
  • Polar unwrapping para convertir texto circular en texto lineal legible por OCR
  • Template matching para verificar contra sellos de referencia registrados

Análisis de Layout Documental

Document Layout Analysis (DLA)

El análisis de layout es la tarea de segmentar una página en regiones semánticas: texto, tablas, figuras, encabezados, pies de página, firmas, sellos, y otros elementos. Es el paso fundacional que habilita todo procesamiento posterior.

Modelo DLA Base Regiones Detectadas mAP (PubLayNet)
Detectron2 Mask R-CNN Texto, tabla, figura, lista, título 91.6%
DiT BEiT pre-trained 11 categorías documentales 94.9%
LayoutParser Detectron2 + modelos Configurable por dominio 93.2%
DocTR Vision Transformer Texto, tabla + OCR integrado 92.8%
YOLOv8-Doc YOLOv8 fine-tuned 8 categorías, tiempo real 90.1%

Modelos Multimodales: LayoutLM y Sucesores

La familia LayoutLM de Microsoft representa el estado del arte en comprensión documental multimodal:

Modelo Modalidades Pre-training Key Innovation
LayoutLM (2020) Texto + layout 2D 11M documentos Embeddings de posición 2D
LayoutLMv2 (2021) Texto + layout + imagen IIT-CDIP dataset Visual backbone integrado
LayoutLMv3 (2022) Texto + layout + imagen 11M docs, unificado Patch embeddings, pre-training unificado
Donut (2022) Solo imagen (OCR-free) SynthDoG dataset No requiere OCR previo
Pix2Struct (2023) Screenshot → texto Web rendering Comprensión de layouts web

Aplicaciones en el Mercado Peruano

Casos de Uso Prioritarios

Las aplicaciones de mayor impacto en Perú incluyen:

1. Notarías y Registros Públicos (SUNARP)

  • Digitalización de escrituras públicas con extracción de partes, predios, montos
  • Verificación automática de firmas notariales y sellos de protocolo
  • Extracción de datos de partidas registrales históricas con tablas complejas

2. Sistema Financiero (SBS regulado)

  • Procesamiento de solicitudes de crédito: DNI, recibos, contratos
  • Verificación de documentos de identidad (DNI, CE, pasaporte)
  • Extracción de datos de estados de cuenta y vouchers

3. Tributación (SUNAT)

  • Procesamiento masivo de facturas físicas escaneadas
  • Validación de comprobantes de pago para auditorías
  • Extracción de datos de declaraciones juradas históricas

4. Archivos Históricos

  • Digitalización de documentos coloniales con escritura antigua
  • Preservación de actas municipales del siglo XIX-XX
  • Extracción de datos genealógicos de partidas de nacimiento

Métricas de Impacto por Sector

Sector Volumen Mensual Precisión CV Ahorro vs. Manual Tiempo Procesamiento
Notarías (Lima) 5,000-20,000 docs 94-97% 70-80% 2-5 seg/página
Banca 50,000-200,000 docs 96-99% 85-92% 0.5-2 seg/página
SUNAT 100,000+ docs 95-98% 80-88% 1-3 seg/página
Archivos históricos 1,000-5,000 docs 85-92% 60-70% 5-15 seg/página

Implementación Práctica

Servicios Cloud vs. On-Premise

Servicio Proveedor Fortaleza Costo Aprox./1000 págs Data Residency
Document Intelligence Microsoft Azure Tablas, formularios, ID docs US$ 10-50 Brasil (más cercano)
Textract AWS Tablas, formularios, queries US$ 15-65 Brasil, Chile
Document AI Google Cloud Layout, entidades, OCR US$ 10-65 Chile, Brasil
On-premise (OSS) LayoutLMv3 + Detectron2 Control total, sin costos API Infraestructura propia Perú (local)

Para empresas peruanas con requisitos de soberanía de datos (sector financiero regulado por SBS, datos personales bajo Ley 29733), la opción on-premise o cloud con data residency en la región es frecuentemente necesaria.

Consideraciones de Implementación

  1. Dataset de entrenamiento: Recopilar mínimo 500-1,000 documentos representativos por tipo documental peruano
  2. Anotación: Etiquetar manualmente tablas, firmas, sellos en documentos de referencia
  3. Fine-tuning: Adaptar modelos pre-entrenados al dominio específico (notarial, financiero, tributario)
  4. Validación: Circuito de retroalimentación humana para documentos con baja confianza
  5. Integración: APIs REST para conectar con SGD, ERP y sistemas core existentes

ROI y Caso de Negocio

Concepto Inversión/Ahorro Anual
Implementación plataforma CV S/ 120,000 - S/ 350,000
Ahorro procesamiento manual S/ 250,000 - S/ 800,000
Reducción errores y reprocesos S/ 80,000 - S/ 200,000
Aceleración de procesos S/ 100,000 - S/ 300,000
ROI primer año 130-280%

Conclusión

El computer vision aplicado a documentos representa la evolución natural del procesamiento documental, superando las limitaciones del OCR tradicional al comprender la estructura visual completa del documento. La capacidad de detectar y extraer tablas complejas, verificar firmas, validar sellos institucionales y analizar layouts diversos abre posibilidades antes inaccesibles para la automatización documental.

En el contexto peruano, donde coexisten documentos modernos con archivos históricos de siglos de antigüedad, y donde entidades como SUNARP, SUNAT y el sistema financiero procesan millones de documentos, estas tecnologías no son un lujo tecnológico sino una herramienta esencial para la modernización. Los modelos actuales — LayoutLMv3, DiT, Table Transformer — alcanzan precisiones comparables a operadores humanos expertos, pero a una fracción del costo y tiempo.


En AyP Digital, implementamos soluciones de computer vision para el procesamiento inteligente de documentos empresariales: desde la extracción de tablas complejas hasta la verificación automatizada de firmas y sellos. Contáctanos al +51 942 867 653 o escribe a ventas@aypdigital.com para una demostración con tus propios documentos.

Etiquetas

computer vision reconocimiento documentos extracción tablas detección firmas deep learning OCR avanzado LayoutLM

Preguntas Frecuentes

El OCR convierte imágenes de texto en texto digital editable, pero no comprende la estructura del documento. Computer vision analiza el documento como un todo visual: identifica tablas, firmas, sellos, encabezados, relaciones entre campos y layout completo. Es como la diferencia entre leer palabras sueltas y comprender una página entera.
Sí, los sistemas de verificación de firma offline (sobre imagen) alcanzan precisiones del 90-96% comparando patrones de trazos, presión simulada y morfología. Sin embargo, para validez legal plena en Perú, la firma digital con certificado IOFE sigue siendo el estándar. Computer vision es ideal para pre-validación y detección de anomalías.
Para producción empresarial se recomienda GPU (NVIDIA T4 o superior) o servicios cloud (Azure Document Intelligence, AWS Textract, Google Document AI). Para volúmenes menores a 1,000 docs/día, CPU modernas con modelos optimizados pueden ser suficientes. El costo cloud típico es US$ 0.01-0.05 por página procesada.