Captura de Datos

Software ePaper A&P

Ver todos los servicios
Destacado

ePaper A&P

Gestión documental en la nube. Accede desde cualquier lugar.

Conocer más
Automatización

OMR e ICR en Encuestas y Fichas Ópticas: Automatiza la Captura Masiva de Datos en Perú

OMR e ICR automatizan la captura masiva de datos en fichas ópticas: velocidad 10x y precisión hasta 99.9%. Casos reales de MINSA, MINEDU, ONPE e INEI en Perú.

Rodrigo Espinoza
14 min de lectura
Compartir:

Puntos Clave

  • OMR no es OCR. El OMR detecta si una burbuja está rellena o no; no lee texto ni interpreta formas. Esa distinción explica por qué alcanza hasta 99.9% de precisión a 10,000 formularios por hora: es detección binaria de posición, no reconocimiento de contenido.
  • El diseño de la ficha determina el resultado. Un formulario mal diseñado —burbujas demasiado juntas, sin marcas de registro, con fondo oscuro cerca de las zonas de marcado— produce errores que ningún software corrige después. El diseño correcto es el primer paso del proceso, no un detalle gráfico.
  • La instrucción al usuario es parte de la solución técnica. El MINSA documenta que la causa principal de anulación en las fichas SERUMS es la doble marca y el uso de corrector líquido. Esos errores no los genera el sistema de lectura, sino la falta de instrucción previa: el protocolo de instrucción es tan crítico como el equipo de escaneo.
  • El valor legal de la imagen escaneada no es automático. Una ficha procesada y convertida en archivo digital es útil operativamente, pero su valor probatorio como reemplazo del original físico requiere un proceso de microformas certificado bajo el D.L. 681. Para entidades públicas con obligaciones de conservación, esta distinción tiene consecuencias legales concretas.

Empezó hace apenas tres días. Una universidad acaba de aplicar 8,000 formularios de evaluación en papel en cuatro sedes simultáneas. La dirección académica necesita los resultados consolidados en 72 horas para publicar el cuadro de méritos. La opción manual es conocida: doce digitadores en turnos extendidos, revisión cruzada y una tasa de error que en el mejor de los casos ronda el 2–4%. Cada punto porcentual de error en un cuadro de méritos es un reclamo formal esperando ocurrir.

Este es el cuello de botella que casi nadie ve hasta que lo tiene encima: el dato existe, está en papel, y convertirlo en información utilizable a tiempo se vuelve el problema más caro del proceso.

La buena noticia es que este problema ya está resuelto, y no con tecnología del futuro. El OMR (Optical Mark Recognition, reconocimiento óptico de marcas) y el ICR (Intelligent Character Recognition, reconocimiento inteligente de caracteres) llevan años operando en las instituciones más grandes del Perú. El MINSA terceriza el procesamiento óptico de las fichas del SERUMS. El MINEDU lo aplica en la Evaluación Censal de Estudiantes. El INEI captura sus encuestas nacionales con reconocimiento de caracteres manuscritos. La ONPE escanea y digitaliza actas electorales con verificación cruzada.

La pregunta correcta, entonces, no es si esta tecnología sirve —sirve, y a escala nacional—, sino si su organización la está aprovechando o sigue pagando el sobrecosto de la digitación manual. Este artículo explica qué hace cada tecnología, dónde se aplica hoy en el Perú, cómo es el flujo completo desde la ficha física hasta la base de datos, y qué se necesita para que ese dato tenga valor legal pleno.

OMR: lo que el escáner ve cuando rellenas una burbuja

El principio del OMR es físico y sorprendentemente simple: el lector mide la reflectividad de la luz en coordenadas predefinidas del formulario. Una burbuja rellena con lápiz absorbe luz; una vacía la refleja. El sistema no interpreta formas, no reconoce contenido, no lee texto. Solo determina una cosa en cada posición conocida: hay marca o no hay marca. Esa simplicidad es exactamente lo que lo hace tan rápido y tan preciso.

En formularios bien diseñados, la precisión alcanzable llega hasta 99.9%. La velocidad depende del equipo: un escáner de gama media procesa varios miles de hojas A4 por hora, y los equipos de alta capacidad superan los 10,000 formularios por hora. Cada formulario se procesa en milisegundos. No es una mejora marginal sobre la digitación manual; es un cambio de orden de magnitud.

Esa precisión no es gratuita: depende del diseño de la ficha. Los requisitos no son negociables:

  • Marcas de registro (cuadros negros sólidos) en las cuatro esquinas, para que el software alinee la imagen escaneada con el mapa de coordenadas.
  • Colores dropout para el fondo preimpreso —rojo claro, azul pálido, naranja pálido—, que el escáner no detecta y por tanto no confunde con marcas del usuario.
  • Papel de 90 a 120 gramos, que no se transparente ni se deforme al pasar por el alimentador.
  • Burbujas de 4 a 6 mm de diámetro, con espaciado suficiente entre centros para que la marca de una no invada la adyacente.

Vale precisar para qué sirve el OMR y para qué no. Sirve para preguntas de opción múltiple, escalas Likert, inventarios binarios de sí/no, padrones y cualquier respuesta cerrada. No sirve para capturar texto libre ni datos manuscritos variables. Para eso existe el ICR.

ICR: cuando el formulario tiene campos de escritura a mano

Aquí hay una distinción que se confunde con frecuencia. El OCR convierte texto impreso por máquina —fuentes uniformes, tamaño constante— en texto digital. El ICR hace algo considerablemente más difícil: convierte caracteres manuscritos, usando modelos de inteligencia artificial que interpretan trazos, curvas e intersecciones que varían de una persona a otra. Reconocer una “A” impresa es trivial; reconocer la “A” que escribe a mano cada uno de 8,000 participantes distintos es el reto real.

La precisión del ICR en manuscritos estructurados —un carácter por casillero, en mayúsculas— se ubica en el rango de 85 a 95%. Esa horquilla depende de factores concretos: la calidad del trazo del usuario, el tamaño de los casilleros, el contraste del papel y, sobre todo, la consistencia de las instrucciones que se dieron antes de llenar el formulario.

En el contexto peruano, los casos de uso del ICR son naturales y cotidianos: captura del DNI en formularios de encuesta, nombres de participantes, códigos de identificación numérica y campos breves en formularios híbridos. El INEI lo emplea para procesar sus encuestas nacionales —ENAHO, ENE, ENDES— digitalizando los formularios de campo que levantan los encuestadores en todo el territorio nacional.

El requisito de diseño es estricto: casilleros individuales de al menos 8 mm de altura, instrucción explícita de escribir en mayúsculas y un solo carácter por casilla. Sin ese diseño, la precisión no baja de forma controlada; cae de manera impredecible y deja de ser confiable.

La tabla que importa: OMR vs. ICR vs. digitación manual

Dimensión OMR ICR Digitación manual
Velocidad 2,000–10,000 formularios/hora 500–2,000/hora en formularios mixtos 80–150 formularios/hora por operador
Precisión Hasta 99.9% 85–95% en manuscritos estructurados 96–99% (varía con fatiga y complejidad)
Tipo de dato Opciones cerradas (burbujas) Texto manuscrito corto (DNI, nombre, código) Cualquier tipo
Costo por formulario a escala Muy bajo Bajo-medio Alto (escala linealmente con el volumen)
Revisor humano Solo excepciones (<1%) Campos de baja confianza Siempre (es el proceso completo)

En la práctica, los formularios reales no eligen entre una u otra tecnología: las combinan. OMR para las respuestas, ICR para la identificación. Un formulario híbrido bien diseñado procesa en segundos por unidad lo que un digitador tarda varios minutos, y libera al revisor humano para que solo intervenga en las excepciones que el sistema marca como dudosas.

Cinco casos reales verificados en el Perú

MINSA — Evaluación SERUMS

El SERUMS se aplica varias veces al año a nivel nacional. Los postulantes llenan fichas ópticas con dos secciones diferenciadas: una de identificación con casilleros manuscritos (DNI, código de aula, firma) y otra de respuestas con burbujas A/B/C/D. El MINSA emite instructivos oficiales que especifican el instrumento exacto —lápiz 2B—, los errores que invalidan la ficha (doble marca, uso de corrector, manchas) y las consecuencias: exclusión sin derecho a reclamo. La convocatoria para “digitalización y procesamiento de fichas ópticas” del SERUMS es pública y recurrente; el procesamiento se terceriza formalmente a empresas especializadas.

MINEDU — Evaluación Censal de Estudiantes (ECE)

La ECE evalúa a estudiantes de los primeros grados de primaria en comunicación y matemáticas a escala nacional. Los cuadernillos de respuesta usan tecnología combinada: OMR para la sección de opción múltiple e ICR para los datos de identificación del alumno. El instructivo oficial del MINEDU menciona fichas habilitadas para captura mediante ambas tecnologías. El volumen involucrado abarca cientos de miles de estudiantes en miles de instituciones educativas a lo largo del territorio.

ONPE — Actas electorales con escaneo y doble entrada

La ONPE opera una red de centros de cómputo (ODPE) distribuidos a nivel nacional. El proceso para las elecciones generales incluye: recepción de actas físicas, escaneo, control de calidad automatizado, doble ingreso de datos para verificación cruzada —y un tercer ingreso cuando hay discrepancia— y publicación periódica de resultados. Las actas no son formularios OMR de burbuja; las escriben a mano los miembros de mesa. Sin embargo, el proceso de escaneo más digitación asistida con control cruzado comparte exactamente la lógica de la captura automatizada con verificación.

INEI — Encuestas nacionales (ENAHO, ENE, ENDES)

El INEI aplica tecnología ICR para la captura de sus encuestas nacionales mediante el escaneo de formularios de campo. Su sede de procesamiento realiza digitalización, reconocimiento, verificación de consistencia y generación de bases de datos en múltiples formatos (SPSS, CSV, STATA, DBF). Las bases resultantes son de libre acceso en su repositorio ANDA, lo que convierte esta operación en uno de los ejemplos más transparentes de captura masiva automatizada en el sector público peruano.

SUNAFIL — Cuestionarios masivos a empresas

En un solo proceso, SUNAFIL ha enviado cuestionarios de verificación a decenas de miles de empresas, cruzando su base con los registros de SUNAT (T-Registro y PLAME). Esto genera presión directa sobre las organizaciones para que sus registros documentales sean precisos, accesibles y digitalizados —incluyendo los resultados de sus propias encuestas internas de cumplimiento laboral, que con frecuencia siguen levantándose en papel.

Cómo funciona el proceso completo: de la ficha física a la base de datos

Paso 1 — Consultoría de diseño. Antes de imprimir un solo formulario, se define qué datos se capturarán, en qué formato (OMR, ICR o híbrido) y se configura el software de lectura. Un principio que cuesta interiorizar: el diseño del formulario depende del lector, no al revés.

Paso 2 — Diseño y validación de la ficha. Se diseña con marcas de registro en las cuatro esquinas, colores dropout, espaciado correcto entre burbujas y casilleros ICR del tamaño adecuado. Antes de imprimir el lote completo, se realiza una prueba piloto con el lector real.

Paso 3 — Impresión del lote. Papel de 90–120 gramos, impresión offset para tiradas grandes —ofrece mayor consistencia de registro que la impresión láser—. Control de color del lote antes de distribuir.

Paso 4 — Recolección y recepción. Recepción de las fichas físicas con protocolo de cadena de custodia. Separación previa de fichas dañadas, dobladas o con marcas evidentemente inválidas.

Paso 5 — Escaneo y procesamiento OMR/ICR. Escaneo en alta resolución, procesamiento automático, extracción de datos campo a campo y asignación de un nivel de confianza a cada lectura.

Paso 6 — Control de calidad. Las fichas con confianza baja —marca ambigua, campo ICR ilegible— se separan automáticamente para revisión humana. Verificación aleatoria del 2–5% del total procesado y protocolo de tercer ingreso para casos dudosos.

Paso 7 — Entrega de base de datos y archivo digital. Entrega en el formato requerido (Excel, CSV, SQL, integración directa con ERP). Archivo digital de las imágenes escaneadas con cadena de custodia documentada. Si se requiere valor legal archivístico, producción de microformas bajo el D.L. 681 y la NTP 392.030-2:2015.

El checklist de diseño de ficha óptica (20 puntos críticos)

Antes de diseñar

  • Definir qué datos se necesitan antes de tocar el diseño de la ficha.
  • Seleccionar el software y equipo de lectura antes de comenzar el diseño.
  • Determinar si los datos son solo OMR o incluyen campos ICR.
  • Definir el volumen y su impacto en el método de impresión.

Diseño del formulario

  • Marcas de registro en las cuatro esquinas (cuadros negros sólidos).
  • Colores dropout para el fondo preimpreso (rojo claro, azul pálido, naranja pálido).
  • Burbujas de 4–6 mm de diámetro, espaciado mínimo de 3–4 mm entre centros.
  • No usar negro intenso cerca de las zonas de marcado.
  • Incluir código de barras para identificación automática del formulario.
  • Casilleros ICR de mínimo 8 mm de altura, uno por carácter.
  • Instrucción “MAYÚSCULAS, UN CARÁCTER POR CASILLA” visible junto a los campos ICR.
  • Reservar espacio en blanco suficiente alrededor de cada campo.

Impresión

  • Papel de gramaje 90–120 gramos.
  • Impresión offset para tiradas grandes.
  • Verificar consistencia del color dropout en todo el lote.
  • Prueba con una muestra del 5% del lote antes de distribuir.

Instrucción al usuario final

  • Especificar lápiz 2B (no bolígrafo, no lápiz HB).
  • Mostrar ejemplo visual de marca correcta frente a marca incorrecta.
  • Indicar explícitamente: sin corrector líquido, sin doblar, sin arrugar.
  • Instruir el llenado del DNI casilla por casilla.

Los errores que invalidan una ficha y cómo evitarlos

Errores de diseño (responsabilidad de quien encarga la ficha)

  • Usar negro intenso cerca de las burbujas: el lector no distingue entre el texto preimpreso y la marca del usuario.
  • Burbujas demasiado próximas entre sí: el sobrante de una marca activa la burbuja adyacente.
  • Omitir marcas de registro o incluir solo dos esquinas en lugar de cuatro.
  • Diseñar en PowerPoint sin verificar las tolerancias del lector específico que se usará.
  • No realizar prueba piloto antes de imprimir el lote completo.

Errores del usuario (responsabilidad del proceso de instrucción)

  • Doble marca en la misma pregunta: documentada por el MINSA como causa principal de anulación en el SERUMS.
  • Corrector líquido: invalida físicamente la ficha en la mayoría de los lectores.
  • Lápiz de dureza H o HB en lugar de 2B: la marca no alcanza el umbral de detección.
  • Ficha doblada o enrollada: crea sombras que el lector interpreta como marcas espurias.
  • Marcas fuera del área de la burbuja.

Errores de proceso (responsabilidad del operador de escaneo)

  • Calibración incorrecta del escáner al cambiar de papel o impresora.
  • No limpiar los rodillos periódicamente: causa atascos y desalineación de la imagen.
  • Apilar fichas con grapas o papeles doblados intercalados.
  • Asumir que una configuración de software sirve para una nueva versión del formulario sin reconfigurar.

Esta es la pregunta que separa lo operativo de lo legal. Una entidad pública procesa 50,000 fichas de evaluación. ¿Puede destruir los originales físicos? ¿Tiene valor probatorio la imagen escaneada? La respuesta depende de si el proceso de digitalización cumple con el D.L. 681 y la NTP 392.030-2:2015. Hay tres escenarios típicos en el contexto peruano:

Escenario 1 — Uso interno sin requerimiento legal. Basta con la base de datos y el archivo digital de imágenes. La ficha física puede conservarse o destruirse según la política interna de la organización.

Escenario 2 — Proceso auditado (SBS, SUNAT, SUNAFIL). La imagen escaneada debe contar con cadena de custodia documentada, metadatos de integridad y acceso controlado. No exige necesariamente microforma, pero sí un sistema de gestión documental confiable y trazable.

Escenario 3 — Reemplazo legal del papel original (entidades públicas, archivos con plazos de conservación legal). Se requiere microforma digital producida bajo el proceso certificado en el marco del D.L. 681. La imagen resultante tiene el mismo valor probatorio que el original físico y, en consecuencia, permite destruir el papel.

Este es el punto donde el diferenciador importa: AyP Digital cuenta con certificación SGS bajo la NTP 392.030-2:2015, lo que permite producir microformas con pleno valor legal dentro de este marco normativo. La diferencia entre un archivo digital útil y una microforma con valor probatorio no es un matiz técnico; para una entidad con obligaciones de conservación documental, tiene consecuencias legales concretas.

Conclusión: la brecha digital peruana tiene un puente

La digitalización total de la captura de datos en el Perú no es posible en el corto plazo, y conviene ser honesto al respecto. Hay estudiantes en zonas sin conectividad, trabajadores en plantas sin dispositivos, profesionales de la salud rindiendo evaluaciones en salones físicos. Para esos contextos, las fichas ópticas no son una solución de transición incómoda mientras llega “lo digital”: son la solución permanente y correcta.

El costo de no automatizar es cuantificable. Una organización que procesa 10,000 formularios con digitadores manuales y otra que los procesa con OMR/ICR no compiten en el mismo orden de magnitud, ni en tiempo de entrega ni en costo ni en tasa de error. La diferencia no es de eficiencia; es estructural.

Hay dos puntos de entrada concretos. Si ya tiene formularios aplicados y necesita convertirlos en una base de datos confiable cuanto antes, el procesamiento puede comenzar con los originales físicos tal como están. Si va a diseñar una ficha óptica desde cero para su próxima encuesta, evaluación o censo interno, la coordinación temprana entre diseño y procesamiento es lo que separa un proyecto que sale bien de uno que descubre los problemas con el primer lote ya impreso. En ambos casos, contacte a AyP Digital para una evaluación de su proyecto.

Key takeaways

  1. OMR no es OCR. El OMR detecta si una burbuja está rellena o no; no lee texto ni interpreta formas. Esa distinción explica por qué alcanza hasta 99.9% de precisión a 10,000 formularios por hora: es detección binaria de posición, no reconocimiento de contenido.

  2. El diseño de la ficha determina el resultado. Un formulario mal diseñado —burbujas demasiado juntas, sin marcas de registro, con fondo oscuro cerca de las zonas de marcado— produce errores que ningún software corrige después. El diseño correcto es el primer paso del proceso, no un detalle gráfico.

  3. La instrucción al usuario es parte de la solución técnica. El MINSA documenta que la causa principal de anulación en las fichas SERUMS es la doble marca y el uso de corrector líquido. Esos errores no los genera el sistema de lectura, sino la falta de instrucción previa. El protocolo de instrucción es tan crítico como el equipo de escaneo.

  4. El valor legal de la imagen escaneada no es automático. Una ficha procesada y convertida en archivo digital es útil operativamente, pero su valor probatorio como reemplazo del original físico requiere un proceso de microformas certificado bajo el D.L. 681. Para entidades públicas con obligaciones de conservación, esta distinción tiene consecuencias legales concretas.

Preguntas frecuentes

¿Cualquier escáner puede leer fichas ópticas OMR? No. Los escáneres convencionales de oficina capturan la imagen del formulario, pero carecen del software y la calibración necesarios para interpretar la posición de las marcas y convertirlas en datos estructurados. El procesamiento OMR requiere software específico configurado para el diseño exacto del formulario, con parámetros de zona, umbral de densidad de marca y manejo de excepciones. Usar un escáner de oficina para leer fichas ópticas produce imágenes, no bases de datos.

¿Cuánto tarda el proceso completo desde que entregan las fichas hasta que reciben la base de datos? Depende del volumen, pero como referencia operativa: 10,000 fichas de formato estándar con campos OMR e ICR moderados pueden procesarse, controlarse y entregarse en 24 a 48 horas hábiles una vez recibidos los originales físicos. El cuello de botella no es el escaneo —que es muy rápido— sino el control de calidad de las fichas con lecturas de baja confianza, que requiere revisión humana. Volúmenes de 50,000 fichas o más requieren planificación previa del calendario de procesamiento.

¿Es posible diseñar una ficha óptica sin contratar a la misma empresa que hará el procesamiento? Técnicamente sí, pero representa un riesgo operativo alto. El diseño de la ficha debe estar calibrado para el lector específico que se usará: las tolerancias de posición de las burbujas, el tipo de marcas de registro, los parámetros de dropout de color y el mapeo de zonas dependen del software y el equipo concreto. Una ficha diseñada sin conocer el lector puede tener incompatibilidades que solo se descubren al procesar el primer lote, cuando ya no hay tiempo para rediseñar. Lo recomendable es que el diseño y el procesamiento los gestione el mismo proveedor, o que exista coordinación técnica formal entre ambos.

¿Qué pasa con las fichas que el sistema no puede leer con certeza? El motor OMR/ICR asigna un nivel de confianza a cada campo leído. Las fichas o campos que no superan el umbral configurado —por ejemplo, una burbuja rellena al 35% cuando el umbral mínimo es 40%, o un carácter manuscrito que el motor no logra clasificar— se separan automáticamente para revisión humana. Un operador los revisa individualmente y determina el valor correcto. Este mecanismo de excepción es el que permite que la base de datos final tenga una precisión efectiva superior al 99%, incluso cuando la tasa de fichas problemáticas ronda el 2–5% según la calidad del llenado.

Etiquetas

omr icr fichas ópticas captura de datos digitalización perú encuestas masivas automatización documental

Preguntas Frecuentes

No. Los escáneres convencionales de oficina capturan la imagen del formulario, pero carecen del software y la calibración necesarios para interpretar la posición de las marcas y convertirlas en datos estructurados. El procesamiento OMR requiere software específico configurado para el diseño exacto del formulario, con parámetros de zona, umbral de densidad de marca y manejo de excepciones. Usar un escáner de oficina para leer fichas ópticas produce imágenes, no bases de datos.
Depende del volumen, pero como referencia operativa: 10,000 fichas de formato estándar con campos OMR e ICR moderados pueden procesarse, controlarse y entregarse en 24 a 48 horas hábiles una vez recibidos los originales físicos. El cuello de botella no es el escaneo —que es muy rápido— sino el control de calidad de las fichas con lecturas de baja confianza, que requiere revisión humana. Volúmenes de 50,000 fichas o más requieren planificación previa del calendario de procesamiento.
Técnicamente sí, pero representa un riesgo operativo alto. El diseño de la ficha debe estar calibrado para el lector específico que se usará: las tolerancias de posición de las burbujas, el tipo de marcas de registro, los parámetros de dropout de color y el mapeo de zonas dependen del software y el equipo concreto. Una ficha diseñada sin conocer el lector puede tener incompatibilidades que solo se descubren al procesar el primer lote, cuando ya no hay tiempo para rediseñar. Lo recomendable es que el diseño y el procesamiento los gestione el mismo proveedor, o que exista coordinación técnica formal entre ambos.
El motor OMR/ICR asigna un nivel de confianza a cada campo leído. Las fichas o campos que no superan el umbral configurado —por ejemplo, una burbuja rellena al 35% cuando el umbral mínimo es 40%, o un carácter manuscrito que el motor no logra clasificar— se separan automáticamente para revisión humana. Un operador los revisa individualmente y determina el valor correcto. Este mecanismo de excepción es el que permite que la base de datos final tenga una precisión efectiva superior al 99%, incluso cuando la tasa de fichas problemáticas ronda el 2–5% según la calidad del llenado.