Captura de Datos

Software ePaper A&P

Ver todos los servicios
Destacado

ePaper A&P

Gestión documental en la nube. Accede desde cualquier lugar.

Conocer más
Automatización

Automatización del Archivo de Planillas y Legajos en AFP y ONP: Flujos RPA-OCR para Cumplimiento SBS-SUNAFIL

Automatiza tu archivo de planillas y legajos en AFP/ONP con RPA-OCR-ICR. Flujos validados contra T-Registro, microformas con valor legal D.L. 681, cumplimiento SBS-SUNAFIL.

Rodrigo Espinoza
15 min de lectura
Compartir:

Puntos Clave

  • Planillas son permanentes, boletas tienen plazo de 5 años: El D.S. 001-98-TR establece conservación indefinida para los libros de planillas y 5 años desde el pago para las boletas (criterio reforzado por Casación 3131-2022). Todo proyecto de digitalización debe implementar un índice de expurgo automático que distinga entre ambos tipos, generando propuestas de eliminación solo donde es legal hacerlo. Este es el mayor riesgo de compliance en proyectos mal diseñados.
  • Las microformas bajo D.L. 681 son el único camino legal para destruir el físico: Sin certificación SGS bajo NTP 392.030-2:2015, el documento físico sigue siendo el original legal aunque exista un PDF de alta resolución. La microforma certificada por fedatario informático es lo que habilita la destrucción del original y la eliminación de costos de custodia. Pocos proveedores en Perú ofrecen este servicio; es el diferenciador más crítico al evaluar un proyecto de digitalización previsional.
  • T-Registro es la llave de validación automática: El pipeline RPA debe integrar validación cruzada contra T-Registro usando DNI y RUC como claves primarias. Para periodos anteriores a 1999, donde T-Registro no tiene datos, implementar muestra manual del 5-10% post-OCR para calibrar la tasa de error del ICR. Sin validación cruzada, los datos extraídos son especulativos; con ella, el repositorio se convierte en un activo verificable.
  • El SLA de menos de 2 horas ante SUNAFIL requiere tres pilares técnicos: Indexación correcta desde el inicio (metadatos: DNI, RUC, periodo), RBAC con acceso temporal para fiscalizadores, y motor de búsqueda con latencia inferior a 200 ms. Sin estos tres elementos, incluso un repositorio digital puede ser tan lento como un archivo físico frente a un requerimiento de fiscalización.

La gestión del archivo previsional peruano enfrenta una presión sin precedentes. Millones de trabajadores tienen sus historiales laborales dispersos entre cajas de cartón en depósitos, microfilms de los años ochenta y registros físicos de empresas desaparecidas hace décadas. Cuando un afiliado solicita su pensión o cuando SUNAFIL requiere documentación laboral, el plazo de respuesta puede medirse en semanas, no en horas. Eso no es un problema administrativo menor: es un riesgo legal, operacional y reputacional de primer orden.

La promulgación de la Ley 32123 en 2025 agrava este escenario. La reforma del sistema previsional peruano contempla traspasos masivos entre AFP y ONP durante 2026 y 2027, lo que exige que los expedientes de afiliados estén disponibles de forma inmediata y verificable. Las instituciones que dependan de búsquedas manuales en back-files físicos no podrán cumplir con los plazos que impone este proceso. La digitalización inteligente del archivo previsional dejó de ser una iniciativa de modernización para convertirse en un requisito operacional urgente.

Este artículo describe cómo implementar un pipeline RPA-OCR-ICR para el archivo de planillas y legajos en AFP y ONP: qué dice la normativa peruana sobre conservación documental, cómo estructurar las seis etapas del proceso automatizado, qué errores evitar y cómo este enfoque reduce el tiempo de búsqueda entre un 70% y un 85% mientras mantiene pleno cumplimiento SBS-SUNAFIL.


1. La Crisis del Archivo Físico Previsional en Perú

1.1 Una doble capa de documentación sin digitalizar

El archivo previsional peruano comprende dos capas con problemas distintos. La primera es la ONP: registros de trabajadores que aportaron al sistema público antes de 1999, en su mayoría en papel, microfilm o incluso libros contables manuscritos de empresas que cerraron, fueron expropiadas o se fusionaron. La segunda corresponde al back-file físico de las AFP: formularios de afiliación, cambios de fondo, traspasos, correspondencia y contratos que se acumularon desde 1993 y que, en muchos casos, nunca fueron digitalizados sistemáticamente.

Estas dos capas comparten un problema fundamental: el documento existe, pero localizarlo requiere conocer exactamente en qué depósito está, en qué caja y en qué posición dentro de esa caja. Sin un índice digital, la búsqueda es una exploración manual que puede tomar días completos.

1.2 El impacto operacional y de auditoría

Cuando un afiliado reclama un periodo de aportes no registrado, o cuando SUNAFIL requiere las planillas de remuneraciones de una empresa para verificar el cumplimiento laboral, el reloj empieza a correr. Los plazos de cumplimiento ante una fiscalización no admiten demoras en la búsqueda de documentos. La tardanza en presentar documentación puede derivar en sanciones, y en el contexto de un proceso judicial, la incapacidad de presentar prueba documental puede ser determinante para la resolución del caso.

El factor Ley 32123 añade una presión adicional: los traspasos de afiliados entre AFP y entre AFP y ONP requieren verificar el historial completo de aportes, y ese historial debe estar disponible en tiempo real para no convertirse en un cuello de botella que paralice el proceso de reforma.


Antes de diseñar cualquier pipeline de digitalización, es indispensable entender qué dice la ley sobre conservación documental. Tres errores frecuentes tienen origen normativo: confundir los plazos de distintos tipos de documentos, digitalizar sin valor legal y desconocer los requisitos para destruir legalmente el archivo físico.

2.1 Plazos de retención verificados

Tipo de documento Plazo de retención Fundamento normativo
Libros y planillas de remuneraciones Permanente D.S. 001-98-TR
Boletas de pago 5 años desde el pago D.S. 001-98-TR + Cas. 3131-2022
Contratos de trabajo 5 años desde el cese D.S. 001-98-TR
Formularios de afiliación AFP Permanente (expediente del afiliado) Regulación SBS
Documentos de traspaso Permanente Resoluciones SBS

La distinción entre planillas (permanentes) y boletas (5 años) constituye el mayor riesgo de compliance en proyectos mal diseñados. Un sistema que no diferencia estos tipos destruirá documentos que debía conservar indefinidamente, o conservará documentos que la ley permite eliminar tras el plazo de 5 años.

La Casación Laboral 3131-2022 refuerza el criterio de los 5 años para boletas, resolviendo la tensión que existía entre la conservación indefinida y los plazos procesales. Este criterio debe implementarse de forma automática en el índice de expurgo del repositorio.

2.2 Requisitos SBS para sistemas de información (Res. SBS 4036-2022)

La Resolución SBS 4036-2022 establece los requisitos de ciberseguridad e integridad para los sistemas de información de las AFP. Los puntos más relevantes para un repositorio documental son: integridad de los datos (ningún documento puede modificarse sin registro de auditoría), control de acceso basado en roles, cifrado en reposo y en tránsito, y disponibilidad con backups en al menos dos ubicaciones geográficas. Estos requisitos no son opcionales: su incumplimiento puede derivar en observaciones durante la supervisión periódica de la SBS.

Este es el punto que más frecuentemente se omite en proyectos de digitalización: un PDF, aunque sea de alta resolución, no tiene valor probatorio en juicio si el documento original existe. Para destruir legalmente el documento físico y conservar solo el digital, la ley peruana exige producir microformas digitales bajo el Decreto Legislativo 681 y la NTP 392.030-2:2015.

El proceso requiere una Línea de Producción de Microformas supervisada por un fedatario informático acreditado, y certificación por parte de un organismo bajo NTP-ISO/IEC 17065. SGS es el único certificador acreditado en Perú para este proceso. Sin esta certificación, el archivo físico sigue siendo el “original legal” y no puede destruirse, anulando los beneficios de costo de custodia que justifican muchos proyectos de digitalización.

2.4 T-Registro y PLAME como fuentes de validación automática

El T-Registro de SUNAT contiene los datos de relación laboral de trabajadores desde 1999: empleador, DNI del trabajador, fechas de ingreso y cese, tipo de contrato. La PLAME (Planilla Mensual de Pagos) contiene los montos declarados de remuneración y aportes. Ambos sistemas son accesibles vía el portal de SUNAT y funcionan como fuentes de validación cruzada para los datos extraídos por OCR/ICR, convirtiendo el repositorio digital en un activo verificable y auditable.


3. Arquitectura del Pipeline RPA-OCR-ICR: Seis Etapas

RPA (Robotic Process Automation) comprende bots de software que automatizan tareas repetitivas de interacción con sistemas. OCR (Optical Character Recognition) extrae texto impreso de imágenes. ICR (Intelligent Character Recognition) realiza la misma función con escritura manuscrita. OMR (Optical Mark Recognition) detecta casillas marcadas. Juntos, estos tres motores, coordinados por RPA e integrados con NLP, conforman lo que la industria llama IDP (Intelligent Document Processing): el estándar actual para archivos documentales complejos como el previsional.

3.1 Etapa 1: Captura y preparación de imagen

El escáner es el primer punto de control de calidad. La especificación mínima para OCR fiable es 300 DPI en escala de grises; para documentos con escritura manuscrita fina (boletas pre-1985) o microfilm, se recomienda 400 DPI. El preprocesamiento automático incluye:

  • Deskew: corrección del ángulo de escaneo cuando los documentos se colocan torcidos
  • Denoising: eliminación de ruido, manchas y degradación del papel
  • Normalización de contraste: especialmente crítica para documentos carbonados o mimeografiados
  • Clasificación automática: el sistema debe identificar si el documento es una boleta, un contrato, un formulario AFP o una planilla, antes de aplicar el motor de extracción correspondiente

Un error frecuente es iniciar el OCR sin preprocesamiento: la tasa de error se multiplica y los datos extraídos resultan no confiables para validación automática posterior.

3.2 Etapa 2: Extracción de datos (OCR/ICR/OMR/IDP)

  • OCR para texto impreso: planillas mecanografiadas, formularios tipografiados, contratos impresos. Precisión esperada: 95-99% en documentos bien conservados.
  • ICR para escritura manuscrita: montos escritos a mano, firmas, fechas en documentos anteriores a 1990. Precisión esperada: 97-98% con modelos calibrados para español peruano (crítico: el ICR debe incluir caracteres ñ, tildes y reconocer abreviaciones de razones sociales locales como “S.A.C.”, “E.I.R.L.”).
  • OMR para formularios de elección de fondo AFP: casillas de tipo 1, 2, 3 o mixto y opciones de aportes voluntarios.
  • Los modelos IDP modernos unifican los tres motores en un pipeline único, eliminando la necesidad de categorizar manualmente cada campo antes de procesar. El sistema decide qué motor aplicar a cada zona del documento de forma adaptativa.

3.3 Etapa 3: Validación cruzada contra T-Registro y registros de AFP

Un bot RPA extrae los datos del trabajador en T-Registro usando DNI y RUC del empleador como claves primarias. La validación automática verifica:

  • Concordancia de periodos: el periodo declarado en la planilla debe coincidir con la relación laboral registrada en T-Registro
  • Montos de aporte: coherencia con la remuneración declarada en PLAME
  • Tasa de aporte: verificación de la tasa correspondiente al periodo (la tasa AFP ha variado históricamente)

Para periodos anteriores a 1999, donde T-Registro no tiene datos, el pipeline implementa validación de muestra manual del 5-10% de documentos post-OCR para calibrar la tasa de error del ICR. Esta muestra puede reducirse progresivamente a medida que el modelo se calibra con el corpus específico del cliente.

3.4 Etapa 4: Indexación automática y generación de metadatos

La indexación es el paso más crítico para la recuperabilidad del archivo. Los metadatos mínimos obligatorios por documento incluyen:

  • DNI del trabajador
  • RUC del empleador
  • Periodo (mes/año)
  • Tipo de documento (planilla, boleta, contrato, formulario AFP)
  • Estado de validación (validado automáticamente, pendiente revisión, excepción)
  • Fecha de digitalización
  • Plazo de retención / fecha de expurgo (si aplica)

Adicionalmente, se genera un código QR vinculado al ID de registro en el repositorio, que se imprime en el documento físico antes de su custodia o destrucción. Esto permite recuperación inmediata si el proceso de microforma aún está pendiente.

3.5 Etapa 5: Repositorio con RBAC y trazabilidad de auditoría

El repositorio debe implementar Control de Acceso Basado en Roles (RBAC) acorde al principio ISO 27001 Annex A 5.15 de necesidad de acceso y uso. Los roles típicos en un archivo previsional son:

Rol Acceso
Gestor de archivo Lectura y carga de nuevos documentos
Auditor interno Lectura completa, sin modificación
Fiscalizador SUNAFIL Acceso temporal acotado a expediente específico
Afiliado Solo sus propios documentos
Administrador del sistema Gestión de roles y backups

El log de auditoría debe registrar: quién accedió, cuándo, qué documento y desde qué dirección IP. Este log es inmutable (append-only) y es el primer documento que un fiscalizador SBS revisará durante una supervisión de sistemas.

El cifrado en reposo (AES-256) y en tránsito (TLS 1.3), más backups en dos ubicaciones geográficas distintas, son requisitos directos de la Res. SBS 4036-2022.

3.6 Etapa 6: Índice de expurgo automático

El sistema genera propuestas de eliminación cuando un documento alcanza su plazo de retención. Las reglas implementadas son:

  • Planillas de remuneraciones: sin fecha de expurgo, marcadas como “conservación permanente”
  • Boletas de pago y contratos: alerta automática al cumplir 5 años, para aprobación del comité de archivo
  • La eliminación nunca es automática: requiere un acta formal de eliminación aprobada por el responsable de archivo, con registro del hecho en el log del sistema

4. Mejores Prácticas de Implementación

4.1 Priorizar el back-file de riesgo alto

No todos los documentos tienen la misma urgencia operacional. El criterio de priorización debe ser el riesgo: afiliados próximos a pensionarse, expedientes con reclamaciones activas y periodos con mayor probabilidad de auditoría. Digitalizar estos expedientes primero genera valor inmediato (resolver contingencias pendientes) mientras el resto del back-file se procesa en fases posteriores.

4.2 Microforma desde el inicio

Iniciar el proceso bajo D.L. 681 con certificación SGS/NTP 392.030 desde la primera fase, no como un añadido posterior. Si la microforma se produce al final, el documento físico debe conservarse durante todo el proceso de digitalización. Si se produce desde el inicio, el depósito físico puede liberarse por fases, reduciendo costos de custodia de forma progresiva.

4.3 El error de indexar al final

El error más frecuente en proyectos de digitalización es escanear todo el volumen primero e intentar indexar después. El resultado es un repositorio con miles de archivos PDF nombrados por fecha de escaneo, sin metadatos útiles. La indexación debe ser parte integral del pipeline de producción, no una etapa separada posterior. Digitalizar sin metadatos es trasladar el problema del archivo físico al mundo digital.

4.4 Integración continua con PLAME y T-Registro

El repositorio no debe ser un archivo estático. Integrar el sistema con PLAME y T-Registro mediante APIs o scraping automatizado permite mantener los metadatos actualizados cuando hay correcciones en las declaraciones del empleador. Esto convierte el repositorio en un activo vivo que refleja el estado real de los aportes, no solo una fotografía del momento de digitalización.

4.5 SLA de auditoría como requisito de diseño

El objetivo de menos de 2 horas para entregar cualquier documento ante SUNAFIL debe ser un requisito funcional del sistema, no una aspiración posterior. Esto implica: motor de búsqueda con latencia inferior a 200 ms, RBAC que permita crear cuentas de acceso temporal en minutos y procedimiento documentado para el equipo de archivo.


5. Los 8 Errores que Evitar

  1. Digitalizar sin valor legal: Un PDF en carpeta compartida no es probatorio en litigio. Sin D.L. 681, el documento físico sigue siendo obligatorio.
  2. Confundir planillas con boletas: Planillas son permanentes; boletas tienen plazo de 5 años. Un sistema que no distingue viola el D.S. 001-98-TR.
  3. Excluir periodos pre-1990: Las reclamaciones ONP frecuentemente involucran años 1970-1990. Omitir este periodo invalida el proyecto para los casos más complejos.
  4. ICR no calibrado para español peruano: Sin soporte para ñ, tildes y abreviaciones locales (S.A.C., E.I.R.L., Cía.), la tasa de error en nombres y razones sociales puede superar el 15%.
  5. Repositorio sin gestión de versiones: Las planillas rectificatorias reemplazan la versión original pero deben conservarse ambas para tener el histórico completo.
  6. Subestimar el volumen: Un empleador grande con 20 años de back-file puede tener millones de documentos. Un presupuesto calculado para 500,000 documentos colapsará en producción.
  7. No contemplar el expurgo: Algunos documentos deben eliminarse al cumplir su plazo. Un repositorio que solo acumula y nunca elimina es un pasivo legal para los documentos que debían destruirse.
  8. Acceso sin trazabilidad: Un repositorio sin log de auditoría inmutable viola el Annex A 5.15 de ISO 27001, requisito SBS para sistemas de AFP.

6. Casos de Uso por Sector

6.1 ONP: Archivo histórico de planillas

Un afiliado que trabajó en una empresa quebrada en 1985 necesita acreditar sus periodos de aportación ante la ONP. Con back-file digitalizado e indexado por DNI y periodo, la respuesta pasa de semanas de búsqueda manual a minutos de consulta en el repositorio, simplificando el proceso de acreditación de derechos pensionarios.

6.2 AFP: Expediente digital del afiliado

El expediente completo del afiliado (formulario de afiliación original, cambios de fondo, traspasos, correspondencia) debe estar disponible para resolver reclamaciones en tiempo real. Con la Ley 32123, este expediente se convierte en el documento base para autorizar traspasos al sistema público, volviéndose crítico para la operación de reforma.

6.3 Empleador grande: Respuesta a SUNAFIL

Una empresa con 2,000 trabajadores puede recibir un requerimiento SUNAFIL solicitando planillas de los últimos 5 años para 50 trabajadores específicos. Con un repositorio indexado, la respuesta puede entregarse el mismo día. Sin él, movilizar el archivo físico puede tomar una semana completa.

6.4 Sector agroindustrial

Las empresas agroindustriales tienen volúmenes masivos de contratos eventuales y boletas estacionales, muchos de trabajadores que ingresan y egresan en campañas de 2 a 4 meses. Este segmento combina alto volumen, documentos heterogéneos y alta rotación, lo que lo convierte en un candidato ideal para IDP con clasificación automática de tipo de documento.


7. Beneficios Cuantificables

  • Reducción de tiempo de búsqueda: 70-85% en expedientes indexados correctamente, con latencia de búsqueda inferior a 200 ms
  • Reducción de errores de captura: de aproximadamente 4% en digitación manual a menos del 2% con OCR/ICR calibrado
  • ROI positivo en 2-3 meses post-implementación, considerando eliminación de costos de custodia física y reducción de horas-hombre en búsquedas
  • Cumplimiento del SLA de auditoría de menos de 2 horas ante requerimientos SUNAFIL
  • Reducción del riesgo de sanciones SBS por demora en entrega de información a supervisores

8. Hoja de Ruta: Cómo Ejecuta AyP Digital Estos Proyectos

8.1 Diagnóstico inicial

Evaluación del volumen de back-file (cajas, metros lineales, estimación de documentos), estado de conservación, tipos documentales presentes y plazos de retención aplicables. Esta etapa genera el insumo necesario para el presupuesto por fases.

8.2 Plan de digitalización por fases

Priorización por riesgo y urgencia: expedientes con reclamaciones activas y afiliados próximos a pensionarse primero, back-file histórico en fases posteriores. Cada fase incluye producción de microformas bajo D.L. 681 para permitir la liberación progresiva de depósitos físicos.

8.3 Producción de microformas certificadas

Proceso supervisado por fedatario informático acreditado, con certificación SGS bajo NTP 392.030-2:2015. Este paso es el que habilita la destrucción legal del original y diferencia a AyP Digital de proveedores que ofrecen solo escaneo simple.

8.4 Despliegue del repositorio con RBAC

Implementación del repositorio con los roles definidos para el cliente: gestores internos, auditores, acceso temporal para fiscalizadores SBS-SUNAFIL y consulta del afiliado.

8.5 Capacitación e integración con T-Registro/PLAME

Formación del equipo de archivo en roles digitales (gestión de metadatos, aprobación de expurgo, generación de reportes de auditoría) e integración del repositorio con T-Registro y PLAME para validación automática continua.

8.6 Go-live y SLA de auditoría

Prueba del SLA de auditoría con un simulacro de requerimiento SUNAFIL antes del go-live. El objetivo verificable es: solicitud recibida, documento entregado en menos de 2 horas.


9. Conclusión

La digitalización del archivo previsional no es una iniciativa optativa de modernización. La Ley 32123 exige acceso rápido a expedientes de afiliados para los traspasos de 2026-2027, y las auditorías SUNAFIL y SBS verificarán la capacidad de respuesta documental con plazos que los archivos físicos no pueden cumplir.

La ruta correcta combina tres elementos que deben implementarse de forma integrada: pipeline RPA-OCR-ICR con validación cruzada contra T-Registro, producción de microformas bajo D.L. 681 para eliminar la dependencia del físico con pleno valor legal, e índice de expurgo automático que diferencie planillas permanentes de boletas con plazo de 5 años.

Las AFP, ONP, grandes empleadores y el sector agroindustrial tienen en común un back-file sin digitalizar que hoy es un pasivo operacional y legal. Convertirlo en un repositorio digital indexado, con trazabilidad de auditoría y SLA de respuesta de menos de 2 horas, es técnicamente alcanzable con la tecnología y la normativa actuales.

¿Tu AFP o empresa tiene back-file de planillas sin digitalizar? Consulta con AyP Digital para un diagnóstico de volumen y presupuesto sin compromiso.

Etiquetas

rpa-ocr-icr archivo-previsional-perú automatización-planillas cumplimiento-sunafil-sbs microformas-digitales-dl-681 digitalización-documental-procesos afp-onp-legajos-digitales

Preguntas Frecuentes

OCR extrae texto impreso (formularios tipografiados, planillas mecanografiadas) con precisión de 95-99%. ICR extrae escritura manuscrita (montos, fechas y firmas en documentos pre-1990) con precisión de 97-98% cuando el modelo está calibrado para español peruano. OMR detecta casillas marcadas en formularios de afiliación AFP (elección de fondo, tipo de aportes). Los sistemas IDP modernos combinan los tres motores en un pipeline único, aplicando el motor adecuado a cada zona del documento sin intervención manual.
Porque es el único mecanismo legal en Perú que otorga valor probatorio al documento digital y permite destruir el original (Art. 2, D.L. 681). Sin esta certificación, aunque el PDF sea una copia exacta del físico, el documento original sigue siendo el "original legal" y debe conservarse indefinidamente. El proceso requiere fedatario informático acreditado y certificación por SGS bajo NTP-ISO/IEC 17065.
T-Registro no tiene datos anteriores a 1999. Para estos periodos, la validación se realiza contra los libros de planillas digitalizados disponibles en la ONP o mediante muestra manual del 5-10% post-OCR para calibrar el ICR. Esta etapa adicional no impide la automatización: puede incorporarse como regla de negocio que activa la revisión manual solo cuando los datos extraídos no superan el umbral de confianza del modelo.
La ley laboral no fija un plazo exacto en horas, pero el benchmark operacional de sistemas digitales de clase mundial es menos de 2 horas. Este SLA es técnicamente alcanzable con indexación correcta, RBAC que permite crear accesos temporales en minutos y motor de búsqueda con latencia inferior a 200 ms. Sin estas características, un repositorio digital mal diseñado puede ser tan lento en la respuesta como un archivo físico.