La gestión del archivo previsional peruano enfrenta una presión sin precedentes. Millones de trabajadores tienen sus historiales laborales dispersos entre cajas de cartón en depósitos, microfilms de los años ochenta y registros físicos de empresas desaparecidas hace décadas. Cuando un afiliado solicita su pensión o cuando SUNAFIL requiere documentación laboral, el plazo de respuesta puede medirse en semanas, no en horas. Eso no es un problema administrativo menor: es un riesgo legal, operacional y reputacional de primer orden.
La promulgación de la Ley 32123 en 2025 agrava este escenario. La reforma del sistema previsional peruano contempla traspasos masivos entre AFP y ONP durante 2026 y 2027, lo que exige que los expedientes de afiliados estén disponibles de forma inmediata y verificable. Las instituciones que dependan de búsquedas manuales en back-files físicos no podrán cumplir con los plazos que impone este proceso. La digitalización inteligente del archivo previsional dejó de ser una iniciativa de modernización para convertirse en un requisito operacional urgente.
Este artículo describe cómo implementar un pipeline RPA-OCR-ICR para el archivo de planillas y legajos en AFP y ONP: qué dice la normativa peruana sobre conservación documental, cómo estructurar las seis etapas del proceso automatizado, qué errores evitar y cómo este enfoque reduce el tiempo de búsqueda entre un 70% y un 85% mientras mantiene pleno cumplimiento SBS-SUNAFIL.
1. La Crisis del Archivo Físico Previsional en Perú
1.1 Una doble capa de documentación sin digitalizar
El archivo previsional peruano comprende dos capas con problemas distintos. La primera es la ONP: registros de trabajadores que aportaron al sistema público antes de 1999, en su mayoría en papel, microfilm o incluso libros contables manuscritos de empresas que cerraron, fueron expropiadas o se fusionaron. La segunda corresponde al back-file físico de las AFP: formularios de afiliación, cambios de fondo, traspasos, correspondencia y contratos que se acumularon desde 1993 y que, en muchos casos, nunca fueron digitalizados sistemáticamente.
Estas dos capas comparten un problema fundamental: el documento existe, pero localizarlo requiere conocer exactamente en qué depósito está, en qué caja y en qué posición dentro de esa caja. Sin un índice digital, la búsqueda es una exploración manual que puede tomar días completos.
1.2 El impacto operacional y de auditoría
Cuando un afiliado reclama un periodo de aportes no registrado, o cuando SUNAFIL requiere las planillas de remuneraciones de una empresa para verificar el cumplimiento laboral, el reloj empieza a correr. Los plazos de cumplimiento ante una fiscalización no admiten demoras en la búsqueda de documentos. La tardanza en presentar documentación puede derivar en sanciones, y en el contexto de un proceso judicial, la incapacidad de presentar prueba documental puede ser determinante para la resolución del caso.
El factor Ley 32123 añade una presión adicional: los traspasos de afiliados entre AFP y entre AFP y ONP requieren verificar el historial completo de aportes, y ese historial debe estar disponible en tiempo real para no convertirse en un cuello de botella que paralice el proceso de reforma.
2. Normativa Peruana: Conservación y Validez Legal
Antes de diseñar cualquier pipeline de digitalización, es indispensable entender qué dice la ley sobre conservación documental. Tres errores frecuentes tienen origen normativo: confundir los plazos de distintos tipos de documentos, digitalizar sin valor legal y desconocer los requisitos para destruir legalmente el archivo físico.
2.1 Plazos de retención verificados
| Tipo de documento | Plazo de retención | Fundamento normativo |
|---|---|---|
| Libros y planillas de remuneraciones | Permanente | D.S. 001-98-TR |
| Boletas de pago | 5 años desde el pago | D.S. 001-98-TR + Cas. 3131-2022 |
| Contratos de trabajo | 5 años desde el cese | D.S. 001-98-TR |
| Formularios de afiliación AFP | Permanente (expediente del afiliado) | Regulación SBS |
| Documentos de traspaso | Permanente | Resoluciones SBS |
La distinción entre planillas (permanentes) y boletas (5 años) constituye el mayor riesgo de compliance en proyectos mal diseñados. Un sistema que no diferencia estos tipos destruirá documentos que debía conservar indefinidamente, o conservará documentos que la ley permite eliminar tras el plazo de 5 años.
La Casación Laboral 3131-2022 refuerza el criterio de los 5 años para boletas, resolviendo la tensión que existía entre la conservación indefinida y los plazos procesales. Este criterio debe implementarse de forma automática en el índice de expurgo del repositorio.
2.2 Requisitos SBS para sistemas de información (Res. SBS 4036-2022)
La Resolución SBS 4036-2022 establece los requisitos de ciberseguridad e integridad para los sistemas de información de las AFP. Los puntos más relevantes para un repositorio documental son: integridad de los datos (ningún documento puede modificarse sin registro de auditoría), control de acceso basado en roles, cifrado en reposo y en tránsito, y disponibilidad con backups en al menos dos ubicaciones geográficas. Estos requisitos no son opcionales: su incumplimiento puede derivar en observaciones durante la supervisión periódica de la SBS.
2.3 Microformas digitales con valor legal: el único camino para destruir el físico
Este es el punto que más frecuentemente se omite en proyectos de digitalización: un PDF, aunque sea de alta resolución, no tiene valor probatorio en juicio si el documento original existe. Para destruir legalmente el documento físico y conservar solo el digital, la ley peruana exige producir microformas digitales bajo el Decreto Legislativo 681 y la NTP 392.030-2:2015.
El proceso requiere una Línea de Producción de Microformas supervisada por un fedatario informático acreditado, y certificación por parte de un organismo bajo NTP-ISO/IEC 17065. SGS es el único certificador acreditado en Perú para este proceso. Sin esta certificación, el archivo físico sigue siendo el “original legal” y no puede destruirse, anulando los beneficios de costo de custodia que justifican muchos proyectos de digitalización.
2.4 T-Registro y PLAME como fuentes de validación automática
El T-Registro de SUNAT contiene los datos de relación laboral de trabajadores desde 1999: empleador, DNI del trabajador, fechas de ingreso y cese, tipo de contrato. La PLAME (Planilla Mensual de Pagos) contiene los montos declarados de remuneración y aportes. Ambos sistemas son accesibles vía el portal de SUNAT y funcionan como fuentes de validación cruzada para los datos extraídos por OCR/ICR, convirtiendo el repositorio digital en un activo verificable y auditable.
3. Arquitectura del Pipeline RPA-OCR-ICR: Seis Etapas
RPA (Robotic Process Automation) comprende bots de software que automatizan tareas repetitivas de interacción con sistemas. OCR (Optical Character Recognition) extrae texto impreso de imágenes. ICR (Intelligent Character Recognition) realiza la misma función con escritura manuscrita. OMR (Optical Mark Recognition) detecta casillas marcadas. Juntos, estos tres motores, coordinados por RPA e integrados con NLP, conforman lo que la industria llama IDP (Intelligent Document Processing): el estándar actual para archivos documentales complejos como el previsional.
3.1 Etapa 1: Captura y preparación de imagen
El escáner es el primer punto de control de calidad. La especificación mínima para OCR fiable es 300 DPI en escala de grises; para documentos con escritura manuscrita fina (boletas pre-1985) o microfilm, se recomienda 400 DPI. El preprocesamiento automático incluye:
- Deskew: corrección del ángulo de escaneo cuando los documentos se colocan torcidos
- Denoising: eliminación de ruido, manchas y degradación del papel
- Normalización de contraste: especialmente crítica para documentos carbonados o mimeografiados
- Clasificación automática: el sistema debe identificar si el documento es una boleta, un contrato, un formulario AFP o una planilla, antes de aplicar el motor de extracción correspondiente
Un error frecuente es iniciar el OCR sin preprocesamiento: la tasa de error se multiplica y los datos extraídos resultan no confiables para validación automática posterior.
3.2 Etapa 2: Extracción de datos (OCR/ICR/OMR/IDP)
- OCR para texto impreso: planillas mecanografiadas, formularios tipografiados, contratos impresos. Precisión esperada: 95-99% en documentos bien conservados.
- ICR para escritura manuscrita: montos escritos a mano, firmas, fechas en documentos anteriores a 1990. Precisión esperada: 97-98% con modelos calibrados para español peruano (crítico: el ICR debe incluir caracteres ñ, tildes y reconocer abreviaciones de razones sociales locales como “S.A.C.”, “E.I.R.L.”).
- OMR para formularios de elección de fondo AFP: casillas de tipo 1, 2, 3 o mixto y opciones de aportes voluntarios.
- Los modelos IDP modernos unifican los tres motores en un pipeline único, eliminando la necesidad de categorizar manualmente cada campo antes de procesar. El sistema decide qué motor aplicar a cada zona del documento de forma adaptativa.
3.3 Etapa 3: Validación cruzada contra T-Registro y registros de AFP
Un bot RPA extrae los datos del trabajador en T-Registro usando DNI y RUC del empleador como claves primarias. La validación automática verifica:
- Concordancia de periodos: el periodo declarado en la planilla debe coincidir con la relación laboral registrada en T-Registro
- Montos de aporte: coherencia con la remuneración declarada en PLAME
- Tasa de aporte: verificación de la tasa correspondiente al periodo (la tasa AFP ha variado históricamente)
Para periodos anteriores a 1999, donde T-Registro no tiene datos, el pipeline implementa validación de muestra manual del 5-10% de documentos post-OCR para calibrar la tasa de error del ICR. Esta muestra puede reducirse progresivamente a medida que el modelo se calibra con el corpus específico del cliente.
3.4 Etapa 4: Indexación automática y generación de metadatos
La indexación es el paso más crítico para la recuperabilidad del archivo. Los metadatos mínimos obligatorios por documento incluyen:
- DNI del trabajador
- RUC del empleador
- Periodo (mes/año)
- Tipo de documento (planilla, boleta, contrato, formulario AFP)
- Estado de validación (validado automáticamente, pendiente revisión, excepción)
- Fecha de digitalización
- Plazo de retención / fecha de expurgo (si aplica)
Adicionalmente, se genera un código QR vinculado al ID de registro en el repositorio, que se imprime en el documento físico antes de su custodia o destrucción. Esto permite recuperación inmediata si el proceso de microforma aún está pendiente.
3.5 Etapa 5: Repositorio con RBAC y trazabilidad de auditoría
El repositorio debe implementar Control de Acceso Basado en Roles (RBAC) acorde al principio ISO 27001 Annex A 5.15 de necesidad de acceso y uso. Los roles típicos en un archivo previsional son:
| Rol | Acceso |
|---|---|
| Gestor de archivo | Lectura y carga de nuevos documentos |
| Auditor interno | Lectura completa, sin modificación |
| Fiscalizador SUNAFIL | Acceso temporal acotado a expediente específico |
| Afiliado | Solo sus propios documentos |
| Administrador del sistema | Gestión de roles y backups |
El log de auditoría debe registrar: quién accedió, cuándo, qué documento y desde qué dirección IP. Este log es inmutable (append-only) y es el primer documento que un fiscalizador SBS revisará durante una supervisión de sistemas.
El cifrado en reposo (AES-256) y en tránsito (TLS 1.3), más backups en dos ubicaciones geográficas distintas, son requisitos directos de la Res. SBS 4036-2022.
3.6 Etapa 6: Índice de expurgo automático
El sistema genera propuestas de eliminación cuando un documento alcanza su plazo de retención. Las reglas implementadas son:
- Planillas de remuneraciones: sin fecha de expurgo, marcadas como “conservación permanente”
- Boletas de pago y contratos: alerta automática al cumplir 5 años, para aprobación del comité de archivo
- La eliminación nunca es automática: requiere un acta formal de eliminación aprobada por el responsable de archivo, con registro del hecho en el log del sistema
4. Mejores Prácticas de Implementación
4.1 Priorizar el back-file de riesgo alto
No todos los documentos tienen la misma urgencia operacional. El criterio de priorización debe ser el riesgo: afiliados próximos a pensionarse, expedientes con reclamaciones activas y periodos con mayor probabilidad de auditoría. Digitalizar estos expedientes primero genera valor inmediato (resolver contingencias pendientes) mientras el resto del back-file se procesa en fases posteriores.
4.2 Microforma desde el inicio
Iniciar el proceso bajo D.L. 681 con certificación SGS/NTP 392.030 desde la primera fase, no como un añadido posterior. Si la microforma se produce al final, el documento físico debe conservarse durante todo el proceso de digitalización. Si se produce desde el inicio, el depósito físico puede liberarse por fases, reduciendo costos de custodia de forma progresiva.
4.3 El error de indexar al final
El error más frecuente en proyectos de digitalización es escanear todo el volumen primero e intentar indexar después. El resultado es un repositorio con miles de archivos PDF nombrados por fecha de escaneo, sin metadatos útiles. La indexación debe ser parte integral del pipeline de producción, no una etapa separada posterior. Digitalizar sin metadatos es trasladar el problema del archivo físico al mundo digital.
4.4 Integración continua con PLAME y T-Registro
El repositorio no debe ser un archivo estático. Integrar el sistema con PLAME y T-Registro mediante APIs o scraping automatizado permite mantener los metadatos actualizados cuando hay correcciones en las declaraciones del empleador. Esto convierte el repositorio en un activo vivo que refleja el estado real de los aportes, no solo una fotografía del momento de digitalización.
4.5 SLA de auditoría como requisito de diseño
El objetivo de menos de 2 horas para entregar cualquier documento ante SUNAFIL debe ser un requisito funcional del sistema, no una aspiración posterior. Esto implica: motor de búsqueda con latencia inferior a 200 ms, RBAC que permita crear cuentas de acceso temporal en minutos y procedimiento documentado para el equipo de archivo.
5. Los 8 Errores que Evitar
- Digitalizar sin valor legal: Un PDF en carpeta compartida no es probatorio en litigio. Sin D.L. 681, el documento físico sigue siendo obligatorio.
- Confundir planillas con boletas: Planillas son permanentes; boletas tienen plazo de 5 años. Un sistema que no distingue viola el D.S. 001-98-TR.
- Excluir periodos pre-1990: Las reclamaciones ONP frecuentemente involucran años 1970-1990. Omitir este periodo invalida el proyecto para los casos más complejos.
- ICR no calibrado para español peruano: Sin soporte para ñ, tildes y abreviaciones locales (S.A.C., E.I.R.L., Cía.), la tasa de error en nombres y razones sociales puede superar el 15%.
- Repositorio sin gestión de versiones: Las planillas rectificatorias reemplazan la versión original pero deben conservarse ambas para tener el histórico completo.
- Subestimar el volumen: Un empleador grande con 20 años de back-file puede tener millones de documentos. Un presupuesto calculado para 500,000 documentos colapsará en producción.
- No contemplar el expurgo: Algunos documentos deben eliminarse al cumplir su plazo. Un repositorio que solo acumula y nunca elimina es un pasivo legal para los documentos que debían destruirse.
- Acceso sin trazabilidad: Un repositorio sin log de auditoría inmutable viola el Annex A 5.15 de ISO 27001, requisito SBS para sistemas de AFP.
6. Casos de Uso por Sector
6.1 ONP: Archivo histórico de planillas
Un afiliado que trabajó en una empresa quebrada en 1985 necesita acreditar sus periodos de aportación ante la ONP. Con back-file digitalizado e indexado por DNI y periodo, la respuesta pasa de semanas de búsqueda manual a minutos de consulta en el repositorio, simplificando el proceso de acreditación de derechos pensionarios.
6.2 AFP: Expediente digital del afiliado
El expediente completo del afiliado (formulario de afiliación original, cambios de fondo, traspasos, correspondencia) debe estar disponible para resolver reclamaciones en tiempo real. Con la Ley 32123, este expediente se convierte en el documento base para autorizar traspasos al sistema público, volviéndose crítico para la operación de reforma.
6.3 Empleador grande: Respuesta a SUNAFIL
Una empresa con 2,000 trabajadores puede recibir un requerimiento SUNAFIL solicitando planillas de los últimos 5 años para 50 trabajadores específicos. Con un repositorio indexado, la respuesta puede entregarse el mismo día. Sin él, movilizar el archivo físico puede tomar una semana completa.
6.4 Sector agroindustrial
Las empresas agroindustriales tienen volúmenes masivos de contratos eventuales y boletas estacionales, muchos de trabajadores que ingresan y egresan en campañas de 2 a 4 meses. Este segmento combina alto volumen, documentos heterogéneos y alta rotación, lo que lo convierte en un candidato ideal para IDP con clasificación automática de tipo de documento.
7. Beneficios Cuantificables
- Reducción de tiempo de búsqueda: 70-85% en expedientes indexados correctamente, con latencia de búsqueda inferior a 200 ms
- Reducción de errores de captura: de aproximadamente 4% en digitación manual a menos del 2% con OCR/ICR calibrado
- ROI positivo en 2-3 meses post-implementación, considerando eliminación de costos de custodia física y reducción de horas-hombre en búsquedas
- Cumplimiento del SLA de auditoría de menos de 2 horas ante requerimientos SUNAFIL
- Reducción del riesgo de sanciones SBS por demora en entrega de información a supervisores
8. Hoja de Ruta: Cómo Ejecuta AyP Digital Estos Proyectos
8.1 Diagnóstico inicial
Evaluación del volumen de back-file (cajas, metros lineales, estimación de documentos), estado de conservación, tipos documentales presentes y plazos de retención aplicables. Esta etapa genera el insumo necesario para el presupuesto por fases.
8.2 Plan de digitalización por fases
Priorización por riesgo y urgencia: expedientes con reclamaciones activas y afiliados próximos a pensionarse primero, back-file histórico en fases posteriores. Cada fase incluye producción de microformas bajo D.L. 681 para permitir la liberación progresiva de depósitos físicos.
8.3 Producción de microformas certificadas
Proceso supervisado por fedatario informático acreditado, con certificación SGS bajo NTP 392.030-2:2015. Este paso es el que habilita la destrucción legal del original y diferencia a AyP Digital de proveedores que ofrecen solo escaneo simple.
8.4 Despliegue del repositorio con RBAC
Implementación del repositorio con los roles definidos para el cliente: gestores internos, auditores, acceso temporal para fiscalizadores SBS-SUNAFIL y consulta del afiliado.
8.5 Capacitación e integración con T-Registro/PLAME
Formación del equipo de archivo en roles digitales (gestión de metadatos, aprobación de expurgo, generación de reportes de auditoría) e integración del repositorio con T-Registro y PLAME para validación automática continua.
8.6 Go-live y SLA de auditoría
Prueba del SLA de auditoría con un simulacro de requerimiento SUNAFIL antes del go-live. El objetivo verificable es: solicitud recibida, documento entregado en menos de 2 horas.
9. Conclusión
La digitalización del archivo previsional no es una iniciativa optativa de modernización. La Ley 32123 exige acceso rápido a expedientes de afiliados para los traspasos de 2026-2027, y las auditorías SUNAFIL y SBS verificarán la capacidad de respuesta documental con plazos que los archivos físicos no pueden cumplir.
La ruta correcta combina tres elementos que deben implementarse de forma integrada: pipeline RPA-OCR-ICR con validación cruzada contra T-Registro, producción de microformas bajo D.L. 681 para eliminar la dependencia del físico con pleno valor legal, e índice de expurgo automático que diferencie planillas permanentes de boletas con plazo de 5 años.
Las AFP, ONP, grandes empleadores y el sector agroindustrial tienen en común un back-file sin digitalizar que hoy es un pasivo operacional y legal. Convertirlo en un repositorio digital indexado, con trazabilidad de auditoría y SLA de respuesta de menos de 2 horas, es técnicamente alcanzable con la tecnología y la normativa actuales.
¿Tu AFP o empresa tiene back-file de planillas sin digitalizar? Consulta con AyP Digital para un diagnóstico de volumen y presupuesto sin compromiso.