Las empresas peruanas acumulan documentos por obligación legal, no por elección. SUNAT exige conservar libros y declaraciones durante cinco años. La SBS obliga a mantener expedientes bancarios diez años. El MINSA requiere historias clínicas hasta veinte años. El resultado es predecible: repositorios que crecen año tras año, con archivos de 2019 almacenados exactamente igual que un expediente que se abre cada día. Ese tratamiento homogéneo tiene un costo real y evitable.
El problema no es guardar documentos, sino guardarlos todos al mismo precio. Un sistema de almacenamiento “caliente” —diseñado para acceso instantáneo y procesamiento activo— cobra entre $0.018 y $0.023 por gigabyte al mes. Un documento de 2018 que nadie ha abierto en cuatro años ocupa ese espacio al mismo precio que la factura electrónica que el área contable consulta esta tarde. La diferencia entre lo que se paga y lo que técnicamente se necesita puede llegar a ser de 23 veces.
La solución existe, está disponible hoy en los tres principales proveedores de nube, y tiene un nombre concreto: tiering de almacenamiento, también llamado arquitectura de datos calientes, tibios y fríos. Con la configuración correcta, un repositorio de 10 TB que hoy cuesta aproximadamente $2,800 al año puede mantenerse por menos de $820, sin sacrificar cumplimiento regulatorio ni acceso cuando se necesita. Este artículo explica cómo funciona, qué dice la normativa peruana, cuánto cuesta realmente y cómo implementarlo.
Qué es el tiering de almacenamiento y por qué funciona
La analogía del espacio físico
Antes de la nube, las empresas ya resolvían este problema sin saberlo. El documento que se usa hoy está en la gaveta del escritorio: al alcance inmediato, sin fricción. El contrato del año pasado está en el archivero de la oficina: toma dos minutos buscarlo, pero está ahí. Los estados financieros de 2015 están en la bodega del tercer piso: requieren una solicitud, media hora de espera y alguien que vaya a buscarlos.
La nube replica exactamente esa lógica, con tres diferencias importantes: el movimiento entre “gaveta” y “bodega” es automático, el ahorro de costo es cuantificable al centavo, y el acceso desde la “bodega” puede ser tan rápido como milisegundos si se elige el proveedor correcto.
Los tres tiers y sus características técnicas
Tier caliente (hot): Documentos en procesamiento activo o con acceso frecuente —diario o semanal—. Latencia de milisegundos. Sin penalización por recuperación. Costo: entre $0.018 y $0.023 por GB/mes según proveedor.
Tier tibio (warm): Documentos cerrados con consulta esporádica —mensual o trimestral—. Latencia de milisegundos a segundos según la opción elegida. Costo de almacenamiento entre $0.004 y $0.010 por GB/mes, con cargo de retrieval entre $0.01 y $0.03 por GB. Mínimo de retención contractual: 30 a 90 días.
Tier frío/archivo (cold/archive): Documentos en retención legal de largo plazo, con acceso infrecuente —anual o menos—. Costo entre $0.00099 y $0.0012 por GB/mes. Retrieval: $0.02 a $0.05 por GB. Tiempo de recuperación: desde milisegundos (Google Cloud Storage Archive) hasta 48 horas (AWS Glacier Deep Archive). Mínimo contractual: 90 a 365 días.
Por qué la curva 80/20 justifica el tiering
El patrón de acceso documental es consistente en cualquier industria: el 80% de las consultas ocurre sobre el 20% más reciente del repositorio. Un expediente de crédito activo se consulta decenas de veces al año. Ese mismo expediente, tres años después de cerrado, puede abrirse una vez para responder una queja o permanecer intacto hasta que vence el plazo legal. Concentrar inversión en hot storage para el documento activo y mover el resto a tiers económicos es la decisión que materializa el ahorro.
Normativa peruana y asignación de tiers por tipo de documento
La normativa peruana no define “tiers de almacenamiento”, pero sí establece plazos de retención que determinan con precisión cuánto tiempo cada documento debe ser recuperable y en qué ventana de tiempo la probabilidad de acceso es alta. Esa información es suficiente para asignar tiers con criterio técnico.
Tabla maestra de plazos por entidad reguladora
| Entidad / Norma | Documento | Plazo | Tier Recomendado |
|---|---|---|---|
| SUNAT (Cód. Tributario) | Libros, declaraciones, comprobantes | 5 años desde DJ anual | Warm años 2-4; Frío año 5 |
| Código de Comercio | Estados financieros, balances | 10 años desde cierre | Warm años 2-5; Frío años 5-10 |
| SBS (Res. 3199-2013) | Expedientes bancarios, informes auditoría | 10 años desde cierre operación | Warm años 2-4; Frío años 5-10 |
| SUNAFIL / Cód. Laboral | Planillas, boletas, registros laborales | 5 años | Warm años 1-2; Frío años 3-5 |
| Código Civil | Contratos con efectos legales | 10 años | Warm años 1-3; Frío años 4-10 |
| MINSA (NTS N° 139-2018) | Historias clínicas adultos | 15-20 años totales | Caliente 0-5 años; Tibio 5-8; Frío 8-20 |
| Ley 26887 (Soc. Anónimas) | Actas, registros accionistas, minutas | Vigencia + 10 años post-disolución | Frío con acceso ocasional |
| AGN / Ley Sist. Nac. Archivos | Documentos gestión pública con valor patrimonial | Permanente | Frío permanente + transferencia AGN |
| OSINERGMIN | Documentación energía/minería | 5-20 años según tipo | Frío desde año 3 |
| SENASA | Certificados fitosanitarios, trazabilidad | Vigencia del certificado | Warm activo; Frío al expirar |
Microformas digitales y su valor legal en Perú
El Decreto Legislativo 681 de 1991 otorga a las microformas digitales el mismo valor legal que el documento original si cumplen requisitos técnicos específicos. La NTP 392.030-2:2015 precisa esos requisitos: resolución mínima de 200 DPI, compresión sin pérdida, formato TIFF o PDF/A, y certificación por tercero independiente (SGS, AENOR).
Para el tiering, esto tiene una implicación directa: una microforma certificada puede almacenarse en archive profundo y reemplazar legalmente al papel original destruido. El requisito adicional es que el almacenamiento sea WORM (Write Once Read Many) —es decir, inmutable—, implementado mediante S3 Object Lock en AWS, Azure Immutable Blob Storage o GCS Object Retention en Google Cloud. Sin esta protección, la microforma puede ser alterada o eliminada accidentalmente, perdiendo su valor legal aunque esté certificada.
Comparativo de costos: el argumento financiero
Escenario de referencia: empresa mediana peruana (10 TB)
Perfil representativo de una empresa de 50 a 500 empleados en sectores de finanzas, salud o manufactura: repositorio de 10 TB con distribución realista de 1 TB activo (hot), 3 TB en consulta esporádica (warm) y 6 TB en retención legal de largo plazo (cold/archive).
| Configuración | Hot (1 TB) | Warm (3 TB) | Cold/Archive (6 TB) | Total/mes | Total/año |
|---|---|---|---|---|---|
| AWS (S3 Standard + Standard-IA + Glacier Deep Archive) | $23.55 | $38.40 | $5.94 | $67.89 | $814.68 |
| Azure (Hot + Cool + Archive) | $18.43 | $30.72 | $5.94 | $55.09 | $661.08 |
| GCS (Standard + Nearline + Archive) | $20.48 | $30.72 | $7.20 | $58.40 | $700.80 |
| Sin tiering (todo AWS S3 Standard) | $235.52 | — | — | $235.52 | $2,826.24 |
El ahorro anual en el escenario AWS con tiering versus sin tiering es de aproximadamente $2,011 —un 71%—. Escalado a 100 TB, el diferencial supera $20,000 anuales. Para repositorios de un petabyte, el ahorro puede superar los $2 millones anuales.
Costos ocultos que pueden erosionar el ahorro
El error más frecuente en implementaciones de tiering es calcular solo el costo de almacenamiento e ignorar los costos asociados al movimiento de datos. Los más relevantes:
- Egreso de datos: $0.09 por GB en AWS al sacar datos de la nube. Recuperar 1 TB desde cualquier tier cuesta $92 solo en egreso.
- Retrieval de archive profundo: $0.02 a $0.05 por GB según servicio. Recuperar 1 TB desde AWS Glacier Deep Archive suma $20 en retrieval más $92 en egreso: aproximadamente $112 por evento de recuperación completa.
- Mínimos de retención contractual: Si un documento se elimina antes de cumplir el mínimo del tier (90 o 180 días), se cobra el período restante como penalización.
- Cargos por eliminación anticipada: Un archivo en Glacier Deep Archive (mínimo 180 días) eliminado a los 60 días genera cobro por los 120 días restantes, anulando parcialmente el ahorro esperado.
- Archivos pequeños en bulk: Azure cobra mínimo facturable de 128 KB por objeto. Un repositorio de millones de firmas digitales o imágenes OMR de 40 a 80 KB puede duplicar la factura esperada si se archivan sin empaquetar.
Cálculo práctico de una auditoría SBS: Si la SBS requiere recuperar 5 TB de expedientes históricos desde Glacier Deep Archive, el costo directo sería aproximadamente $560 en retrieval y egreso, más el tiempo de espera de 12 a 48 horas. Si esa espera es inaceptable, la alternativa es GCS Archive, que ofrece acceso en milisegundos a $0.0012/GB/mes —ligeramente más caro en almacenamiento, pero sin tiempo de espera y sin fricción operativa.
Arquitectura híbrida recomendada para Perú
Flujo completo de ciclo de vida documental
[INGESTA / ESCANEO FÍSICO]
↓
[VALIDACIÓN OCR/ICR/OMR + INDEXACIÓN]
↓
[TIER CALIENTE — Local o Cloud con baja latencia]
Documentos 0-12 meses | Acceso: milisegundos
↓ (lifecycle policy automática)
[TIER TIBIO — Cloud Pública]
Documentos 1-4 años | Acceso: milisegundos a segundos
↓ (lifecycle policy automática)
[TIER FRÍO/ARCHIVO — Cloud Pública]
Documentos 5-20+ años | Acceso: milisegundos (GCS) o horas (Glacier)
↓
[DESTRUCCIÓN CERTIFICADA] al vencer plazo legal
Logs de auditoría obligatorios
Hot storage: local versus cloud pública
Para el tier caliente, la arquitectura híbrida tiene una ventaja operativa concreta en Perú. Los proveedores locales certificados —Claro Data Center, Cirion Lurín, GTD— ofrecen latencia mínima para procesamiento OCR masivo y residencia del dato dentro del territorio peruano, requisito operativo para entidades reguladas por la SBS y el MINSA. El costo por GB es mayor que en hiperscaladores, pero el traslado de archivos grandes entre servicios genera egreso ($0.09/GB en AWS), y el procesamiento local con replicación asíncrona a la nube pública puede ser más económico en escenarios de alto volumen.
La AWS Local Zone Lima, operativa desde 2023, ofrece una alternativa intermedia: latencia reducida con el ecosistema de servicios de AWS, aunque con menor variedad de servicios que una región estándar.
Warm y cold: hiperscaladores con región definida
Para warm y cold, los hiperscaladores ofrecen el mejor costo por GB. Comparativa de opciones de tier warm (2026):
| Proveedor | Almacenamiento | Retrieval | Latencia | Mínimo |
|---|---|---|---|---|
| AWS Glacier Instant | $0.004/GB/mes | Incluido | Milisegundos | 90 días |
| Azure Cool | $0.010/GB/mes | $0.01/GB | Milisegundos | 30 días |
| Azure Cold | $0.0045/GB/mes | $0.03/GB | Milisegundos | 90 días |
| GCS Nearline | $0.010/GB/mes | $0.01/GB | Milisegundos | 30 días |
| GCS Coldline | $0.004/GB/mes | $0.02/GB | Milisegundos | 90 días |
Soberanía de datos y cumplimiento regulatorio
La SBS Resolución 504-2021 exige cifrado AES-256 en reposo y TLS 1.2+ en tránsito. La Resolución SBS 272-2017 regula la gobernanza de terceros que custodian datos financieros. Para el MINSA, existe preferencia por residencia peruana o regional del dato.
La solución práctica es especificar en el contrato con el proveedor cloud la región donde residen los datos (sa-east-1 en Brasil es la más cercana con servicios completos de AWS; en Azure está Brazil South). Los certificados de cumplimiento —AWS SOC 2, Azure SOC 2, GCS ISO 27001— documentan los controles de seguridad ante una fiscalización regulatoria.
OCR e IA documental: por qué el hot storage es crítico en el flujo
El error que anula el ahorro de tiering
Un error frecuente en implementaciones apresuradas es mover documentos a Glacier mientras Amazon Textract, Google Document AI o Azure Form Recognizer los están procesando. El resultado es inmediato: el pipeline de OCR no puede acceder al archivo sin primero recuperarlo, generando un retrieval de $0.02 a $0.05/GB más el tiempo de espera de hasta 48 horas. Un lote de 100 GB que debería procesarse en dos horas se demora más de un día, y el ahorro de archive queda completamente anulado por los costos de recuperación.
La solución es arquitectónica: usar un bucket o contenedor separado para ingesta y procesamiento (siempre hot), y mover los archivos a warm o cold únicamente después de que OCR e indexación hayan completado.
Flujo correcto: ingesta, procesamiento y transición automática
- Documento escaneado ingresa a bucket S3 o Azure Blob en tier hot.
- Función Lambda o Azure Function dispara OCR asíncrono inmediatamente.
- Amazon Textract o Document AI procesa el documento completo.
- Los metadatos extraídos y el texto reconocido se indexan en base de datos caliente (DynamoDB, Cosmos DB, Elasticsearch).
- El archivo procesado permanece en hot 90 días para consultas operativas frecuentes.
- Lifecycle policy mueve automáticamente a warm después de 90 días.
- Segunda policy mueve a archive después de 1 a 2 años según plazo regulatorio específico.
- Al vencer el plazo legal: destrucción certificada con log de auditoría inmutable.
IA sobre documentos archivados: evitar costos de retrieval masivos
Si se quiere aplicar búsqueda semántica o un modelo LLM sobre cientos de miles de documentos en archive profundo, recuperar toda la colección puede costar miles de dólares en egreso. La solución más eficiente es extraer embeddings y resúmenes con IA antes de archivar, en el momento en que el documento está en hot. El índice de metadatos y embeddings queda en una base de datos caliente; el archivo original va a Glacier. La búsqueda semántica corre sobre el índice sin tocar el archive; solo cuando se necesita el documento completo se recupera ese archivo específico.
Mejores prácticas de implementación comprobadas
Clasificación antes de migrar
Sin metadatos que identifiquen la entidad reguladora (SUNAT, SBS, MINSA) y el plazo de retención de cada documento, las lifecycle policies no pueden funcionar correctamente. El primer paso antes de cualquier migración es un inventario documentado: tipo de documento, entidad reguladora, fecha de creación, plazo legal aplicable. Herramientas como AWS Macie o Azure Information Protection pueden automatizar parte de esta clasificación inicial.
Lifecycle policies desde la implementación
Las lifecycle policies son el mecanismo que materializa el ahorro. Sin ellas, los documentos permanecen en hot indefinidamente por inercia operativa. Configurar reglas básicas toma entre una y dos horas; el beneficio se acumula durante años. Una política típica mueve objetos a warm a los 90 días, a coldline al año, y a archive a los dos o cinco años según el plazo regulatorio aplicable.
Prácticas adicionales críticas
- Buckets separados para procesamiento y archivo: Evita conflictos entre políticas y simplifica el monitoreo de costos.
- WORM para microformas: S3 Object Lock o Azure Immutable Blob Storage, habilitado al crear el bucket, no después.
- Logs de auditoría para destrucción: S3 Access Logs + CloudTrail, Azure Monitor o GCS Audit Logs. Obligatorio para documentos bajo SBS, MINSA y AGN.
- Encriptación en reposo y tránsito: AES-256 en reposo y TLS 1.2+ en tránsito son el mínimo exigido por SBS Res. 504-2021. Gestionar claves mediante KMS, Azure Key Vault o Google Cloud KMS.
- Monitoreo mensual de costos: AWS Cost Explorer y herramientas equivalentes permiten detectar si cambios en patrones de acceso generan retrieval inesperado.
Errores frecuentes y cómo evitarlos
Enviar todo al tier más barato desde el inicio. Documentos en proceso OCR enviados a Glacier generan retrieval y latencia que anulan cualquier ahorro. El hot storage durante procesamiento activo no es opcional.
Ignorar costos de recuperación en el presupuesto inicial. Una auditoría SBS que requiera 5 TB de expedientes históricos puede generar entre $500 y $1,000 en retrieval y egreso, además de esperas de hasta 48 horas. Calcularlo antes de elegir el tier es parte del diseño, no un detalle posterior.
No definir el SLA de recuperación antes de archivar. La pregunta “¿cuánto tiempo podemos esperar para recuperar este documento?” determina el tier. Si la respuesta es “minutos”, GCS Archive es la única opción de tier frío con esa garantía. Si la respuesta es “días”, Glacier Deep Archive es más económico.
Archivar archivos pequeños en bulk sin empaquetar. Firmas digitales, imágenes OMR y thumbnails de 40 KB enviados individualmente a Azure Archive se facturan al mínimo de 128 KB por objeto. Empaquetar en contenedores TAR o ZIP antes de archivar puede reducir la factura a la mitad.
No presupuestar la salida del proveedor. 500 TB en Glacier implican aproximadamente $45,000 en egreso si se cambia de proveedor ($0.09/GB). Presupuestar ese costo desde el inicio y evaluar si una estrategia multi-cloud tiene sentido para grandes repositorios es una decisión de arquitectura, no una operación posterior.
Casos de uso por sector en Perú
Sector financiero (SBS regulado). Expedientes de crédito activos en hot; créditos pagados hace dos a cinco años en warm; expedientes cerrados de cinco a diez años en archive profundo. La SBS exige diez años de retención; GCS Archive es preferible para el tier frío si la entidad necesita acceso inmediato ante fiscalización sin previo aviso.
Sector salud (MINSA regulado). Historias clínicas de pacientes con atención en los últimos doce meses en hot; pacientes inactivos de uno a tres años en warm; fase pasiva de cinco a veinte años en archive según NTS N° 139-MINSA/2018. Las imágenes diagnósticas (radiografías, ecografías) generan volúmenes significativos; GCS o Azure pueden ser más económicos por GB para repositorios de más de 50 TB.
Sector público (AGN regulado). Expedientes administrativos en trámite en hot; concluidos en los últimos dos a cinco años en warm; documentación histórica con valor patrimonial en archive permanente con transferencia obligatoria al Archivo General de la Nación. Las municipalidades con infraestructura TI limitada se benefician especialmente del modelo híbrido: procesamiento local básico y archive en hiperscalador.
Sector educativo (SUNEDU/MINEDU). Expedientes de alumnos activos en hot; egresados de los últimos tres a cinco años en warm (consultas para certificados); actas de notas y sílabos históricos en archive indefinido. Una universidad mediana acumula entre 15 y 20 TB por año.
Agroexportación y manufactura (SUNAT/SENASA). Documentación de exportación en curso en hot; certificados fitosanitarios y documentación de envíos del año anterior en warm; trazabilidad histórica requerida por SENASA en archive por cinco años o más. OSINERGMIN puede exigir hasta veinte años de retención para documentación ambiental en minería.
Conclusión
El tiering de almacenamiento documental no es una optimización de nicho para grandes corporaciones: es una decisión financiera accesible para cualquier empresa peruana con más de 5 TB de repositorio y documentos con retención legal de cinco años o más. Los plazos exigidos por SUNAT, SBS, MINSA y el Código de Comercio convierten el tiering de una buena práctica en un mecanismo de sostenibilidad presupuestal.
Los números son concretos: un repositorio de 10 TB sin tiering cuesta aproximadamente $2,826 anuales en AWS S3 Standard. Con tiering correctamente configurado, el mismo repositorio cuesta alrededor de $814 anuales —un ahorro del 71% que se mantiene y crece con el tiempo—. El esfuerzo de implementación inicial —inventario, clasificación, lifecycle policies— es de días, no de meses.
La arquitectura híbrida —hot storage en infraestructura local certificada en Perú para cumplimiento SBS/MINSA, warm y cold en hiperscaladores con región definida— es el balance correcto entre latencia, soberanía del dato y economía. La AWS Local Zone Lima, Claro Data Center y Cirion Lurín ofrecen opciones concretas para el componente local.
AyP Digital acompaña el proceso completo: desde la digitalización del repositorio físico con OCR/ICR activo hasta la producción de microformas certificadas con valor legal bajo el D.L. 681 y la NTP 392.030-2:2015, el diseño de la arquitectura cloud híbrida, la implementación de lifecycle policies automatizadas y la auditoría de cumplimiento ante SUNAT, SBS y MINSA. El primer análisis de repositorio es gratuito para las primeras dos horas de consultoría.