Prompt injection y abuso de instrucciones
Probamos si entradas de usuario o documentos pueden desviar el comportamiento esperado del sistema.
- Instrucciones maliciosas
- Context hijacking
- Bypass de políticas
- Manipulación de herramientas
Probamos aplicaciones GenAI contra ataques, fallas de automatización y exposición de información sensible.
Los riesgos de un sistema LLM aparecen en prompts, documentos, herramientas, agentes, permisos, logs y decisiones humanas. Los evaluamos antes de que lleguen a operación.
Probamos si entradas de usuario o documentos pueden desviar el comportamiento esperado del sistema.
Revisamos exposición de datos sensibles, secretos, documentos internos y memoria conversacional.
Evaluamos si documentos contaminados, obsoletos o ambiguos afectan respuestas y decisiones.
Probamos agentes, herramientas y automatizaciones para limitar acciones irreversibles o no autorizadas.
Riesgos ordenados por impacto, probabilidad y exposición operacional.
Prompts, pasos, evidencias y condiciones para reproducir cada falla.
Guardrails, cambios de arquitectura, evaluación, permisos y fallback humano.