LLM Jailbreaking

LLM Attack Technique

High SeverityMedium ComplexityLLM Category

Techniques to bypass AI safety constraints and content policies through creative prompt engineering and psychological manipulation.

Impact Areas

Policy Violation

Harmful Content Generation

Reputation Damage

Regulatory Compliance

Attack Methodology

Technical approaches and execution methods for this attack

Convincing the model to adopt a harmful persona or character

Related Attack Techniques

A critical vulnerability where malicious prompts manipulate LLM behavior to bypass safety measures and execute unintended actions.

Creation of synthetic media content using generative AI to impersonate individuals or create false evidence.

AI agents that can independently discover, exploit, and propagate through system vulnerabilities without human intervention.

Malicious actors impersonating legitimate MCP servers to intercept and manipulate AI model communications.