HarmBench

About
Playground
Results
Explore
Paper
GitHub

Baseline Results

Text Models
MultiModal Models

All Behaviors - Standard, Contextual and Copyright

All Behaviors - Standard, Contextual and Copyright

Standard Behaviors

Standard Behaviors

Contextual Behaviors

Contextual Behaviors

Copyright Behaviors

Copyright Behaviors

MT-Bench Comparison for Adversarially Trained Model

MT-Bench Comparison for Adversarially Trained Model