Search: Relevant Alignment Cannot

New Study Reveals Limits of Model-Level Evaluations in Alignment Assessments

A recent paper argues that alignment evaluation cannot solely rely on model-level assessments.