Learning Diverse Attacks on Large Language Models for Robust Red-Teaming and Safety Tuning

본문바로가기

논문 / 저서

home 홈 navigate_next연구성과 및 활동 navigate_next논문 / 저서

home

연구성과 및 활동expand_more

논문 / 저서expand_more

논문 / 저서

3그룹

Learning Diverse Attacks on Large Language Models for Robust Red-Teaming and Safety Tuning

2025
International Conference on Learning Representations

날짜 2025.07.07
조회수 71

SNS Share

이전글HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models

다음글Parameter Expanded Stochastic Gradient Markov Chain Monte Carlo