본문바로가기
센터소개
센터소개
연구소개
사업소개
센터장 인사말
CI소개
참여인력
참여교수
신진연구인력
참여대학원생
연구성과 및 활동
논문 / 저서
특허 / 저작권
학술행사
오픈소스
1그룹
(공정성 / 안전성)
2그룹
(투명성 / 설명가능성)
3그룹
(견고성 / 보안 / 프라이버시)
게시판
공지사항
언론보도
CTAI소식
찾아오시는 길
KOR
KOR
ENG
search
clear
search
원하시는 검색어를 입력하세요.
인기 검색어
논문 / 저서
home
홈
navigate_next
연구성과 및 활동
navigate_next
논문 / 저서
home
연구성과 및 활동
expand_more
센터소개
참여인력
연구성과 및 활동
오픈소스
게시판
찾아오시는 길
논문 / 저서
expand_more
논문 / 저서
특허 / 저작권
학술행사
논문 / 저서
3그룹
Learning Diverse Attacks on Large Language Models for Robust Red-Teaming and Safety Tuning
2025
International Conference on Learning Representations
날짜
2025.07.07
조회수
11
[
원문
]
SNS
Share
페이스북 공유하기
트위터 공유하기
카카오스토리 공유하기
네이버 공유하기
format_list_bulleted
목록
이전글
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models
다음글
Parameter Expanded Stochastic Gradient Markov Chain Monte Carlo