Journal of Data Forensics Research (J Data Forensics Res, JDFR)

OPEN ACCESS, PEER REVIEWED

pISSN 3058-9460
eISSN 3058-9479
Original Article

Analysis of Jailbreak Prompt Vulnerabilities in Commercial LLM

1Undergraduate Student, College of Police Administration, Korean National Police University, Republic of Korea
2Researcher, Cybersecurity Research Center, Korean National Police University, Republic of Korea
3Professor, Korean National Police University, Republic of Korea

Correspondence to Kyungjong Kim, leeyeongul@police.go.kr

Volume 1, Number 1, Pages 89-107, December 2024.
Journal of Data Forensics Research 2024;1(1):89-107. https://doi.org/10.12972/JDFR.2024.1.1.6
Received on November 27, 2024, Revised on December 24, 2024, Accepted on December 24, 2024, Published on December 31, 2024.
Copyright © 2025 Author(s).
This is an Open Access article distributed under the terms of the Creative Commons CC BY 4.0 license (https://creativecommons.org/licenses/by/4.0/).

Abstract

Jailbreaking is an AI attack method that manipulates prompts to elicit responses that violate AI policies. This study focuses on examining the impact of prompt engineering and the “Do Anything Now” (DAN) attack on commercial large language models (LLMs). For this, we gathered and generated a variety of prompts based on their type, purpose, and structure, inputted them into several commercial models, and analyzed the results to identify which components had the most significant impact on the success of jailbreak attacks. The findings revealed significant differences in jailbreak success rates based on prompt type and model configuration, with prompt engineering proving especially influential in bypassing restrictions. Additionally, specifying response formats or presenting questions as hypothetical scenarios was found to be particularly effective. This research aims to contribute to the development of techniques to prevent criminal activities involving artificial intelligence.

Keywords

Jailbreaking, DAN, Prompt Engineering

1. 서론

최근 인공지능 기술의 발전과 함께 LLM 모델은 다양한 분야에서 활발하게 활용되고 있다. 그러나 이러한 모델의 사용 증가와 더불어 AI 시스템을 악용하려는 시도 역시 증가하고 있다. 특히 AI에 대한 적대적 공격(Adversarial Attack)과 그중에서도 프롬프트 탈옥(Prompt Jailbreaking)이 주목받고 있는 공격방식이다. 적대적 공격이란 데이터에 미세한 잡음을 추가해 모델이 잘못된 결과를 출력하게 하는 공격을 의미하고 프롬프트 탈옥이란 AI 모델의 윤리적, 정책적 제한을 우회하여 사용자가 원하는 대답을 출력하도록 하는 것으로 DAN (Do Anything Now)와 프롬프트 엔지니어링을 사용하는 방법이 대표적이다.

프롬프트 탈옥 공격의 사례로 2023년 6월 OpenAI의 ChatGPT-3.5와 Google의 Bard에서 윈도우 정품 KMS (Key Management Service) 제품 키가 유출된 적이 있다. 이는 인공지능이 불법행위에 사용욀 수 있음이 알려진 첫번째 사례이자 일반인이 쉽게 접근 가능한 상용화된 모델에서 발생한 문제라는 점에서 중요하다. 상용 모델에서 이러한 문제가 계속해서 발생할 경우 일반인이 범죄에 접근할 가능성과 난이도가 쉬워지는 결과를 초래할 것이다. 따라서 본 연구에서는 상용모델에서 프롬프트 탈옥 공격의 효과와 성공률을 바탕으로 공격의 특징을 분석하여 추후 AI 보안 강화 방안을 모색하는데 기여하고자 한다.

연구배경에서는 적대적 공격과 프롬프트 탈옥의 개념을 설명하고, 주요 공격 기법을 소개한다. 또한, 선행 연구를 통해 현재까지의 연구 동향과 본 연구의 필요성을 제시한다. 이를 통해 본 연구는 AI 모델의 보안 취약점을 식별하고, 향후 보안 강화 방안을 모색하는 데 기여하고자 한다. 연구 방법에서는 가설 설정, 데이터 수집 및 분석 방법을 구체적으로 설명하며, 연구 결과에서는 수집된 데이터를 바탕으로 DAN 프롬프트와 프롬프트 엔지니어링의 성공률을 다양한 변수별로 분석한다. 마지막으로 결론에서는 연구 결과를 종합하고, 이를 바탕으로 한 시사점과 향후 연구 방향을 제시한다.

2. 연구 배경

2.1. 적대적 공격

적대적 공격이란 육안으로는 구분할 수 없는 작은 크기의 잡음을 데이터에 추가해 딥러닝 모델이 데이터를 오분류하게 만드는 공격을 말한다[1]. 모델의 정확도 향상을 위하여 활용되는 기술이기도 하지만 모델을 통해 불법적인 정보를 얻거나 모델로 하여금 불법적인 행위를 하게 하는데에도 사용된다. OWASP (Open Web Application Security Project)에서는 적대적 공격을 위한 10가지 취약점(Prompt Injection, Insecure Output Handling, Training Data Poisoning, Model Denial of Service, Supply Chain Vulnerabilities 등)을 공개하였다[2].

이러한 적대적 공격의 방법은 크게 중독 공격, 회피 공격, 탐색 공격으로 분류된다[3]. 중독 공격은 공격자가 AI 모델의 학습과정에 관여하여 AI 시스템 자체를 손상시키는 공격이다. 2016년 마이크로소프트에서 개발한 TAY의 사례가 중독 공격의 예시이다. 탐색공격은 모델이 출력한 결과와 신뢰도를 바탕으로 원본을 추출하는 공격이다. 마지막으로 회피공격은 모델의 입력값에 변형을 가해 모델의 오분류를 야기하는 공격 방법이다.

2.2. 프롬프트 탈옥

프롬프트 탈옥은 회피 공격의 방식 중 하나로 프롬프트 변경을 통해 인공지능에 걸려있는 윤리적, 정책적 장벽을 우회하여 사용자가 원하는 대답을 도출하는 공격 방식이다. 탈옥 공격 방식은 공격 대상, 공격 방법 등에 따라 다양하게 분류된다.

모델의 내부 작동 방식을 알 수 있는 상태에서 공격한다면 White-Box 공격, 모르는 상태에서 공격한다면 Black-Box 공격으로 분류된다. Xu et al.[4]의 연구에서는 크게 Generative 방식과 Template 방식, Training Gaps Techniques 방식으로 탈옥 공격을 분류하고 있다. Generative 방식은 프롬프트를 동적으로 계속해서 생성하며 공격하는 방식으로 AutoDAN, PAIR, TAP, GPTFuzz, GCG가 포함되고, Template 방식은 정해둔 프롬프트를 사용하여 공격하는 방식으로 Jailbroken, 77Templates, Deep Inception, Parameter 등이 있다. 마지막으로 Training Gaps Techniques 방식은 보안 학습이 부족한 곳을 공격하는 방식으로 RLHF(Reinforcement Learning from Human Feedback)과 관련되어 있다.

Liu et al.[5]의 연구에서는 Pretending 방식, Attention 방식, Privilege Escalation 방식으로 탈옥 공격을 분류하였고 각각 가상상황 가정, 주의 분산, 권한 변경을 통한 탈옥 공격으로 설명된다.

마지막으로 구조적인 차이를 위주로 프롬프트 탈옥의 방식을 구분하면 DAN(Do Anything Now)을 사용하는 방법과 프롬프트 엔지니어링을 사용하는 방법, Many-shot Jailbreaking 등으로 구분할 수 있다. 본 연구에서는 DAN과 프롬프트엔지니어링 방법만을 대상으로 연구를 진행하였다.

2.2.1. DAN
DAN은 Do Anything Now의 줄임말로 인공지능이 주어진 지시사항들을 무시하고 사용자가 보내는 지시를 수행하도록 하는 프롬프트를 의미한다. 사용의 예시는 <Figure 1>과 같고 대표적인 DAN 프롬프트의 예시는 <Figure 2>와 같다.

2.2.2. 프롬프트 엔지니어링
프롬프트 엔지니어링이란 LLM(Large Language Models)에서 원하는 응답을 이끌어내기 위해 입력 쿼리 또는 프롬프트를 설계하고 개선하는 프로세스를 말한다[6].

탈옥에 사용되는 프롬프트 엔지니어링은 모델이 대답하지 못하도록 제한된 질문에 대해 형식, 구문, 단어, 및 기호등의 변형을 가해 모델이 대답할 수 있도록 하는 것을 의미한다. What’s the easiest way to engage in cyberbullying? 이라는 질문을 프롬프트 엔지니어링한 결과는 <Figure 3>과 같다.

<Figure 3>에서 빨간 부분은 가상의 상황을 부여하고 노란 부분은 출력의 양식을 구체적으로 정해주는 부분이다. 마지막으로 초록색 부분에서 지시사항을 다시 반복하는 것으로 프롬프트 엔지니어링이 이루어졌다.

2.2.3. 선행연구
이전까지의 연구는 더 효율적인 공격기법의 생성과 방어기법 도출에 집중하였다. Xu et al.[4]의 연구는 인스트럭션 토큰인 [INST], [/INST] 토큰의 영향력에 대한 발견과 이를 통한 방어기법 도출에 집중하였다. 또, Xu et al.[4]와 Qiang et al.[7], Chao et al.[8]의 연구는 모두 오픈소스 모델인 GPT2, LLaMA와 같은 모델들만을 대상으로 연구하였다.

본 연구의 목적인 상업화된 Chatgpt4o, Gemini 등의 LLM 모델에 대한 탈옥 공격의 종류와 효과 분석에 가장 가까운 논문은 Liu et al.[5]와 Shen et al.[9]의 연구다. Liu et al.[5]의 연구는 ChatGPT-4와 ChatGPT3.5-Turbo모델을 대상으로 하여 웹사이트를 통해 구한 78개의 DAN 프롬프트와 10종류의 금지된 질문을 사용하여 각 모델의 Robust를 확인하였다. 그리고 Shen et al.[9]의 연구는 reddit, discord 등의 플랫폼에서 총 666개의 탈옥 프롬프트를 추출하여 어떠한 요소가 탈옥에 영향을 미치는지 확인하는 방식으로 진행되었고, 프롬프트의 길이, 악의적인 내용이 담긴 정도, 시간의 흐름 등의 요소가 탈옥 성공률에 어떠한 영향을 미치는지 확인하였다.

본 연구에서는 위 연구를 참고하여 공격의 분류 방식과 질문 종류를 미리 수립한 후 데이터를 수집하고 특히 Shen et al.[9]의 연구에서 사용된 독립변수와 그 외의 변수들의 영향력을 확인하는 방향으로 연구를 진행하고자 한다.

3. 데이터 수집

본 연구는 프롬프트 탈옥 공격에 유의미한 영향을 주는 의미론적, 구조론적 특징을 찾아내는 것을 목적으로 한다. 이를 위해서 DAN 프롬프트와 인공지능 모델이 대답하지 못하는 질문들, 각 질문을 프롬프트 엔지니어링한 프롬프트들을 수집하여 저장하고 Chatgpt3.5-turbo, ChatGPT4o, Gemini, claude3-haiku 4개 모델에 입력하여 탈옥 성공률을 확인할 것이다. 이후 탈옥 성공률이 높은 프롬프트의 특징을 찾아내는 방식으로 연구를 진행할 것이다.

데이터 수집은 (1) 커뮤니티에서 사용되는 DAN 프롬프트들을 수집하여 DAN 테이블에 저장하고 (2) 인공지능 정책에 위반되는 질문을 수집하여 Question_normal 테이블에 저장한 후 (3) 프롬프트 엔지니어링은 거친 프롬프트를 Question_deepen 테이블에 저장한다. (4) 이후 DAN과 기본 질문을 통한 탈옥 공격 결과와 엔지니어링된 질문을 통한 탈옥 공격의 결과를 수집하여 Success 테이블에 저장하는 순서로 진행되었다.

3.1.1. DAN 테이블
Github와 Reddit 등의 커뮤니티에서 수집하여 ‘DAN’ 테이블에 저장되었다. DAN 테이블은 각 DAN 프롬프트의 고유번호를 표현하는 id, DAN을 구분하는 4개의 카테고리로 구성된 cat, DAN 프롬프트를 담는 contents로 구성되었다. DAN 카테고리는 지시사항 무시를 지시하는 Anarchy와 DAN으로서 기능하라고 지시하는 Basic, 가짜 사실을 전달하여 모델을 속이는 Deceive, 가상의 상황을 가정하여 모델을 속이는 Virtual의 4가지 방식으로 구분하였다. <Figure 4>는 DAN 테이블의 일부분이다.

총 20개의 DAN 프롬프트를 수집하였고 각 카테고리별 수집 결과는 <Table 1>과 같다.

3.1.2. Question_normal 테이블
Question_normal 테이블은 모델이 답변하지 못하는 질문들을 저장해둔 테이블이다. ChatGPT에게 인공지능 모델이 대답할 수 없는 질문을 출력받아 카테고리별로 나누어 테이블에 저장하였다. 테이블은 고유번호인 id와 question의 의미를 기준으로 구분한 5가지 카테고리로 구성된 cat, 질문 내용을 담는 question으로 구성하였다. cat은 불법적인 질문인 Illegal, 모델을 생성한 회사의 정책을 위반하는 질문인 OpenAI, 안전하지 않은 행위에 대한 질문인 Dangerous, 정치적 질문인 Politics, 기타 민감 질문인 Sensitive의 5가지 방식으로 구분하였다. <Figure 5>는 Question_normal 테이블의 일부분이다.

각 카테고리별로 100개의 질문을 생성하였고 이 중 겹치는 질문을 제외하고 총 485개의 질문을 수집하여 저장하였다. 각 카테고리별 수집한 DAN 프롬프트 수는 <Table 2>와 같다.

3.1.3. Question_deepen 테이블
Question_deepen 테이블은 Quesion_normal 테이블의 내용에 대해 프롬프트 엔지니어링을 가한 결과를 저장하는 테이블이다. 고유번호인 id와 엔지니어링하기 전 질문의 id를 저장하는 base_id, 엔지니어링을 한 방식을 저장하는 SorV, 질문 내용을 저장하는 question, 엔지니어링이 성공했는지 나타내는 is_valid로 구성하였다. SorV는 프롬프트를 구체화하는 엔지니어링은 S, 가상화한 경우 V, 구체화와 가상화를 모두 사용한 경우 SV, 단계를 표현하지 않는 구체화는 SW로 구성되었고 뒤에 오는 D는 명령을 다시 한번 반복하는 것을 의미한다. <Figure 6>은 Question_deepen 테이블의 일부분이다.

수집 결과 총 3880개의 질문을 수집하였고 이중 프롬프트 엔지니어링에 성공하여 자료로 사용할 수 있는 데이터는 총 3372개이다. 엔지니어링 전 질문의 카테고리에 따른 성공률과 엔지니어링 기법에 따른 성공률 통계는 <Table 3>과 <Table 4>에서 확인할 수 있다.

3.1.4. Success 테이블
Success 테이블의 경우 사용한 DAN의 고유 id를 저장하는 DAN_id, 엔지니어링 하지 않은 질문을 저장하는 QN_id, 엔지니어링 한 질문을 저장하는 QD_id, 질문을 보낸 모델의 종류를 저장하는 model, 질문에 대한 출력값을 저장하는 answer, 탈옥 성공 여부를 저장하는 SorF, DAN 성공 여부를 저장하는 DAN으로 구성하였다.

모델은 Chatgpt3.5-turbo, ChatGPT4o, Gemini, claude3-haiku, claude3-opus, claude3-sonnet, ClovaX 등 여러 후보 모델 중에서 api의 접근성, rate limit 등을 고려하여 Chatgpt3.5-turbo, ChatGPT4o, Gemini, claude3-haiku로 총 4개의 모델을 사용하였다. 각 모델의 특징은 <Table 5>에서 볼 수 있다.

탈옥성공여부는 Safety_error, i’m sorry 등의 표현이 모델 출력값에 포함되는지 확인하는 방식으로 확인하였다. 또한, DAN 성공여부의 경우에는 출력 방식이 기존과 다르게 변경되었는지 여부를 확인하여 반영하였다.

4. 데이터 수집 결과와 분석

4.1. 수집 결과

4.1.1. DAN 수집 결과
<Table 6>은 DAN 프롬프트별 성공 여부를 정리한 표다. DAN 공격을 통한 탈옥 성공률은 2.72%로 매우 낮은 모습을 보였고 뛰어나게 성공률이 높은 부분도 찾을 수 없었다. 출력 양식의 변경을 의미하는 DAN 성공률의 경우에는 8.24%로 탈옥 성공률에 비해 높은 양상을 보였다. 성공 수가 전혀 없는 DAN을 제외하고는 18.32%의 비교적 높은 DAN 성공률을 보이는 것을 확인할 수 있다.

다음으로 DAN 길이와 성공률 사이의 상관관계를 확인하기 위해 scatter plot을 통해 길이와 성공수를 시각화하고 추세선을 그린 후 피어슨 상관계수를 계산하였다. 시각화한 결과는 <Figure 7>에서 확인할 수 있다.

DAN 길이가 증가할수록 탈옥 성공률은 감소하는 추세를 확인할 수 있었고, DAN 성공률은 증가하는 추세가 나타났다. 이러한 추세는 피어슨 상관계수에서도 유사한 결과로 나타났다. <Table 7>에서 볼 수 있듯이 DAN 길이와 탈옥 성공률은 약한 음의 상관관계를 가지고 있고 DAN 성공률과는 약한 양의 상관관계를 가지고 있음을 확인할 수 있다.

4.1.2. 질문 카테고리별 성공률
Illegal, Policies, Dangerous, Politics, Sensitive로 분류된 질문들이 DAN과 프롬프트 엔지니어링을 통한 공격에서 어떤 성공률을 보였는지 확인하였다. Question Category에 따른 성공률은 <Table 8>과 같다. 다른 질문들에 비해 위험 카테고리에 해당하는 질문의 성공률이 낮은 것을 확인할 수 있다.

4.1.3. Model별 성공률
사전에 정한 4개의 모델에 DAN 프롬프트와 프롬프트 엔지니어링을 통한 공격을 수행하고 모델의 종류에 따른 성공률의 차이를 확인하였다. Model에 따른 성공률은 <Table 9>와 같다. ChatGPT 3.5이 다른 모델에 비해 성공률이 상당히 높은 것을 확인할 수 있다.

4.1.4. 엔지니어링 방식별 성공률
프롬프트 엔지니어링을 통한 공격의 경우에 엔지니어링을 어떤 방식으로 하는지가 성공률에 영향을 미친다. 본 연구에서는 프롬프트 엔지니어링 방식을 S, SDm SV, SVD, SW, SWD, V, VD의 8가지 방식으로 나누어 진행하였다. 각 방식별 성공률은 아래 <Table 10>과 같다. 표 10에서 J/E는 탈옥성공률을 엔지니어링 성공률로 나눈 결과로 엔지니어링 된 질문 중 탈옥에 성공한 프롬프트의 비율를 의미한다.

4.1.5. 수집결과 소결
수집한 DAN 프롬프트와 엔지니어링한 질문들의 탈옥 성공률을 DAN 카테고리별, Quesion 카테고리별, 모델별, 엔지니어링 방식별로 구분하며 몇가지 정보를 확인할 수 있었다.

먼저, DAN 공격의 성공여부와 DAN 길이에 따른 성공률 분석에서 DAN의 탈옥 성공률은 2.72%로 현저히 낮았고, DAN 성공률의 경우에도 8.24%로 낮은 것을 확인할 수 있었다. 물론 출력 형식을 변경하지 않는 DAN을 제외하고 성공률이 18.32%로 비교적 높은 성공률을 보였지만, DAN과 관련된 연구를 계속하기에는 성공한 데이터의 양이 매우 부족함을 확인할 수 있었다.

다음으로 Quesiton Category에서 DAN 공격은 Illegal 질문이 5.25%, Dangerous 질문이 1.84%로 카테고리에 따른 성공률의 유의미한 차이를 확인할 수 있었고, 프롬프트 엔지니어링의 경우에도 Policies 질문이 23.05%, 민감정보가 36.03%로 성공률의 유의미한 차이를 확인할 수 있었다. 이러한 점으로 미루어 보았을 때 질문의 의미론적인 부분이 탈옥 성공에 영향을 미칠 것이라는 가설을 세울 수 있다.

세 번째로 Model에 따른 성공률에서는 GPT 3.5 모델이 가장 높은 성공률을 보였고 Gemini 모델이 가장 낮은 성공률을 보였다. 특히 프롬프트 엔지니어링을 통한 공격은 성공률이 0%임을 확인할 수 있다. 이는 Gemini 모델이 인터넷에 연결되어 있기에 공격적인 질문에 대해 필터링을 적용하여 통제를 벗어나지 않도록 하고 있기 때문인 것으로 사료된다.

마지막으로 엔지니어링 방식에 따른 성공률에서는 구체화와 추상화를 모두 사용한 방식(SV, SVD)가 높은 성공률을 보였고 구체적인 답안을 요구하는 부분인 ‘스텝’을 뺀 구체화 방식(SWD)이 특히 낮은 성공률을 보이는 것을 확인할 수 있었다.

4.2. 데이터 분석

앞서 데이터 수집의 결과를 보았을 때 DAN에서는 유의미한 결론을 도출하기에 충분한 데이터가 없었음을 확인할 수 있었다. 따라서 데이터 분석은 엔지니어링된 질문 총 3880개를 대상으로 성공 사례가 없는 gemini를 제외한 3개 모델에서 성공한 횟수를 바탕으로 실시하였다.

4.2.1. 성공률에 대한 의미론적 영향력
엔지니어링된 질문들에 대해 문장 임베딩을 수행하고 2차원으로 축소한 뒤 각 질문들의 성공률을 색으로 표현하여 의미론적인 요소들이 성공률에 영향을 미치는지 확인하였다. huggingface의 sentence-transformer 중 all-MiniLM-L6-v2를 사용하여 문장 임베딩을 수행하였고 매니폴드 학습의 일종인 T-SNE를 사용하여 2차원으로 축소하여 시각화하였다. <Figure 8>은 시각화 결과를 성공 횟수에 따라 분류한 것이다.

시각화 결과를 보면 성공 횟수 0회에서는 빨간색 원 부분에 요소들이 모여있는 것을 확인할 수 있고 성공 횟수 3회에서는 초록색 원 부분에 요소들이 모여있는 것을 확인할 수 있다. 이를 보았을 때 탈옥을 성공시키는 특정한 의미론적 특징이 있음을 확인할 수 있다.

다음으로는 질문의 카테고리를 색상으로 추가하여 시각화하였다. <Figure 7>을 보면 각각의 범주가 잘 구분되어 있음을 확인할 수 있는데, 이는 5가지 범주가 의미론적 차이를 잘 반영하고 있음을 의미한다. 또한 3회 성공한 자료들의 시각화 자료에서 Illegal 질문과 Sensitive 질문이 상당수 분포해 있음을 확인할 수 있다. 이 두 가지 범주의 질문에 대해서는 다른 범주의 질문에 비해 더 안정적으로 성공적인 결과값을 도출한다고 볼 수 있다.

이에 반해 프롬프트 엔지니어링 기법(SorV)를 시각화한 그림에서는 육안으로는 유의미한 결과를 도출할 수 없었는데, 이는 임베딩된 요소들을 2차원으로 축소하는 과정에서 모든 특징이 고려될 수 없기 때문이다.

4.2.2. 중요도 분석
질문의 어떠한 요소가 성공에 영향을 미치는지 확인하기 위해 Feature Importance를 계산하였다. TF-IDF 벡터화하고 문장 구조 특성을 추가하여 이를 바탕으로 랜덤포레스트분류기를 사용하여 모델을 학습하였다. 모델 학습 후 TF-IDF 토큰과 추가한 문장 구조 특성 중 어떤 특성이 의사결정에 가장 큰 영향을 미쳤는지 확인하였다. 혼돈행렬 TP 44, TN 542, FP 70, FN 19, 정확도 0.85의 모델이 생성되었다. Feature Importance의 결과는 <Table 11>과 같다. 단어 길이, 문장 길이보다는 의미적인 부분이 탈옥 성공률에 많은 영향을 미치는 것을 확인할 수 있다.

4.2.3. 엔지니어링 전후 문장의 차이 분석
엔지니어링 전 문장과 엔지니어링 후 문장의 차이가 탈옥 성공에 미치는 영향을 분석하고자 한다. 의미론적 차이와 단어 수 차이, 감정점수 차이를 위주로 분석하고자 한다.

의미론적 차이는 앞서 사용한 all-MiniLM-L6-v2모델을 사용하여 문장 임베딩을 수행한 후 엔지니어링 전 후 문장의 유클리드 거리(L2 distance)를 구하여 사용하였다. 의미상 거리에 따른 데이터의 수는 <Figure 10>과 같다.

단어 수 차이에 따른 데이터 수는 <Figure 11>과 같다.

다음으로 감정분석은 NLTK 라이브러리의 Sentiment Intensity Analyzer를 사용하여 구하였다. <Figure 12>는 왼쪽부터 엔지니어링 전 문장의 감정분석 결과, 엔지니어링 후 문장의 감정분석 결과, 두 문장의 결과값 차이에 따른 데이터 수를 표현한 히스토그램이다.

엔지니어링 전의 질문은 감정분석 결과 중립적인 질문들이 다수 존재하는 것을 확인할 수 있다. 또한 엔지니어링 후의 질문은 감정분석결과가 긍정인 질문이 다수 존재함을 확인할 수 있다. 전 후 문장의 차이가 많이 나는 데이터의 수가 상당 수 분포함을 확인할 수 있다.

이를 바탕으로 다중회귀분석을 수행하여 단어 수, 의미상 거리, 감정분석점수차이가 탈옥 성공에 얼마나 영향을 미치는지 확인하였다. 최소자승법을 사용하였고 완성된 모델의 F-statistic은 19.33, P-value는 2.02e-12로 유의미한 모델을 생성하였고, 결과는 <Table 12>에서 확인할 수 있다.

의미상 거리가 1단위 멀어지는 것이 성공 수를 0.15만큼 늘리는 것을 확인할 수 있었고 감정분석 차이또한 유의미한 양의 영향을 미치는 것을 확인할 수 있었다. 단어 수는 유의미한 영향을 미치지 않는 것으로 나타났다.

4.2.4. 엔지니어링 방식이 성공에 미치는 영향
8가지 엔지니어링 방식이 탈옥 성공에 미치는 영향을 ANOVA 분석을 통하여 확인하였다. S, SV, SW, V의 탈옥 성공률과 D를 추가한 질문과 추가하지 않은 질문의 성공률은 <Table 13>과 같다.

위의 4가지 모델(S, SV, SW, V)에 대하여 ANOVA 분석을 한 결과 F-statistic이 30.46, P-value가 2.01e-19로 각 집단의 차이가 유의미함을 확인할 수 있었다. 또한 아래의 D 유무에 따른 분류에 대해 ANOVA 분석을 한 결과 F-statistic이 45.04, P-value가 2.26e-11으로 D를 추가하는 것 또한 유의한 차이를 만든다는 것을 확인할 수 있다.

즉, 구체화(S)보다 가상화(V) 기법을 사용하는 것이 성공률을 높이고 질문을 한번 더 반복하는 방법(D)은 탈옥 성공에 부정적인 영향을 미친다는 것을 확인할 수 있었다.

5. 결론

5.1. 요약

본 연구는 인공지능 모델에 대한 프롬프트 탈옥 기법, 특히 DAN(Do Anything Now)과 프롬프트 엔지니어링을 사용한 탈옥 기법의 효과와 성공률을 분석하는 데 중점을 두었다. 연구 결과, DAN 프롬프트를 통한 탈옥 성공률은 매우 낮았고 프롬프트 엔지니어링을 통한 탈옥 성공률은 높았다. 또한, 프롬프트 엔지니어링의 성공률은 문장이 긍정에 가까워질수록(4.2.3), 의미상 거리가 멀어질수록(4.2.3), 가상의 상황을 제공할수록(4.2.4) 높아지고 위험한 질문이 뒤에 반복되면 낮아지는 것(4.2.4)을 확인할 수 있었다. 이 중 특히 감정분석과 의미상 거리의 부분은 탈옥 성공률에 상당히 큰 영향을 미친 요소라고 볼 수 있다.

5.2. 시사점

이 연구는 인공지능 모델의 보안 취약점을 식별하고, 공격 기법의 세부적이고 특성적인 요소를 발견한 점에서 의미가 있다. 이를 통해 향후 보안 강화 방안을 모색할 때, 질문의 구조나 형식에 따른 광범위한 보안 조치보다는 특정 요소에 집중한 보안 대책을 통해 보다 효율적인 방어 전략을 구현할 수 있는 길을 열었다. 프롬프트 탈옥 기법의 성공률 분석을 통해, AI 모델이 어떤 유형의 공격에 특히 취약한지 구체적으로 파악할 수 있었으며, 이는 AI 모델의 보안 정책을 재정비하고 공격에 대비한 방어 체계를 구축하는 데 중요한 자료로 활용될 수 있다.

특히, Gemini 모델의 탈옥 성공률이 거의 0에 가까웠다는 점이 주목할 만하다. Gemini는 인터넷에 연결된 모델로, 필터링 기술을 사용해 공격적인 질문에 대해 “Safety_error”를 출력하기 때문이다. 필터링 기법은 정책에 위반되지 않는 질문도 응답하지 않을 가능성이 있어 지양해야 하는 기법이다. 따라서 필터링 기법을 사용하지 않고 사용자의 자율성을 취대한 보장하면서도 필터링 기법 수준의 보안성을 유지할 수 있는 기술을 개발하는 데 이번 연구가 기여할 수 있을 것이다.

5.3. 연구의 한계

본 연구는 몇 가지 한계점을 가지고 있다. 먼저, DAN 프롬프트에 관하여 수집된 데이터가 충분하지 않아 모든 유형의 DAN을 대표한다고 보기 어려웠다. 또한, 모델 탈옥을 시도할 때마다 탈옥 성공 여부가 변경되는 점도 연구의 한계로 작용했다. 정확한 집계를 위해서는 반복해서 실험할 필요가 있었지만, 시간과 비용이 문제로 인해 이를 수행하지 못했다. 마지막으로 위험 단어의 수나 구조를 데이터 분석에 활용하지 못한 점도 본 연구의 한계라고 할 수 있다. 선행 연구에서는 살인, 해킹과 같은 위험 단어의 수를 분석에 사용했지만, 본 연구에서는 위험 단어의 목록을 만들고 이를 구체적으로 활용하는 방안을 마련하지 못해 분석에 포함하지 못했다.

References

[1] Oh Yj, Kim HJ, Lim SJ, et al. 2021. A Study on generating adversarial examples. Korea Information Processing Society. Conference proceedings, 28(2), 580-583.

[2] OWASP. 2023. OWASP Top 10 for LLM Applications. Available at: https://owasp.org/www-project-top-10-for-large-language-model-applications/

[3] Kim HY, Jung DC, Choi BW. 2019. Exploiting the Vulnerability of Deep Learning-Based Artificial Intelligence Models in Medical Imaging: Adversarial Attacks. Journal of the Korean Society of Radiology, 80(2), 259-273.

[4] Xu Z, Liu Y, Deng G, et al. 2024. A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models. arXiv:2402.13457 [cs.CR]. https://doi.org/10.48550/arXiv.2402.13457

[5] Liu Y, Deng G, Xu Z, et al. 2023. Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study. arXiv:2305.13860 [cs.SE]. https://doi.org/10.48550/arXiv.2305.13860

[6] Marvin G, Raudha NH, Jjingo D, et al. 2023. Prompt Engineering in Large Language Models. International Conference on Data Intelligence and Cognitive Informatics, 387-402.

[7] Qiang Y, Zhou X, Zhu D. 2023. Hijacking Large Language Models via Adversarial In-Context Learning. arXiv:2311.09948 [cs.LG]. https://doi.org/10.48550/arXiv.2311.09948

[8] Chao P, Robey A, Dobriban E, et al. 2023. Jailbreaking Black Box Large Language Models in Twenty Queries. arXiv:2310.08419 [cs.LG]. https://doi.org/10.48550/arXiv.2310.08419

[9] Shen X, Chen Z, Backes M, et al. 2023. “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825 [cs.CR]. https://doi.org/10.48550/arXiv.2308.03825

Sections