2024-07-26 | 인사이트 리포트

외부 데이터와 연결되는 검색증강생성(RAG) – 보안 문제는?

Chloe Woo | Content Strategist

보안 문제를 나타내는 그림

빠르게 발전하는 AI 기술과 더불어 RAG는 다양한 AI 시스템의 핵심 요소로 자리 잡을 것입니다. 하지만 반드시 해결해야 할 큰 문제가 있는데요, 바로 보안입니다.

검색증강생성(RAG; Retrieval-Augmented Generation)이란? -개념, 장점 

RAG가 다루는 최신 데이터는 기업 내부의 민감한 정보를 포함할 수 있습니다. 따라서 소스 데이터 암호화뿐만 아니라 벡터 저장소, 임베딩 모델, LLM 등의 시스템 구성 요소가 외부에 노출되지 않도록 방지하는 강력한 보안이 필요합니다.

RAG가 특히 퍼블릭 데이터가 부족한, 고도로 전문화된 도메인에서 강력한 성능을 발휘할 것으로 기대된다는 점에서, 도입 전 보안 전략을 우선 마련해야 하죠. 

검색증강생성(RAG)으로 다양한 제조 문제를 신속하게 해결하세요 – 도메인별 활용 사례

1. RAG 관련 보안 위협 예시

(1) 개인 정보 노출

RAG의 주요 문제 중 하나는 벡터 데이터베이스라는 새로운 데이터 저장소의 도입입니다. 이 데이터베이스는 개인 데이터를 복사하여 저장하며, 역공격을 통해 원본 데이터로 거의 완벽하게 복원될 수 있습니다. 벡터 데이터베이스는 빠르게 변하고 있는 시스템이기 때문에 보안이 아직 미흡할 수 있습니다.

(2) 과도한 데이터 공유

RAG는 접근 권한이 없는 사람에게까지 과도하게 데이터를 노출할 위험을 지니고 있습니다. 기업 내에서 사용하는 CRM, ERP, HR 시스템 등과 같은 도메인별 애플리케이션의 데이터가 모두 벡터 데이터베이스로 유입되는데, 누가 무엇을 볼 수 있는지 제어하는 데 필요한 도메인별 비즈니스 로직이 없을 가능성이 있죠.

(3) 해커 공격

RAG를 비롯한 AI 시스템은 필요한 사람들에게 정보를 제공하는 데 유용하지만, 공격자에게도 마찬가지입니다. 이전에는 해커가 SQL 테이블을 역설계 기법으로 알아낸 뒤 관심 있는 정보를 찾기 위해 또 많은 시간을 들여 쿼리를 작성해야 했지만, 이제는 친절한 챗봇이 곁에 있죠. 공격자 또한 원하는 정보를 쉽게 얻을 수 있습니다.

(4) LLM 로그 유출

사용자의 프롬프트, 특히 증강된 정보가 포함된 대화 기록이 유출되면 심각한 보안 사고로 이어질 수 있습니다.

대표적 LLM 공급 기업인 오픈AI의 사례를 보세요. 사용자 이름과 비밀번호 같은 로그인 정보를 훔치는 자격증명 도용(Stolen credentials), 공격자가 사용자의 계정에 불법 접속하는 계정 탈취(Account Take Over), 악성 코드나 명령을 시스템에 주입해 보안 취약점을 악용하는 기법, 시스템에서 발생한 버그로 인해 사용자 간의 채팅 기록이 노출되는 사고 등이 발생했습니다.

(5) RAG 포이즈닝

내부에서 의도적으로 만들어진 악성 데이터를 RAG 데이터로 추가하는 문제가 발생할 수 있습니다. 이를 통해 사용자에게 잘못된 정보를 제공하게 될 수 있습니다.

동형암호

2. RAG 단계별 보안 강화 방법

(1) 데이터 익명화

데이터 처리가 시작되기 전 문서, 데이터 베이스, 지식 그래프 안에 있는 민감한 개인 정보를 익명화합니다. 예를 들어, 고객 이름, 주소, 전화번호 같은 개인 식별 정보를 제거하거나 암호화해서 바꾸는 것이죠. 이는 데이터 보안의 가장 기본적인 사항이며, 개인 프라이버시를 보호하는 데 중요합니다.

익명화가 완료되면 그 뒤에 데이터 인덱싱 및 임베딩을 하는데요, 이 단계에서 데이터가 검색에 효율적인 형식으로 구성됩니다. 특히 데이터의 의미적 내용을 나타내는 벡터 임베딩으로 변환됩니다.

(2) 벡터 데이터베이스에 대한 액세스 제어

벡터 데이터베이스에 대한 모든 읽기/쓰기 액세스에 대해 제어할 수 있는 메커니즘을 포함시킵니다. 권한이 있는 사람이나 프로세스만 데이터에 액세스할 수 있도록 보장함으로써 무단 액세스 및 조작을 방지합니다.

(3) 벡터 데이터베이스 암호화

벡터 데이터베이스 또한 암호화합니다. 추가적인 보안 계층을 추가해서 잠재적인 침해 위협으로부터 데이터를 보호합니다(다계층 보안).

벡터 데이터베이스를 공급하는 업체가 많은데, 아직까지는 다계층 보안을 기본으로 지원하지 않습니다. 그래서 RAG를 사용고자 하는 기업에서는 AI 엔지니어가 벡터 데이터베이스 위에 암호화 계층을 별도로 추가해야 할 수 있습니다.

<현재 연구 중인 다양한 데이터 암호화 기술>

  • 동형 암호: 암호화된 데이터 상태에서 연산을 수행할 수 있게 해주는 기술입니다.

클라우드 환경에서 데이터와 AI를 지켜줄 동형암호 – 잠재력, 연구 동향

  • 안전한 다자간 계산: 여러 당사자가 개인 데이터를 공유하지 않고도 공동으로 계산을 수행할 수 있습니다.
  • 토큰화: 민감한 데이터를 ‘토큰’이라고 하는 대체물로 변환하여 보호합니다. 원래 벡터와 토큰 간의 매핑 정보는 안전하게 저장됩니다. 벡터 데이터 자체는 보호되지 않아도 벡터가 파생된 원래의 민감한 데이터는 안전하게 유지됩니다.
  • 검색 가능한 암호화: 암호화된 데이터도 검색이 가능하도록 해줍니다. Blind Storage 또는 Oblivious RAM과 같은 기술을 벡터 데이터베이스에 적용할 수 있습니다.
  • 분산화 및 샤딩: 데이터를 여러 조각으로 나누어 여러 서버나 위치에 분산 저장해서 보안을 강화합니다. 다른 보안 조치와 결합해서 사용합니다.

ai human interface

(4) 쿼리 검증

시스템에 입력되는 각 쿼리는 검증 프로세스를 거칩니다. 이 단계에서는 쿼리에 잠재적으로 유해하거나 비정상적인 콘텐츠가 있는지 확인하여 악의적인 입력에 의해 시스템이 악용되지 않도록 방지합니다.

또한, 데이터 누출을 탐지할 수 있는 보안 계층을 추가하면 쿼리나 프롬프트를 통해 민감한 데이터가 유출되는 것을 방지할 수 있습니다.

(5) 생성된 콘텐츠 검증

GPT-4 같은 LLM이 응답을 생성한 후 이 콘텐츠는 검증 프로세스를 거칩니다. 생성된 콘텐츠가 윤리적 지침을 준수하고, 정확하며, 유해하거나 부적절한 자료가 포함되지 않았는지 확인합니다.

이를 통해 사용자가 안전하고 신뢰할 수 있는 정보를 받도록 보장합니다.

(6) 출력에 대한 액세스 제어

마지막 단계는 RAG 시스템이 생성한 답변(출력)에 액세스할 수 있는 사람을 제어하는 것입니다. 이를 통해 민감한 정보가 부적절하게 공개되지 않도록 합니다. 예를 들면, 회사 내 특정 부서만이 특정 데이터에 접근할 수 있도록 설정할 수 있습니다.

이런 점들을 고려하여 RAG 기술을 활용한다면, 더 나은 의사결정을 통해 경쟁 우위를 확보할 수 있을 것입니다.

Reference

  1. Security Risks with RAG Architectures 
  2. Mitigating Security Risks in Retrieval Augmented Generation (RAG) LLM Applications