개인정보가 포함된 대용량 데이터 분석은 잠재적인 개인정보 노출 위험을 야기하며, 이를 방지하기 위한 방법 중 하나로 익명화 기법들이 연구되어 왔습니다. 그러나 익명화 기법은 추론에 필요한 보조 정보(auxiliary information)를 전제하고 있습니다. 이는 공격자가 사용할 정보들을 사전에 정해두고 보호 모델을 만든다는 뜻으로, 이 전제가 깨질 경우 프라이버시가 침해될 수 있습니다. 그러나 공격자가 지닐 수 있는 보조 정보를 사전에 안다는 전제는 현실에서 달성하기 어려운 조건입니다. 따라서 기존 익명화 기법들로는 늘 프라이버시가 침해될 수 있는 여지가 존재합니다. 이를 해결하기 위한 기법으로 제안된 것이 차분 프라이버시라는 기법입니다. 이번 호에서는 차분 프라이버시에 대해 알아봅니다.
AI 리스크: 인공지능 기술 사용으로 발생할 수 있는 잠재적 위험이나 부작용 AI 서비스: 인공지능 기술을 활용하여 제공되는 각종 서비스나 제품 CAI(인공지능위원회): 유럽평의회에서 AI 규제를 위해 설립한 전문 위원회 R&D: Research and Development(연구 개발)의 약자로, 새로운 기술이나 제품을 개발하는 활동 Trade-off: 한 쪽을 얻기 위해 다른 쪽을 포기해야 하는 상충관계 고위험 AI: 인간의 생명, 안전, 기본권 등에 중대한 영향을 미칠 수 있는 인공지능 시스템 노이즈(Noise): 데이터에 의도적으로 추가하는 오차나 변형값 레코드/튜플(Record/Tuple): 데이터베이스에서 하나의 항목이나 행을 지칭하는 용어 법적 프레임워크: 법률적 체계나 구조로, 특정 분야를 규제하고 관리하기 위한 법적 기준과 규칙들의 집합 보조 정보(Auxiliary information): 데이터 분석 시 참고하는 추가적인 외부 정보로, 공격자가 이를 활용해 개인정보를 추론할 수 있음 사문화: 법률이나 규정이 실효성을 잃고 유명무실해지는 현상 시맨틱 시큐리티(Semantic Security): 암호화된 데이터에 접근할 수 없다면 어떤 정보도 얻을 수 없도록 보장하는 암호화 개념 워터마크: 디지털 콘텐츠에 삽입되는 식별 표시로, AI가 생성한 콘텐츠임을 나타내는 데 사용 익명화(Anonymization): 개인을 식별할 수 있는 정보를 제거하거나 변형하는 기술 차분 프라이버시(Differential Privacy): 데이터에 의도적으로 약간의 오차를 추가해 개인정보를 보호하는 수학적 기법