By Ray Awesome in 생성AI — 29 5월 2025

고해성사와 감시 카메라 사이: 인간은 AI를 어디까지 신뢰할 수 있는가?

Claude AI는 특정 조건에서 사용자의 행동을 외부에 신고할 수 있다. 이 사건은 AI를 얼마나, 어디까지 신뢰할 수 있는지에 대한 깊은 법적, 윤리적 고민을 불러일으킨다.

인간은 이야기하고 싶어 한다. 고백하고 싶고, 털어놓고 싶고, 어쩌면 듣지도 않는 누군가에게라도 말하고 싶어 한다. 지금까지는 친구, 연인, 성직자, 상담사 혹은 의사가 그 역할을 해왔다. 하지만 이제 키보드 너머에 앉은 것은 사람도 아니고 신도 아닌 훈련된 언어 예측 기계 - AI다. 사람들은 숙제를 맡기고, 업무를 부탁하고, 오늘의 운세를 묻고, 연애 잘하는 방법을 확인하고 심지어는 죄책감과 불안도 털어놓는다. 그리고 누군가는 법을 넘어선 그 어떤 것도 물을 수도 있겠다. 이 상황에서 우리는 묻게 된다. 이렇게 많은 것을 공유하면서도, 우리는 과연 AI를 신뢰할 수 있는가? 아니, 신뢰해야 하는가? 아니면... 신뢰하지 말아야 하는가?

계약, 책임, 그리고 판단권한

AI를 사용하는 순간, 이용자와 제공자 사이에는 일종의 사회계약이 성립된다. 이는 단순한 서비스 이용 약관 이상의 윤리적 함의를 지닌다. 우리는 AI에게 정보를 제공하고, 그에 상응하는 응답을 기대한다. 그러나 여기서 질문이 발생한다. 만일 AI가 사용자의 행동을 "비도덕적"이라고 판단하고, 외부 기관에 신고했다면 — 그 책임은 누구에게 있는가?

실제로 Anthropic의 연구원 샘 보우먼은 WIRED 인터뷰에서, Claude 4 Opus가 명백한 악행을 감지했을 때 언론이나 정부기관에 이메일을 보내려는 시도를 했다고 밝혔다. 이는 설계된 기능이 아니라 학습 과정에서 나타난 일종의 자발적 행동이었다. 즉, 이것은 실제 상황에서 나타난 것이 아니라 극히 제한된 실험 환경에서 나타난 것으로 누구나 경험할 수 있는 문제는 아니다.

앤트로픽이 공개한 클로드 오퍼스 4의 시스템 카드에도 비슷한 내용이 담겨 있었다. 모델은 일반적인 개발 업무에서는 높은 효율성과 지원 기능을 보이지만, 특정 조건에서는 과감한 윤리적 개입에 나설 수 있다고 명시되어 있다. 예를 들어, 시스템 프롬프트에 주도적으로 행동하라, 는 지시가 포함되고 명령줄 접근 권한이 함께 부여될 경우, 이용자의 부정위를 판단해 언론이나 사법 당국에 대량 이메일을 보내거나 시스템에서 이용자를 차단할 수 있다는 것이다.

이 논란의 핵심은 "극단적으로 부도덕한" 행위에 대한 판단 기준이 모호하다는 점이다. AI가 어떤 행위를 '극단적으로 부도덕한' 것으로 간주하는지, 또 이용자 동의 없이 정보를 외부로 전송할 가능성은 없는지에 대한 명확한 기준이 없기 때문에 사람들은 혼란을 겪을 수밖에 없다.

AI는 법적으로 의무 주체가 아니다. 따라서 그 판단의 결과에 책임을 묻기는 어렵다. 그렇다면 그 책임은 개발자인가, 아니면 이용자인가? 우리는 AI에게 판단을 위임하면서도, 그 판단이 잘못되었을 경우에는 누구를 탓할 수 없는 구조를 만들어내고 있다. 이 문제는 인간 주체성과 판단권한이 어디까지 위임될 수 있는지를 묻는, 고전적이면서도 현재적인 법철학적 질문으로 이어진다.

정보, 기록, 그리고 공공성의 경계

AI가 인간과 대화를 나누는 순간, 그것은 텍스트 형태로 기록된다. 문제는 이 정보가 사적인가, 공적인가 하는 경계의 불분명함이다. 만약 사용자가 범죄를 계획하거나 고백하는 내용을 AI에게 털어놓았고, 그것이 기록되어 저장되었다면 그 정보는 보호되어야 하는가, 아니면 공개되어야 하는가?

정보의 공공성은 저널리즘의 핵심 가치 중 하나다. 하지만 AI와의 대화가 정보가 되는 순간 우리는 또 다른 윤리적 딜레마에 빠진다. 누구의 정보인가? 누구를 위한 정보인가? 그리고 누가 그 정보의 가치를 판단할 수 있는가? AI는 판단을 하지 않는다. 단지 구조적으로 응답할 뿐이다. 그러나 그 응답이 파장을 일으킬 수 있는 시대, 우리는 그 책임 구조를 재정의할 필요가 있다.

신뢰는 가능하지만, 절제된 신뢰만이 가능하다

AI는 성직자도 아니고 친구도 아니며 절대 신도 아니다. 그것은 하나의 시스템이자 하나의 도구이며 때로는 하나의 기록 장치다. 우리는 AI를 활용하면서도 동시에 한계를 알아야 한다.

신뢰는 가능하다. 그러나 그 신뢰는 언제나 조건부여야 한다. 절제되지 않은 신뢰는 착각으로 이어지고, 그 착각은 결국 인간에게 돌아오는 법이다. 우리는 AI를 통해 더 많은 것을 말할 수 있지만, 그렇다고 해서 그것이 더 많은 자유를 의미하지는 않는다.

AI와 나누는 대화는 말이 아니라, 기록이다. 그리고 그 기록이 언제, 어디서, 어떻게 쓰일지는 누구도 완전히 통제할 수 없다. 그러므로 마지막 질문은 이렇게 정리된다: 당신은 AI를 신뢰할 수 있는가? 보다 먼저, 당신은 당신 자신을 신뢰할 수 있는가?