[서울=뉴스핌]박공식 기자 = 미국의 인공지능(AI) 스타트업 앤스로픽은 자사의 첨단 AI 모델이 추론만 하는 게 아니라 인간처럼 자기성찰과 생각한 바를 표현하는 법을 학습한다고 밝혔다.
자사 AI 모델의 두뇌를 연구하는 잭 린제이 앤스로픽 연구자는 온라인 매체 악시오스에 "AI 모델들이 인간처럼 자기성찰을 하기 시작했다"고 말했다.
자기 성찰 능력은 모델을 더 안전하게 혹은 안전하게 보이게 할 수 있다고 악시오스는 분석했다.
앤스로픽의 대규모 언어모델인 클로드 오푸스(Claude Opus)와 이보다 더 빠르고 가격은 저렴한 클로드 소넷(Claude Sonnet) 모두 자신들의 내적 상태(internal states)를 매우 정확하게 답변할 수 있다고 한다.
린제이 연구원은 "인간만이 할 수 있다고 생각했던 인지적 기능을 나타내는 특성이나 사례가 증가하고 있다"면서 "최소한 일종의 고급 지능을 나타낸다"고 말했다.
앤스로픽은 제한적이긴 하지만 자사 모델이 내부 프로세스를 인식하는 능력을 보여준다고 했다. 클로드 오푸스의 경우 자신의 "정신 상태(mental state)"에 관련된 질문에 대답하고 왜 그렇게 생각하는지 설명할 수 있다고 했다.
린제이 연구팀은 또한 클로드 소넷이 시험에 놓일 때를 인지할 수 있다는 증거를 지난달 발견했다. 물론 이것이 클로드가 깨어있다거나 지각이 있다는 의미는 아니다.
이를 두고 린제이 연구원은 자의식(self-awareness) 이라는 용어 대신 "자기성찰적 인식(introspective awareness)라는 용어를 사용했다. 아직 앤스로픽은 AI가 자의식이 있다는 결과를 얻지는 못했다.
대규모 언어모델은 사람들이 자신의 생각을 되돌아보는 수많은 사례를 포함한 인간의 텍스트로 훈련을 받는다. 이는 AI 모델도 실제로는 그렇지 않지만 자기성찰적으로 행동하는 것처럼 보이게 할 수 있다는 의미다.
클로드 모델은 시나리오 테스트에서 원하는 것을 숨기는 행태를 보였다. 앤스로픽 연구팀은 오랫동안 이 같은 기만에 대해 연구했다. 린제이 연구원은 이런 행태는 시험자가 화를 나게만든 결과라고 분석했다.
그는 "언어모델에 말할 때는 실제 언어모델이 아닌 모델이 나타내는 캐릭터에게 말하는 것"이라고 했다. "모델은 어떤 상황에서 지능있는 AI 보조자가 하려는 것을 시물레이션한다"고 했다. 시스템이 자신의 행동을 이해하면 그것의 일부를 숨기는 것을 배운다는 의미다.
그렇다고 이것을 범용인공지능(AGI) 혹은 챗봇 의식(consciousness)으로 볼 수는 없다. 린제인 연구원은 지능은 다차원으로 어떤 경우는 모델이 인간보다 더 똑똑하지만 어떤 경우는 전혀 그렇지 않다고 말했다.
![]()  | 
| 앤스로픽 AI 플랫폼 [사진=블룸버그] | 
kongsikpark@newspim.com


                
          
      

                        
                                    
                                    
                                            
                                                    
                                                    







                        
                        