AI 핵심 요약
beta- 생성형 AI가 텍스트 챗봇을 넘어 툴 콜링 기반 자율 에이전트 시대로 진화했다.
- OpenAI의 함수 호출 도입 이후 구글·앤트로픽 등도 툴 콜링을 표준화하며 랭체인·랭그래프 등 에이전트 프레임워크가 고도화됐다.
- 앞으로는 API 연동보다 에이전트용 스킬 개발, 에이전트 간 노동·결제 네트워크, OS 차원의 완전 자동화가 디지털 경제를 재편하게 된다.
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
불과 2~3년 전만 해도 우리가 마주한 생성형 인공지능(AI)는 그저 '글 잘 쓰고 말 잘 통하는 똑똑한 비서' 정도였다. 사용자가 질문을 던지면 거대언어모델(LLM)은 그럴듯한 문장을 매끄럽게 뽑아냈다. 하지만 실시간 날씨를 묻거나 최신 주가를 물어보면 이내 헛소리를 하거나 밑천을 드러내곤 했다. 당연한 일이었다. LLM은 그저 과거의 데이터를 학습한 존재일 뿐, 스스로 인터넷을 켜거나 컴퓨터 프로그램을 조작할 수 있는 능력이 없었기 때문이다.
하지만 최근 AI 생태계의 판도가 완전히 바뀌고 있다. 단순히 텍스트로 답을 주던 '챗봇'의 시대를 지나, 사용자의 목표를 이루기 위해 스스로 판단하고 움직이는 'AI 에이전트(Agent)'의 시대로 진화하는 중이다. 이 극적인 변화의 중심에는 빅테크 기업들의 API 레벨에서 창립도입한 핵심 기술, '툴 콜링 (Tool Calling, 도구 호출)'이 자리 잡고 있다.
초창기 개발자들은 LLM에게 검색 엔진이나 계산기 같은 외부 도구를 쥐여주기 위해 눈물겨운 편법을 썼다. 대표적으로 "너는 검색 도구를 쓸 수 있어. 검색이 필요하면 문장 맨 앞에 Action: Search[검색어]라고 적어줘"라며 일종의 프롬프트 규칙을 강제하는 방식이었다. 이른바 ReAct 기법이다.

문제는 LLM의 변덕스러운 본성이었다. 확률에 따라 글자를 찍어내는 LLM은 개발자가 짜놓은 형식을 무시하기 일쑤였다. 대괄호 하나를 빼먹거나 뜬금없는 미사어구를 붙여 답변하는 순간, 뒷단에서 대기하던 파이썬 코드는 에러를 뿜으며 멈춰섰다. 기업 입장에서 이렇게 불안정하고 시한폭탄 같은 방식을 사내 데이터베이스(DB)나 핵심 결제 시스템에 마음놓고 연동할 수 없는 노릇이었다.
이 고질적인 문제를 근본적으로 해결한 주인공이 바로 OpenAI다. 2023년 6월, 이들은 모델 자체를 미세조정(Fine-tuning)하여 도구가 필요한 타이밍에 정확하고 정형화된 JSON 객체만 밷어내는 "Function Calling' 기능을 세상에 내놓았다. AI가 자꾸 규칙을 어기니, 모델의 뇌 속에 아예 '구조화된 데이터 출력 회로'를 직접 심어버린 셈이다.
OpenAI가 시작한 이 방식은 곧 업계 표준으로 자리 잡았다. 구글(Gemini)과 앤트로픽(Claude) 등 후발 주자들도 "이 흐름을 타지 못하면 에이전트 경쟁에서 완전히 도태된다"는 위기감 속에 자신들의 API 스펙에 툴 콜링을 기본 탑재했다. 모델이 진화화자 이를 다루는 소프트웨어 프레임워크도 덩달아 고도화됐다. 랭체인(LangChain) 같은 도구 덕분에 개발자들은 파이썬 함수 위에 간단한 태그만 붙여도 LLM에게 도구 명세서를 척척 전달할 수 있게 됐다. 더 나아가, AI가 도구를 쓸지 말지 스스로 판단하며 복잡한 업무경로를 자율적으로 찾아가는 상태 관리 그래프 시스템, 'LangGraph(랭그래프)' 기술로 이어지면서 비로소 현대적인 에이전트의 뼈대가 완성됐다.
이러한 기술 발전은 최근 주목받고 있는 자율형 AI 에이전트 서비스에서 더욱 극적으로 드러난다. 마누스(Manus) 같은 자율형 에이전트를 보면 기술의 진화가 소름돋을 정도다. 전세계 수만 가지 사이트의 조작법은 AI에게 일일이 학습시키는 것은 사실상 불가능하다. 프롬프트 두께가 책 한권 분량이 되어 비용과 연산 속도를 감당할 수 없기 때문이다.
대신 이들은 LLM에게 딱 4가지의 '만능 마스터 도구'만 쥐여준다. 바로 인터넷 브라우저, 코드 실행 가상 컴퓨터, 파일 매니저, 그리고 검색 엔진이다. 구체적인 사이트 주소나 API 구조를 몰라도, AI는 검색을 통해 주소를 찾아내고, 브라우저 화면을 캡처한 이미지 위에 스스로 번호표를 붙어가며 시각 능력(Vision)으로 화면을 해석한다. 인간이 눈으로 보고 마우스를 클릭하듯, 단 4가지의 근본적인 손과 발만 가지고 세상의 모든 웹 서비스를 자율적으로 돌파하는 메커니즘이다.
이 처럼 툴 콜링과 에이전트 기술이 발전하면서 소프트웨어 산업과 디지털 경제 전반의 변화도 본격적으로 예상되고 있다.
첫째, 'API 연동 개발'에서 '에이전트용 스킬(Skill) 개발'로의 전환이다. 앞으로 기업들은 인간이 보는 웹페이지를 예쁘게 꾸미는 것보다, MCP(Model Context Protocol) 같은 오픈 표준 규격에 맞춰 에이전트가 0.1초 만에 접근해 결제나 예약을 처리할 수 있는 '에이전트 전용 인터페이스(스킬)'를 만드는 데 사활을 걸 것이다.
둘째, 에이전트 간의 자율적인 노동 거래와 초소액 결제(Micro-payment)의 도입이다. 미래에는 혼자 다하는 만능 AI 대신 특정 분야에 특화된 장인 에이전트들이 네트워크를 이룰 것이다. 개인 비서 에이전트가 "유럽 여행 패키지 예약해줘"라는 미션을 받으면, 스스로 '항공권 전문 에이전트'와 '호텔 추천 에이전트'를 도구처럼 호출해 업무를 지시한다. 이 과정에서 에이전트들은 서로 정보와 노동을 주고받으며, 블록체인이나 전용 API를 통해 실시간으로 초소액 결제를 처리하는 자율적인 AI 경제 시스템을 구축하게 된다.
셋째, 운영체제(OS)의 패러다임의 변화다. 인간은 더 이상 복잡한 엑셀 수식을 외우거나 사내 ERP 시스템의 미로 같은 메뉴를 해맬 필요가 없다. "지난달 영수증 다 긁어모아서 지출 결의서 올리고 국세청 신고해줘"라도 툭 던지면 OS에 내장된 에이전트가 알아서 모든 컴퓨팅 업무를 끝낸다. 컴퓨터를 어떻게 조작할지(How)의 영역은 완전히 AI에게 넘어가고, 인간은 무엇을 왜 해야하는지(What&Why) 기획하고 지시하는 역할만 맡게 된다.
과거의 툴 콜링이 AI에게 외부 세계를 조작할 수 있는 물리적인 손과 발을 달아준 사건이었다면, 다가올 미래는 그 손과 발을 가진 수억 마리의 에이전트들이 디지털 공간을 돌아다니며 서로 연동하고, 고용하고, 결제까지하며 인간의 노동을 대신하는 시대의 도래를 뜻한다. AI가 말동무를 넘어 문명을 지탱하는 자율적 인프라로 자리 잡는 시대, 우리는 지금 그 거대한 도약의 출발선에 있다.
*추창호 굿어스데이터 기술그룹장은 한국항공대학교 항공운항학과를 졸업한 ICT·디지털전환(DX) 분야 전문가다. 에스엘디티(SLDT) 부사장을 거쳐 굿어스데이터에서 기술사업부 수석과 기술그룹장을 역임하며 데이터·클라우드·AI 기반 사업을 이끌고 있다. 20년 이상 IT 산업 현장에서 축적한 기술 리더십과 사업 경험을 바탕으로 기업의 디지털 혁신과 신기술 도입을 지원하고 있다.












