전체기사 최신뉴스 GAM 라씨로
KYD 디데이
산업 생활경제

속보

더보기

[김정호의 4차혁명 오딧세이] 아이에게서 배우는 AI 강화학습

기사입력 : 2019년04월22일 08:00

최종수정 : 2019년04월22일 08:00

우리는 어떻게 배우는가

필자가 처음 영어 공부를 시작한 것은 중학교 들어가기 전, 초등학교 6학년 때로 기억한다. 아마 공책에 a, b, c, d 알파벳을 필기체와 출판 서체로 연습한 기억이 난다. 그리고 영어로 배운 첫 문장이 “I am a boy,아니면 “You are a girl” 이 아닌가 생각한다.

        김정호 교수

본격적으로 영어를 공부한 시기는 고등학교 때이다. 그때 사용했던 영어 교재가 ‘성문종합영어’, ‘영어의 왕도’ , 그리고 ‘1200제’였다. 특히 그 중에 가장 어려운 교재가 ‘1200제”이었는데 아마도 일본 참고서를 번역한 책으로 기억한다.

그런데 이렇게 영어 공부를 시작할 때 재일 재미없었던 부분이 문법을 외우는 과정이었다. 명사, 대명사, 동사, 가정법 등 외우는 내용도 많고, 예외도 많았다. 그 규칙을 파악하고 외우고 이를 토대로 문장을 이해하고, 해석하고 작문하였다.

인공지능에서도 전통적으로 이와 비슷한 학습 방법을 써 왔다. 전통적 인공지능에서는 먼저 뇌와 지능의 동작 원리를 이해하고, 그에 맞추어 모델을 세우고 이를 컴퓨터 프로그램으로 구현하는 방법이다. 이 방법은 인간의 뇌의 동작을 인간의 논리로 파악하려 하는 방법이다. 영어 배울 때 문법으로 언어를 배우려는 시도와 같은 방법이다.

성문종합영어 참고서 내의 영어 문법과 작문 부분, [출처: tistory]


하지만 최근 딥뉴럴네트워크(DNN)으로 표현하는 인공지능은 빅데이터를 제공하고 그 데이터를 통해서 인공지능이 스스로 학습하는 방법이다. 이러한 방법을 ‘머신러닝' 인공지능이라고 한다. 여기서는 데이터를 믿고 학습한다. 이러한 머신러닝 학습 방법 중에서 인공지능 스스로 데이터를 만들어 내고 최적의 답을 만들어 내는 방법이 등장했는데, 이를 ‘강화학습(RL: Reinforcement Learning)’이라고 한다. 이를테면 컴퓨터 스스로가 자율학습을 해서 지능을 쌓아가는 방법이다.

아기가 처음 말을 배울 때 하는 말을 ‘옹알이’라고 한다. 옹알이를 통해서 엄마와 소통하면서 말을 배워나간다. 그때 처음 배우는 말이 ‘엄마’, ‘맘마’, ‘아빠’ 와 같은 단어들이다. 맘마라고 부르면 엄마가 우유를 주고, 엄마라고 부르면 엄마가 따뜻한 눈길을 주고 사랑으로 안아준다. 이처럼 아기가 언어를 배우는 과정에서는 아기가 주변 환경과 교류하면서 보상을 얻는 과정에서 말을 배운다. 우리처럼 문법을 통해서 배우지 않는다.

또한 아기가 걸음마를 배우는 과정도 비슷하다. 걷고, 넘어지고 다치면서, 시행착오를 거치면서 아장 아장 걷기를 배운다. 이때 환경은 거실 마루이고, 보상은 걷는 기쁨과 엄마의 웃음이다. 이처럼 주변환경 속에서 행동하고 보상 받으면서, 그 결과 최선의 결정과 행동을 하면서 학습하는 방법을 ‘강화학습’ 인공지능이라고 한다. 그래서 강화학습은 인간이 본능적으로 배우는 학습 방법이다.

아기가 옹알이를 하며 말을 배우고 있다. [출처: tistory]


시행착오 통한 강화학습, 로봇과 게임에도 적용 가능

강화학습에서는 주변 환경(Environment)이 있고 그 상태(State)를 벡터로 표현한다. 다양한 시도(Action)와 보상(Reward)를 얻으면서 스토리(Episode)를 만들고, 그 결과로 환경을 파악해 간다. 이렇게 시행착오를 거쳐서 학습하게 된다. 그리고 최적의 정책(Policy)을 찾아간다.

생쥐의 미로 찾기 게임이 강화학습의 좋은 한 예가 된다. 이 때 미로의 구조가 환경이 되고, 최종적으로 치즈를 먹게 되면 보상을 얻게 된다. 그렇지만 최단 시간 내에 찾아야 하는 조건이 붙게 된다. 이처럼 각 상태에 따라 미래를 정할 수 있고, 과거는 묻지 않는 조건을 강화학습에서는 마르코프(Markov) 조건이라고 한다. 강화학습을 적용하려면 마크코프 조건을 만족해야 한다. 과거는 묻지 않고, 현재 상태로만 그의 미래를 점치는 조건이다. 과거까지 따지면 너무 복잡해서 보상을 예측하기 어렵기 때문이다.

강화학습은 로봇의 걷기 제어에도 적용될 수 있다. 로봇이 넘어지고 걷기를 반복하면서 인간에게 가까운 최적의 보행 제어를 이러한 강화 학습 방법으로 찾을 수 있다. 마찬가지로 이러한 학습은 드론의 조종, 헬리콥터 조종, 항공기의 조종 제어에 사용할 수 있다. 더 나아가 자율주행 자동차의 자동 운전에 강화학습이 사용되어 주어진 조건(State) 에서 최적의 자율 운전을 할 수 있다. 이때 최종적으로 주어지는 보상이 연료비의 절약이나 사고율 저하, 안전성 향상 등이 될 수 있다.

이때 시행착오의 과정은 시간과 비용이 든다. 자동차를 부수기에는 비용이 비싸다. 경우에 따라 시행과 보상을 컴퓨터 시뮬레이션으로 대신 하기도 한다.

강화학습은 게임에 적용되기도 한다. 블록깨기(Atari Breakout)게임을 강화학습으로 하는 경우 금방 최적의 조건을 찾는 것을 볼 수 있었다. 돌이 블록 뒤로 들어가면 여러 번의 반사과정을 반복하면서 저절로 대부분의 블록이 격파되고 점수가 올라간다.

그래서 강화학습을 수행한 컴퓨터와의 인간과의 게임이 이제 더 이상 상대가 되지 않는다. 인공지능은 이런 경우뿐만 아니라 주식투자, 재고관리, 웹사이트의 광고 배치, 상품추천 등 다양한 분야에서 중요한 결정을 인간을 대신해서 할 수 있다. 인간처럼 이 때 보상은 경영상 이익이 된다. 컴퓨터는 졸거나, 피곤해 하거나, 술을 마시지도 불평하지도 않는다. 강화 학습으로 훈련한 보상 체계만 따를 뿐이다.

생쥐 미로게임에서 다양한 시도를 통해 치즈를 얻는 길을 찾는 인공지능 강화학습의 내부 구조, [출처: KAIST]
강화학습 인공지능으로 무장한 컴퓨터의 블록깨기(Atari Breakout) 게임, [출처:Ecosia]


강화학습은 인공지능의 '무기' 

이와 같이 강화학습은 데이터와 정답 없이 스스로 학습이 가능한 인공지능 알고리즘이다. 공부로 치면 자율학습 공부 방법이다. 인공지능이 데이터를 이용해서 학습하기 위해서는 데이터를 모으는 작업에서 많은 비용을 지불 해야 한다. 데이터 수거 장치, 전송 장치, 저장 장치에 투자해야 한다. 5G 무선 통신도 투자 비용이 크다. 그러면서도 데이터를 모으려면 개인의 허락을 받아야 하고, 개인 정보 보호 문제도 극복해야 한다. 그렇지만 강화학습은 데이터 없이 학습한다. 인공지능이 점점 강력해지는 또 다른 이유이기도 하다. 

 

joungho@kaist.ac.kr

[김정호 카이스트 전기 및 전자공학과 교수]

[뉴스핌 베스트 기사]

사진
일라이 릴리, 먹는 비만 약 임상 성공적 [서울=뉴스핌] 고인원 기자= 주사 없이 하루 한 알로 체중을 감량할 수 있는 비만 치료제가 현실로 다가오고 있다. 미국 제약사 일라이 릴리는 17일(현지시간) 현재 회사가 개발 중인 경구용 GLP-1 작용제 '오포글리프론'의 임상 3상 시험에서 체중 감량과 혈당 조절 두 마리 토끼를 모두 잡는 데 성공했다고 밝혔다. 이번 임상은 제2형 당뇨병 환자를 대상으로 40주간 진행됐다. 최대 용량을 복용한 환자들은 평균 체중의 7.9%(약 7.3kg)를 감량했으며, 시험 종료 시점에도 체중 감량이 멈추지 않아 체중 감량 정체기에 도달하지 않은 것으로 확인됐다. 일라이 릴리는 "이번 결과는 주사제에 버금가는 수준이며, 안전성과 내약성 또한 긍정적으로 평가됐다"고 설명했다. 일라이 릴리 로고 [자료=로이터] 다만, 당뇨병 치료의 핵심 지표인 혈당 조절 효과(A1c)는 1.3~1.6%포인트 개선에 그쳐, 일부 애널리스트들이 기대한 1.8~2.1% 수준에는 못 미쳤다. 하지만 위약군이 0.1% 감소에 그친 점을 고려하면 의미 있는 개선이라는 평가다. 부작용은 대부분 경미하거나 중간 정도의 위장 장애였으며, 최대 8%의 환자만이 부작용으로 치료를 중단했다. 업계에서는 하루 한 번 복용하는 특성상 주사제보다 부작용이 클 것이라는 우려가 있었지만, 실제 데이터는 이를 크게 웃돌지 않았다. 오포글리프론은 기존 주사제인 오젬픽(Ozempic), 위고비(Wegovy) 등과 달리 펩타이드가 아닌 비펩타이드 경구 약물로, 체내 흡수가 더 용이하고 식이 제한이 필요 없는 것이 강점이다. 또한 제조 공정이 간단하고 대량 생산이 가능해 글로벌 수요 대응에도 유리하다는 평가다. 일라이 릴리는 올해 말 비만 치료제로 먼저 허가 신청을 할 계획이며, 당뇨 치료제는 2026년 허가를 목표로 하고 있다. 현재 진행 중인 임상은 총 7건(당뇨병 5건, 비만 2건)으로, 경쟁사인 아스트라제네카와 로슈, 바이킹 테라퓨틱스보다 최소 3년 이상 앞선 상황이다. 전문가들은 GLP-1 계열 비만 치료제 시장이 2030년대 초 1500억 달러(약 200조 원) 규모로 성장할 것으로 보고 있으며, 이 중 경구형 약물만 500억 달러 이상을 차지할 것으로 내다본다. 글로벌 공급난 해소와 주사제 대체 가능성을 모두 갖춘 오포글리프론이 상용화될 경우, 일라이 릴리가 시장 주도권을 확고히 할 것이라는 전망도 나온다. 이 같은 보도 내용에 이날 뉴욕 증시 오전 거래에서 일라이 릴리(LLY)의 주가는 16% 넘게 급등하고 있다. koinwon@newspim.com 2025-04-17 22:56
사진
이재명 "국회·대통령실, 세종 이전 추진" [서울=뉴스핌] 윤채영 기자 = 이재명 더불어민주당 6·3 대통령선거 예비후보는 17일 "세종을 행정수도의 중심으로 완성하겠다"며 국회의사당과 대통령 집무실을 세종으로 완전 이전하겠다고 약속했다. 이 대표는 이날 자신의 페이스북에 "국회 세종의사당과 대통령 세종 집무실을 임기 내 건립하겠다"며 "국회 본원과 대통령 집무실의 세종시 완전 이전도 사회적 합의를 거쳐 추진하겠다"고 공약했다. [서울=뉴스핌] 정일구 기자 = 이재명 더불어민주당 대선 경선 후보. 2025.04.16 mironj19@newspim.com 이 예비후보는 이날 충청 지역 공약 로드맵을 제시했다. 세종은 행정수도로, 대전은 세계적 과학 수도로 만들겠다고 했다. 대전에 대해서는 "대덕연구특구를 글로벌 과학기술 혁신클러스터로 전환하겠다"며 "글로벌 융합연구 네트워크를 강화하고, 인재 양성 인프라 확충을 지원하겠다"고 했다. 이 예비후보는 대전연구특구를 "AI와 우주산업 중심지로 키우겠다"며 "'스마트시티 국가시범도시' 전략과 연계해 세종을 스마트·디지털 행정 허브로 만들겠다"고 약속했다. 또 삭감된 R&D 예산은 대폭 늘리겠다고 했다. 충청권에는 대전(AI·우주산업)~세종(스마트행정)~충북(바이오·반도체·이차전지)~충남(디스플레이)를 잇는 첨단산업벨트 구축을 약속했다. 이 예비후보는 "보령‧태안‧당진에 있던 석탄화력발전소 폐쇄 지역을 태양광·풍력·그린수소 등 재생에너지 중심지로 전환하는 지역 지원 특별법을 추진하겠다"며 "논산, 계룡에 국방 관련 기관을 유치해 스마트 국방산업 발전을 지원하겠다"고 강조했다. 이 예비후보는 "충북 내륙은 휴양·힐링 관광벨트로 발전시키겠다"며 ▲청주~증평~진천~음성까지 이어지는 관광·휴양지 조성을 지원 ▲충주호와 단양8경은 호반 관광·휴양벨트로 연결하고, 소백산~속리산~장령산~민주지산을 잇는 백두대간 탐방벨트 조성 지원을 약속했다. 아울러 "청주공항을 확장하고, 사통팔달 광역 교통망을 구축하겠다"며 ▲청주국제공항에 민간전용 활주로 신설 ▲충남 서산~천안~청주~경북 울진을 잇는 중부권 동서횡단철도 조기 확정 등을 약속했다. [서울=뉴스핌] 국회사진취재단 = 이재명 더불어민주당 대선 예비후보. 2025.04.14 photo@newspim.com 다음은 이 예비후보가 페이스북에 올린 충청 지역 공약 전문이다. <이재명 경선후보 페이스북 게시용 충청 지역공약> "대한민국 균형발전의 심장, 충청을 행정‧과학 수도로 만들겠습니다" 충청은 국토의 중심이자 대한민국의 심장입니다.수도권과 남부권을 잇는 전략적 요충지입니다.충청의 심장이 힘차게 뛰어야, 대한민국 경제의 혈맥이 살아납니다. 수도권 집중으로 지역은 소외되고, 기회는 편중됐습니다.국가가 나서야 합니다. 균형발전은 선택이 아닌 생존의 문제입니다.충청에 맞는 산업을 배치하고, 과감한 투자로 새로운 미래를 만들어야 합니다.저 이재명, 진짜 균형발전에 앞장서겠습니다. 충청을 '행정·과학 수도'로 조성해,대한민국 균형발전의 중심축으로 삼겠습니다. 세종은 명실상부한 행정수도로, 대전은 세계적 과학수도로 만들겠습니다.충북은 미래산업의 중심지로, 충남은 환황해권의 거점으로 완성하겠습니다. 첫째, 세종을 행정수도의 중심으로 완성하고 제2차 공공기관 이전을 조속히 추진하겠습니다. 국회 세종의사당과 대통령 세종 집무실을 임기 내 건립하겠습니다.국회 본원과 대통령 집무실의 세종시 완전 이전도 사회적 합의를 거쳐 추진하겠습니다.중단(2019년)된 공공기관 이전을 조속히 재개하겠습니다. '무늬만 혁신도시'가 아닌 실질적 기능을 갖추겠습니다.대전과 충남 혁신도시에는 지역 경쟁력을 고려한 공공기관을 유치하겠습니다.충북혁신도시는 중부내륙 성장거점으로 키우겠습니다. 둘째, 대전을 한 차원 높은 과학 수도로 만들겠습니다. 대덕연구특구를 글로벌 과학기술 혁신클러스터로 전환하겠습니다.글로벌 융합연구 네트워크를 강화하고, 인재 양성 인프라 확충을 지원하겠습니다. 삭감된 R&D 예산은 대폭 늘리고, 연구자와 기술자 정주 여건도 개선하겠습니다.성과 지원을 두텁게 해 무너진 연구 생태계를 다시 일으키겠습니다. 셋째, 충청권에 첨단산업벨트를 구축하겠습니다. 대전(AI·우주산업)~세종(스마트행정)~충북(바이오‧반도체‧이차전지)~충남(디스플레이)을 잇는 유기적인 첨단산업벨트를 구축하겠습니다. 대전 대덕연구특구는 AI와 우주산업 중심지로 키우겠습니다.'스마트시티 국가시범도시' 전략과 연계해세종을 스마트‧디지털 행정 허브로 자리매김하겠습니다. 충북은 K-바이오스퀘어를 조기 조성해글로벌 바이오산업 클러스터로 육성하겠습니다.이차전지‧반도체사업 분야는 R&D와 인력 양성 인프라를 강화해초격차 경쟁력 확보를 지원하겠습니다. 충남은 국제 경쟁력과 생산성을 갖춘,미래형 디스플레이 산업 메카로 만들겠습니다.국산화 기술개발을 지원하고, 핵심 소재‧부품기업을 육성하겠습니다.혁신공정 플랫폼 등 인프라도 갖춰차세대 디스플레이 기술 확보를 지원하겠습니다. 보령‧태안‧당진에 있던 석탄화력발전소 폐쇄 지역을태양광‧풍력‧그린수소 등 재생에너지 중심지로 전환하는지역 지원 특별법을 추진하겠습니다.논산, 계룡에 국방 관련 기관을 유치해 스마트 국방산업 발전을 지원하겠습니다. 넷째, 환황해권 해양관광벨트와 충북 휴양‧힐링 관광벨트를 조성하겠습니다. 서해안 해양 생태를 복원하고, 가로림만 해양정원 조성을 지원하겠습니다.해상교량 건설로 서해안 관광도로망을 완성하겠습니다.서천 브라운필드는 재자연화를 거쳐 생태관광 명소로 탈바꿈시키겠습니다. 서산 부남호와 간월호는 해수 유통 등 역간척 사업으로 생태계를 복원하고, 해양신도시 개발도 함께 지원하겠습니다.금강 하구에 해수를 들여 자연성을 회복할 수 있도록입법과 제도개선으로 뒷받침하겠습니다. 충북 내륙은 휴양·힐링 관광벨트로 발전시키겠습니다.도민의 뜻을 모아 미호강 수질을 개선하고, 청주 ~ 증평 ~ 진천 ~ 음성까지 이어지는 관광·휴양지 조성을 지원하겠습니다.충주호와 단양8경은 호반 관광 ‧ 휴양벨트로 연결하고, 소백산~속리산~장령산~민주지산을 잇는 백두대간 탐방벨트 조성도 지원하겠습니다. 다섯째, 청주공항을 확장하고, 사통팔달 광역 교통망을 구축하겠습니다. 청주국제공항에 민간전용 활주로를 신설해, 중부권 거점공항이 되도록 지원하겠습니다.충남 서산~천안~청주~경북 울진을 잇는중부권 동서횡단철도는 조기에 확정하겠습니다.충북선‧호남선 고속화를 서둘러 X자형 강호축 철도망을 완성하겠습니다. 대전~세종~오송~청주공항을 연결하는충청권 광역급행철도(CTX)는 적기에 착공하고,GTX의 천안‧아산 연장도 신속히 추진하겠습니다. 잠실 또는 동탄에서 청주공항까지 이어지는수도권내륙 광역철도도 빠르게 추진하겠습니다. 우선 사업 대상지로 선정된 대전조차장 부지를 시작으로,대전 도심 철도 지하화를 단계적으로 추진하겠습니다.서해대교 인근 교통정체 해소를 위해 제2 서해대교 건설을 적극 검토하겠습니다. 존경하는 충청권 시민, 도민 여러분!저는 늘 현장에 답이 있다는 신념으로 '가능성'을 '현실'로 만들어 왔습니다.자부심 넘치고 행복한 도시 충청을 만들겠습니다. 4개 시도가 하나 되어 통합경제권을 만들고 함께 성장할 수 있도록 적극 지원하겠습니다.충청이 살면 대한민국이 살 것입니다. 이제부터 진짜 대한민국, 지금은 이재명입니다. 감사합니다. ycy1486@newspim.com 2025-04-17 09:55
안다쇼핑
Top으로 이동