AWS Summit Seoul 2025 (온라인) 후기(6)
세션: 대한항공의 AI 대전환: Amazon Bedrock 기반 AI 컨택센터 지식 검색 챗봇 구축 사례
태그: 중급자용 - 레벨 200, 생성형 ai, ai/ml, industry day 트랙
음 대한항공이군.
사실 챗봇에는 크게 관심이 없는데 딜리버리 컨설턴트라는 발표자 직업이 흥미로워서 골랐다.
AI 환경을 현대화하고 클라우드화 하는게 메인 목표였다고... 합니다.
pdf 데이터 클렌징 부분이 흥미롭다. 데이터 파일에 표나 그림 같은 다양한 형태의 데이터가 있다보니 AI가 그냥 읽어내서 답변하기에 문제가 있어서, 프롬프트 최적화를 통해 1차적으로 pdf의 정보를 읽어와 데이터를 구성하고 사람이 검수했다고 한다. 근데 이건 그냥 처음부터 사람한테 맡기는 게 낫지 않나? 요새 생성형 AI 발달로 AI로 1차 작업을 하고 사람에게 검수를 맡기는 식의 작업이 여러 분야에서 목격되는데 정작 각 분야의 실무자들은 검수에 품이 더 든다고 차라리 처음부터 사람을 쓰는 게 낫다고 말하는 걸 보았다. AI가 활용하기 쉽게 pdf 데이터에서 html 데이터를 읽어내고 그걸 python으로 정리했다는 것 같은데, 크롤링은 해본 적이 있어서 자료가 많을 때 자동화하면 정말 쉽다는 건 아는데 그게 실질적으로 사람의 노고를 줄였는가 하는 부분은... 어떻게 평가했는지 궁금하다.
챗봇 AI 알고리즘을 말하면서 가장 먼저 정확도 평가 체계에 대해 말하고 있다. 확실히 AI를 사용하는 작업에 있어서 중요한 포인트는 어떤 기준으로 할 것인가라는 부분을 알 수 있다. 사실 머신러닝이 기본적으로 평가가 중요한 기술이긴 하다. 정답이 있는 데이터로 훈련하는 모델의 경우 훈련하는 데이터 셋이 있고 테스트하는 데이터 셋이 따로 있기 때문인데, 훈련한 데이터 셋 안에서 테스트를 진행하면서 모델을 평가하면 해당 데이터 셋에 편향적으로 (용어는 정확하지 않다. 기억이 가물가물한 이슈로...) 과학습 될 수 있기 때문이다. 그래서 테스트 데이터 셋을 따로 두고 모델을 평가해야 한다.
사실, 다른 기술을 적용할 때도 이 기술이 잘 적용되었는지 확인하기 위한 평가 기준이 명확해야 한다. 각 기준이 명확하고 그 평가 결과가 각 항목이 분명하여 어떻게 결론을 내려야 하는지를 자연스럽게 도출할 수 있어야 한다. 인공지능에서도 마찬가지인 것이다. 인공지능이 발달하면서 인간은 인공지능에게 '잘 질문하는' 법과 인공지능의 대답을 '잘 검증하는' 법을 시험받고 있다. 이렇게 볼 때마다 인공지능은 결국 일정 이상의 경험을 가진 전문가들이 가장 잘 쓰는 도구라는 것을 실감하게 된다.
몸이 피곤해서 집중이 안 된다. 듣는 둥 마는 둥 했네...
예전에 배운 이론과 전에 인공지능을 활용한 프로젝트를 진행하면서 느낀 개인적인 감상이 섞였는데, 이걸 정보성 글로 읽는 사람은 없을 테니까 마음 놓고 썼다. 제대로 된 출처도 없는 글을 무작정 신뢰하는 분이 없길 바라며, 이 세션은 다음에 생각나면 한 번 더 봐야할 것 같다. 다른 생각하면서 들어서 기억에 하나도 안 남았어... 다음에는 Bedrock을 어떻게 활용하는지에 좀 더 집중해서 들어봐야 할 것 같다. 들리기로는 Lambda만 잔뜩 들렸는데 과연.