광고

대한건설경제

ETRI, 전문가 의사결정지원 AI 기술 개발로 법률 및 상담 분야 혁신 기대

최항서기자 | 기사입력 2024/11/20 [15:09]

ETRI, 전문가 의사결정지원 AI 기술 개발로 법률 및 상담 분야 혁신 기대

최항서기자 | 입력 : 2024/11/20 [15:09]

- 법률·상담 분야 전문가 지원 AI, 신뢰성과 정확성 높여

- 설명가능한 자기검증 기반 검색증강생성(RAG) 기술로 정확성과 신뢰성 확보

- AI자동화업체, AI컨택센터, 교육기관 등에 기술이전, 내년 상용화

 

ETRI가 전문가 의사결정지원 AI 기술을 개발하여 법률 및 상담 분야에서 정확하고 신뢰성 있는 자문과 상담 지원이 가능해졌다. 이 기술은 검색 근거와 정답의 적합성을 자기검증하며, 한국어에 최적화된 MoBERT와 MV-ColBERT를 활용해 빠르고 정확한 답변을 제공한다.

 

▲ETRI연구진이 전문분야 설명이 가능한 인공지능 기술 개발을 위해 검색 특화 연장 학습, 벡터 임베딩 색인 기술 등에 대해 논의하는 모습

 

국내 연구진이 전문분야 특정 지식에 대해 이해하기 쉽고 신뢰성 있게 설명을 제공하는 인공지능(AI) 기술을 개발했다. 이로써 법률과 상담 분야에서 전문가를 지원하는 AI 기술이 세상에 빛을 보게 되었다. 

 

한국전자통신연구원(ETRI)은“설명가능한 전문가 의사결정지원 인공지능 기술 개발”을 통해 법률이나 상담 분야에서 높은 수준의 전문가 자문과 상담 지원이 가능한 기술에 한층 더 가까이 다가서게 되었다고 밝혔다. 

 

ETRI가 개발한 기술은 설명가능한 자기검증 기반 검색증강생성(RAG) 기술이다. 검색 근거의 적합성 및 활용성, 정답의 적합성을 자기검증을 통해 정답과 함께 제시한다. 아울러 생성한 정답의 신뢰도 확보는 물론, 설명 가능성 제공 여부도 가능하다. 

 

본 기술은 법률자문의 보조 시스템, 각종 상담시스템, 지능형 고객지원 서비스, 기업의 지식 관리 시스템 등에 활용이 가능할 전망이다. 

 

▲ETRI연구진이 전문분야 설명가능한 인공지능을 위한 핵십 기술과 (검색증강생성(RAG) 등) 응용 기술 개발을 위한 목표에 대해 논의하고 있는 모습

 

연구진은 자체 개발한 한국어에 최적화된 토큰화 적용 언어 이해 모델(MoBERT)을 기반으로 검색에 특화한 연장학습과 효율적인 벡터 임베딩 색인 기술을 적용했다. 이를 통해 한국어 최고 수준의 뉴럴 단락 검색 기술(MV-ColBERT)을 개발해, 검색증강생성 기술에 적용했다.

 

따라서 ETRI는 본 기술이 기존 상용화된 인공지능 기반의 대화형 챗봇 등에 비해 특정 분야에서 훨씬 더 정확하고 신속한 답변이 가능하다고 설명했다. 기존 기술들이 웹상 포스팅한 내용이나 환각 현상 등으로 부정확했다면 ETRI 기술은 검색증강생성기술로 정확함을 자랑한다.

 

먼저, 법률자문 지원 AI 기술은 변호사나 법무사, 의뢰인이 법과 관련된 내용을 입력하면 관련 판례와 법률을 검색해 분석한 후 법률 행위를 추론해 준다. 또한, 복잡한 판례를 입력하면 일상 용어로 쉽게 해석하고 해석 결과가 사실인지 검증할 수 있게 해준다. 

 

ETRI는 본 기술이 인공지능 기반의 대화형 챗봇 등에 비해 법률 등 특정 분야에서 신뢰성을 높게 제공한다고 밝혔다. 특히, 사실성 검증을 통한 신뢰성 있는 정보를 사용자가 확인할 수 있어 법률 분야와 같이 정확한 정보가 필요한 도메인에서 강점을 보인다고 설명했다.

 

연구진은 생성모델이 만든 사람의 약력을 문장으로 분해한 후 검색증강생성 기술을 활용해 사실성을 판단하는 기술을 개발해 기술을 검증했다고 말했다. 이를 법률 분야로 확장해 법률자문 지원 기술에 적용했다. 사실성 검증 기술은 깃 허브에 공개했다.

 

아울러, 상담 업무 지원을 위해서 개발된 상담 지원 AI 기술은 고객과 진행한 상담 대화를 분류하고 이유도 설명할 수 있다. 상담 대화를 화자별, 고객 불만별 다양한 관점으로 구분해 요약 가능하다.

 

본 기술의 특징은 인공지능 기반의 대화형 챗봇처럼 여전히 기업의 민감한 내부 정보를 기반으로 기술개발하기 어려운데 반해, 효과적으로 기업에 특화된 서비스를 개발할 수 있다는 점이다.

 

고객 질문에 대해 관련 지식(단락)을 검색해 정답을 만들고 검색된 지식과 생성한 정답의 적합성을 자가 검증해 고객에게 제공한다. 본 기술은 다양한 금융 분야 상담 노하우를 가진 에프앤유신용정보㈜와 협력해 개발했다. 기술이전을 통한 사업화를 위해 개념증명(PoC)이 진행 중이다.

 

▲전문 분야 지식 기반 설명가능한 인공지능 기술

 

ETRI 언어지능연구실 권오욱 실장은“AI가 생성한 결과가 전문적인 내용일 경우에 이해도 어렵기에 사실인지 파악하는 것은 불가능한 현실이다. 설명가능한 의사결정지원 기술이 법률, 금융 등의 전문상담 분야에서 AI를 활용하는데 큰 도움이 될 것이다.”라고 말했다.

 

과제책임자인 언어지능연구실 배경만 박사는“현재 진행되고 있는 PoC를 성공적으로 마무리해 전문가 지원 AI 기술의 좋은 적용 사례를 만들어 다양한 전문 분야로 확산할 계획이다.”라고 설명했다. 

 

연구진은 빠르게 변화하고 있는 전 세계 생성형 인공지능 연구 동향에 맞춰 핵심 기술들을 고도화해 국내 기업에서 효과적으로 활용할 수 있는 사업화가 가능한 수준의 기술 개발을 지속해서 진행할 계획이다.

 

본 기술은 ETRI가 지난 10년동안 연구개발한 엑소브레인(ExoBrain)과제를 통해 질의응답 등 연구 데이터의 축적한 노하우가 있어 개발할 수 있었다고 연구진은 밝혔다.

개발된 언어 이해 모델과 뉴럴 단락 검색 기술은 향후 인공지능 관련 자동화 업체, AI 컨텍센터(CC), 교육 기관 등에 널리 활용될 것으로 보인다. 기술상용화는 내년경으로 전망하고 있다.

 

연구진은 각종 데이터가 충분하다면 투자, 금융, 교육 등 다양한 분야로의 적용도 쉽게 가능하다고 설명했다.

 

한편, 본 과제는 과학기술정보통신부와 정보통신기획평가원(IITP)에서 지원하는“사람중심 인공지능 핵심원천기술개발사업”일환으로 2022년부터 1단계 연구를 진행 중이다.

국내·외 논문 69편, 국내·외 특허출원 26건, 국제 표준화 기고서 채택 10건, 기술이전 등 성과를 달성, 국내 AI 경쟁력 향상에 기여했다는 평가다. 

 

< 용어설명 >

1) 검색증강생성(RAG, Retrieval-Augmented Generation) : 대규모 언어 모델(LLM)에서 입력에 대한 답변이나 텍스트를 생성하기 전에 외부의 신뢰할 수 있는 지식 베이스를 검색하고 참조하여 응답을 생성함으로써 응답의 신뢰성을 확보하는 방법

2) 토큰화 : 텍스트를 토큰(token)이라는 단위로 나누는 작업(tokenization). 언어모델에 문장을 입력하면, 문장이 그대로 입력되는 것이 아니라 언어모델이 이해할 수 있는 단위(토큰)로 분리되고 분리된 토큰 단위로 벡터가 결정됨. 한국어의 경우 의미를 가지는 가장 작은 단위인 형태소 단위로 분리(토큰화)되는 것이 좋음. 문장: [나는 학교에 간다], 토큰화: [“나”, “는”, “학교”, “에”, “간”. “다”]

3) 언어 이해 모델(MoBERT) :구글의 트랜스포머(Transformer)의 인코더(이해) 부분만을 이용해 언어를 학습한 모델. 문장의 빈칸 채우기(문장의 일부 단어를 mask로 바꾸고 원래 단어를 맞추는 일)와 다음 문장 예측(두 문장에 대해 두번째 문장이 첫번째 문장 바로 다음에 오는 문장인지 예측) 태스크로 언어(대용량의 텍스트에 포함되어있는 문맥 정보 등)를 학습.

4) 연장학습 : 사전학습된 언어 모델에 데이터를 추가로 학습시키는 것. 예를 들어, 영어로 학습된 모델에 한국어 데이터로 이어서 학습시키는 학습 방법. 사전학습에 사용되지 않은 새로운 데이터를 추가로 학습. 이때 연장학습은 사전학습때 사용된 동일한 태스크(예를 들어, 문장의 빈칸 채우기, 다음 문장 예측)로 학습

5) 벡터 임베딩 색인 기술 : 심복릭한 정보(여기서는 토큰)를 잘 표현하는 숫자로 된 벡터를 만드는 것이 토큰 임베딩(또는 워드 임베딩, 벡터화라도 부를 수도 있음). 이 벡터는 하나의 토큰이 아주 큰 대용량 텍스트 말뭉치에서 보여주는 다양한 문맥정보 등이 반영되어 수치화되어 있음. 벡터를 다차원 공간에 위치 시킬 때 비슷한 의미를 가진 토큰들은 가까이 위치할 수 있도록 벡터가 만들어짐. 벡터 임베딩 색인은 검색 대상인 텍스트(문서 또는 단락 등)를 벡터로 표현하고, 벡터간의 유사도(코사인, 내적 등)를 계산하여 검색할 수 있게 하는 기술

6) 뉴럴 단락 검색 기술(MV-ColBERT) : 검색을 위한 색인을 벡터 형태로 임베딩하여 진행한 검색 기술. 입력 질문과 검색할 지식(단락)을 벡터로 변환하여 유사도로 계산한 후 적절한 지식(단락)을 선택. 4)번의 벡터 임베딩을 얼마나 잘 학습하여 만들었는지가 성능에 영향 줌. ETRI는 자체 학습한 언어이해모델(MoBERT)를 벡터화에 사용. 2)번 설명 참고

7) 사실성 검증 기술 : 생성모델이 생성한 결과를 의미를 가지는 단위(문장)로 분리한 후 각 문장의 사실성을 판단하여 수치화하는 기술

8) 깃 허브에 공개 : https://github.com/ETRI-XAINLP/KorFactScore

 

 

  • 도배방지 이미지