- 데이터 프로파일링 및 상호운용 자동화 기술로 데이터 허브 구축 가속화
국내 연구진이 서로 다른 분야의 데이터 특성과 형식을 자세하게 표현하는 데이터 프로파일링 기술과 언제, 어디서나 정확한 데이터를 찾는 데이터 허브 상호운용 자동화 기술을 개발하여 자율·협업형 데이터 허브 구축의 길을 열었다.
▲자율 협업형 데이터 허브기술을 개발한 ETRI 연구진(좌측부터 원희선 사이버브레인연구실장, 김민준 연구원, 손시운 박사, 김성환 박사)
국내 연구진이 서로 다른 분야의 데이터 특성과 형식을 자세하게 표현하는 기술과 언제, 어디서나 정확한 데이터를 찾는 기술을 개발했다. 이로써 향후 자율·협업형 데이터 허브 구축이 가능하게 되는 길을 열었다.
한국전자통신연구원(ETRI)은 데이터 프로파일링 기술과 데이터 허브 상호운용 자동화 기술을 개발했다고 밝혔다. 연구진은 21일, 경기도 성남시 분당구 경기창조경제혁신센터 기가홀에서 개발한 기술 시연회를 개최했다.
ETRI는 이날 시연회가 『자율·협업형 데이터 허브기술』을 바탕으로 개최됐다고 밝혔다. AI기반으로 구직자의 맞춤형 일자리와 역량향상 교육을 추천하고, 일자리를 찾는 구직자들에게 큰 호응을 얻었다.
이번에는 구직과 교육이 주요 대상이지만, 연구진은 향후 의료 및 공공 등 다양한 분야로 확장할 수 있다고 설명했다.
연구진은 이번 기술시연회를 통해 ▲데이터 거버넌스의 개념 ▲데이터 허브 생태계 구축 ▲데이터 프로파일 ▲분산 데이터 파이프라인 등도 함께 설명하는 자리를 가졌다. 이후에는 시범서비스의 시연과 기술사업화 컨설팅 시간이 마련됐다.
ETRI 연구진이 개발한 데이터 프로파일링 기술과 데이터 허브 상호운용 자동화 기술은 국내에서 최초로 국제 컨소시엄에서 개발한 웹 표준을 기반으로 한 자율·협업형 데이터 허브기술이다.
세부 기술로는 ▲데이터 허브 협업을 지원하는 개방형 데이터 거버넌스 플랫폼 기술 ▲데이터 카탈로그 교환 및 데이터 변화 동기화 기술 ▲하이퍼 메타데이터 기반 데이터 프로파일링 기술 등이 있다.
특히, 이번 기술시연회에서 선보인 일자리 정보 실시간 동기화 기반, 구직자 맞춤형 일자리 추천 서비스를 일자리 사이트에 적용한 결과, 구인․구직 매칭률이 크게 상승했다. 그동안 일자리 사이트에는 △데이터 형식 및 구조 불일치 △접근성 및 UI/UX 차이 △불필요한 데이터 중복 △너무 많은 웹사이트 존재 등의 장애물로 인해 장애인 구인․구직에 애로가 있었다.
ETRI 연구진은 각 분야에서 만든 데이터 형식과 정보가 제각각인 이유로 데이터 수집, 처리, 활용 시 반복적으로 발생하는 작업과 문제들을 해결하기 위해 본 연구를 수행했다고 밝혔다.
연구진은 기존 기업별 데이터 관리 방식에서 벗어나 데이터가 공유되고 융합되는 개방형 데이터 생태계를 위해 하이퍼 메타데이터를 관리하는 데이터 거버넌스 플랫폼을 구축했다.
하이퍼 메타데이터는 메타데이터를 설명하는 메타데이터, 즉 데이터에 대한 정보를 설명하는 정보이다. 데이터 종류와 양이 폭발적으로 증가함에 따라 데이터에 대한 고정된 메타데이터만으로는 데이터를 정확히 파악하고 활용하기에 어려움이 있었다.
ETRI가 개발한 자율·협업형 데이터 허브는 거버넌스 플랫폼을 중심으로 데이터 협업 생태계를 구성한다. 하이퍼 메타데이터를 기반으로 데이터 구조, 형식, 특성, 데이터 간 관계 등 다양한 정보를 동적으로 구성한 데이터 프로파일을 교환함으로써 데이터 관리를 자동화할 수 있다.
하이퍼 메타데이터 기반 데이터 프로파일링 기술은 웹 표준을 리딩하는 국제 컨소시엄 W3C에서 제정한 기술을 기반으로 구현된 세계 최초의 기술이다.
아울러, 자율·협업형 데이터 허브 간에는 협의를 통해 데이터 카탈로그를 교환하고 데이터의 변화된 정보를 서로에게 즉시 알려주는 상호운용 기술이 구현되어 있다. 이 기술이 확산되면 국내·외 어디서나 최신 정보를 정확하게 검색할 수 있고 활용성을 높일 수 있다.
데이터 허브 간 상호운용 세션 관리 기술은 한국정보통신기술협회(TTA)에서 국내 표준으로 제정되었다. 현재 국제표준단체 국제전기통신연합(ITU) SG13에서 국제 표준화를 추진 중이다. 또한 관련 SW는 일반에 공개할 계획이다.
ETRI 원희선 사이버브레인연구실장은 “기술 실증을 위해 여러 일자리 사이트 간에 채용 정보를 수집, 공유하고 변동이 생기는 즉시 반영해 사회적 약자를 대상으로 최적의 일자리를 추천하는 서비스를 개발했다”고 말했다.
ETRI는 이번 행사를 통해 수요 기업 및 기관과의 협력을 강화하고, 다양한 분야에 기술 확산을 추진할 계획이다. 헬스케어 및 제조 분야에 기술이전도 추진해 오는 2026년경 상용화한다는 방침이다.
본 연구는 과학기술정보통신부와 정보통신기획평가원이 지원하는 SW컴퓨팅산업원천기술개발사업의 일환으로 과제명“고품질 데이터셋의 적시·적소 활용을 지원하는 데이터옵스 프레임워크 기술개발 ”을 통해 개발되었으며 디토닉㈜, 고려대학교가 참여했다.
용어설명 1) 데이터 프로파일링 기술 : 데이터의 구조, 내용, 관계, 품질 등의 다양한 정보를 추출하여 데이터 통합, 품질 개선, 활용 과정의 자동화에 활용할 수 있도록 기계가 해석할 수 있는 메타데이터로 생성하는 기술 2) 데이터 허브 : 다양한 데이터 소스에서 데이터를 수집하고, 데이터의 통합, 검색, 활용 등의 상호운용성을 위해 데이터의 구조, 유형, 품질, 보안규정 등 다양한 메타데이터 정보를 체계적으로 관리하는 플랫폼 3) 자율·협업형 데이터 허브 기술 : 관심 분야의 데이터 허브들을 탐색하여 협업 관계를 구축하고 자율적으로 데이터 카탈로그를 교환하고 데이터 변화를 공유하는 상호운용 자동화 기술 및 데이터 프로파일링 기술이 구현된 데이터 허브. 개방형 데이터 거버넌스 플랫폼은 데이터 허브 협업 생태계 관리와 데이터 프로파일링을 위한 거버넌스 요소들 (사전, 프로파일 명세, 식별체계, 분야별 분류체계 등)의 관리와 확장을 지원함 4) 분산 데이터 파이프라인 : 데이터 허브들 간에 가용 컴퓨팅 자원 및 데이터 정보를 공유하는 협업 환경에서 데이터 파이프라인의 각 단계를 최적의 데이터 허브에 분산 배치하고 병렬 처리를 통해 결과를 산출하는 파이프라인 6) 메타데이터 : 데이터를 설명하고 관리하기 위해 제공되는 데이터에 대한 데이터 7) W3C(World Wide Web Consortium) : 웹 표준 기술 개발을 선도하는 국제 컨소시엄. 특히 데이터 교환 워킹 그룹에서는 다양한 시스템 간의 데이터 상호운용성을 높이기 위한 데이터 카탈로그 어휘(Data Catalog Vocabulary), The Profiles Vocabulary 등을 개발함 8) 기술기반 : DCAT V3(https://www.w3.org/TR/vocab-dcat-3/)와 Profile Vocabulary(https://www.w3.org/TR/dx-prof/)
▲데이터 거버넌스 플랫폼 기반 자율·협업형 데이터 허브 운영 개념도
▲채용공고 사이트 간 실시간 동기화 기반 구직자 추천 서비스
<저작권자 ⓒ 대한건설경제 무단전재 및 재배포 금지>
댓글
|
많이 본 기사
|