- 과기정통부, 과학기술 논문·보고서를 텍스트화해서 연구자들에게 제공

- 연구자들 검색활용도 높이고 AI 기계학습 분야 전문인력 양성 효과 기대

425만건 과학기술 기계학습 데이터 구축…비대면 일자리 2000개 만든다

[헤럴드경제=구본혁 기자] 기존 PDF 형태의 과학기술 논문‧보고서를 텍스트로 변환해 연구자들의 이용 편의성이 한층 높아질 전망이다.

과학기술정보통신부는 인공지능(AI) 기반 디지털 뉴딜사업의 일환으로 한국과학기술정보연구원(KISTI)이 축적해 온 과학기술 논문 등을 대상으로 대규모 과학기술 기계학습 데이터 구축사업을 시작한다고 24일 밝혔다.

이 사업은 재택근무를 통해 비대면으로 진행되며, 만 19세에서 34세 이하의 청년층을 대상으로 이달 25일부터 내달 10일까지 1차 모집해 12월까지 시행될 예정이다.

과학기술 기계학습 데이터 구축 사업은 코로나 이후, 경제 상황에 대비한 대규모 공공인프라 구축 사업으로, 2000개의 비대면 일자리 창출을 목표로 한다.

청년층 또는 취업취약계층을 우선적으로 선발하고, 직무교육을 통해 인공지능(AI) 디지털 역량과 기계학습 데이터 구축 기술을 습득한 인력으로 육성한다.

대규모 과학기술 공공데이터를 구축하게 되면 KISTI의 ScienceON(과학기술 지식인프라 연계 융합서비스)에서 인공지능(AI) 서비스운영을 통해 수요자에게 제공된다.

국내논문과 국가R&D보고서 원문을 대상으로 과학기술분야 기계학습 데이터 5종을 구축, 최대 425만여 건의 과학기술 기계학습 데이터가 사업물량이다.

데이터 구축은 온라인 시스템을 활용하여 비대면으로 진행, 데이터 품질 부실화를 방지하기 위해 크라우드소싱 기반 검증 방식을 적용한다.

크라우드소싱은 대중과 아웃소싱이라는 두 단어의 합성어로, 일반 대중에게 참여를 유도하여 상품 및 서비스의 개발 과정에 지식 및 의견을 반영해 결과물을 이끌어 내는 방식이다. 이번 사업에서는 크라우드소싱 기반으로 비대면 재택근무자의 집단지성을 활용해 인공지능 기술 개발을 위한 기계학습 데이터 구축 결과물을 이끌어낸다. 또한 구축 데이터의 품질 제고를 위하여 멀티레벨 리뷰(Multilevel review)방식을 사용할 예정이다. 멀티레벨 리뷰는 재택근무자 중 데이터 구축 구성원이 1차적으로 기계학습 데이터를 구축하면 검수 구성원이 2차, 3차에 걸쳐 구축 지침서에 의해 잘 구축되었는지 검수하는 방법이다.

이번 사업을 통해 교육 받은 인력들은 앞으로도 과학기술분야 기계학습 데이터 레이블링 전문 인력으로 양성하여 지속적인 기계학습 데이터 구축 역량을 계발할 수 있도록 하여 데이터 산업 수요에 부응할 전망이다.

과학기술분야 기계학습 데이터가 구축·개방 되면, 과학기술분야 지식자원의 지능적 연계 및 융합연구 지원과 중소기업 기술혁신을 위한 의사결정 및 비즈니스 활용이 가능해질 것으로 예상된다.

권석민 과기정통부 과학기술일자리혁신관은 “이번 기계학습을 위한 데이터 구축은 학술정보에 대한 접근성을 향상시켜 4차 산업혁명 시대의 근간인 데이터(Data)·네트워크(Network)·인공지능(AI)을 위한 데이터댐 건설에 주춧돌이 될 것”이라고 밝혔다.