-38억 규모 국립국어원 ‘한국어-외국어 말뭉치 구축 사업’ 수주…10개 언어 595만 어절 구축
-동남아 저자원 언어 데이터 부족 해소 및 글로벌 AI 기술 격차 완화에 기여
플리토 38억 규모 국립국어원 한국어–외국어 말뭉치 구축 사업 수주 (자료 제공: 플리토)
인공지능(AI) 데이터 및 솔루션 전문 기업 플리토(대표 이정수, 300080)가 국립국어원이 주관하는 ‘2026년 한국어-외국어 말뭉치 구축 사업’의 수행 기업으로 선정되어 총 38억 원 규모의 사업을 수주했다고 13일 밝혔다.
‘한국어-외국어 말뭉치 구축 사업’은 AI 시대에 한국어 중심의 언어 데이터 주권을 확보하고, 통번역 및 음성인식 등 AI 언어 기술 개발을 지원하는 국립국어원의 대규모 데이터 구축 사업이다. 경희대학교 산학협력단이 주관하며 플리토는 공동 수행 업체로 참여한다.
플리토는 이번 사업에서 전체 545만 어절과 음성 50만 어절을 포함, 총 595만 어절의 병렬 말뭉치 구축을 담당한다. 기존 베트남어, 인도네시아어, 태국어, 힌디어, 크메르어, 타갈로그어, 러시아어, 우즈베크어, 영어 등 9개 언어에 신규 언어인 아랍어를 추가하여 총 10개 언어 데이터를 구축한다.
특히 올해는 AI 통번역 기술 개발을 위한 언어 자원으로 활용하기 위해 문장 단위를 문단 단위로 변환해 병렬 말뭉치를 구축한다. 또한 기존 9개 언어에 대한 STS(Speech to Speech) 기반 말뭉치도 함께 구축하여 AI 음성 인터페이스 성능 향상을 도모한다. 신규 언어·유형에 맞춘 평가 기준 및 도구 마련, 번역 플랫폼 개선 등 데이터 정제 및 검수 체계 고도화 연구도 병행한다.
플리토는 글로벌 시장에서 검증된 다년간의 데이터 정제 노하우를 바탕으로 국립국어원의 핵심 파트너로 자리매김했으며, 이번 연도에 구축할 데이터까지 포함하면 음성 포함 누적 구축 어절은 약 6,100만 개에 달할 예정이다.
구축한 데이터는 한국어와 동남아 지역 내 저자원 언어 데이터 부족 문제를 해소하고 국내외 AI 연구 및 기술 상용화에 활용된다. 이를 통해 글로벌 AI 기술 격차를 줄이고 문맥 이해와 추론 능력을 갖춘 차세대 번역 모델 개발 촉진에 기여할 것으로 기대된다.
이정수 플리토 대표는 “플리토의 언어 데이터 전문성과 검수 품질을 높이 평가받아 올해 국립국어원 말뭉치 구축 사업에 참여하게 되어 매우 기쁘다”며 “앞으로도 정부 및 연구기관과 협력해 고품질의 AI 언어 데이터를 지속적으로 공급함으로써 글로벌 시장에서 경쟁력 있는 데이터 중심 한국형 AI 모델 강국으로 자리매김하는 데 힘을 보태겠다”고 밝혔다.
The post 플리토, 국립국어원 ‘한국어-외국어 말뭉치 구축’ 38억 규모 수주…글로벌 AI 경쟁력 높인다 appeared first on 벤처스퀘어.