전체메뉴

검색
팝업창 닫기
이메일보내기

"오래된 한컴 문서, AI 데이터 활용 문제없어요"

기본 포맷 HWP에서 'HWPX'로 전환

정부, MS 형식처럼 동일한 활용성 인정





한글과컴퓨터(030520)(한컴)의 한컴오피스 한글 문서가 인공지능(AI) 시대에 들어서도 유용한 데이터로 활용되고 있다. 한컴이 14년 전부터 문서 호환성과 데이터 활용성을 높이기 위해 한글의 기본 포맷을 'HWP'에서 'HWPX'로 전환하는 기술적 노력을 진행해온 덕분이다.

한컴은 한글의 기본 저장 문서 형식을 HWPX로 전환해 AI 문서 데이터로서의 활용성을 높여나가고 있다고 5일 밝혔다. 한컴은 2021년 4월부터 기본 저장 문서 형식을 HWP에서 HWPX로 전면 전환한 바 있다.

한글 문서의 '빅데이터'화를 위한 한컴의 준비는 오래전부터 체계적으로 진행됐다. 2011년에는 HWPX의 기반이 되는 'OWPML'을 국내 표준으로 등록하며 개방형 포맷 도입의 첫 발을 뗐다. 이후 지속적인 기술 개발과 표준 개정을 거친 끝에 2021년 4월 한컴오피스 한글의 기본 저장 방식을 HWPX로 전환을 마무리 했다.

HWPX와 HWP의 가장 큰 차이는 '기계 판독' 가능성이다. 한컴의 HWP나 마이크로소프트(MS)의 DOC 등 과거에 기본 문서 포맷은 사람이 읽고 이해하는 데 최적화돼 있다. 이에 AI가 문서 내 텍스트, 표, 이미지 등의 구조를 파악하고 데이터를 추출하는 데 어려움이 있었다.



HWPX와 DOCX는 이러한 한계를 극복한 개방형 포맷이다. 문서 내 다양한 콘텐츠를 데이터로 자유롭게 활용할 수 있도록 설계된 것이 특징이다. 2023년 정부가 주관한 ‘HWPX 데이터화 검증’에서 외부 전문가들은 HWPX 포맷이 MS의 DOCX와 마찬가지로 AI 학습용 데이터 추출에 문제가 없다는 결론을 내리기도 했다.

한컴은 기존 방대한 HWP 문서를 AI 데이터 자산으로 활용하기 위한 지원도 적극적으로 나서고 있다. 한컴은 한컴오피스에 HWPX 변환 도구를 기본으로 탑재했으며, 대규모 변환이 필요한 기관에는 기술 지원 서비스를 통해 대응했다. 실제로 대량의 법률안, 회의록 등 비정형 문서를 AI가 학습 가능한 형태로 전환하는 것이 주요 과제였던 '국회 빅데이터 플랫폼(AI 국회)' 구축 사업에서도 HWPX 문서가 문제 없이 활용됐다.

한컴 관계자는 "HWPX는 단순한 문서 포맷을 넘어 AI 시대 핵심 자산인 데이터를 담는 그릇"이라며 며"오랜 기간 축적해 온 기술력과 적극적인 기술 지원을 바탕으로 문서 데이터 활용 생태계를 넓히고, 국내 AI 기술 발전에 기여해 나가겠다"고 말했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널