삼성은 AI 추론 칩 '마하 1'을 어떻게 만들까? [강해령의 하이엔드 테크] <2편>
이전
다음
이재용 삼성전자 회장. 사진제공=삼성전자
양자화는 두꺼운 옷을 납작하게 만들어주는 압축팩 같은 것이라고 보시면 가장 쉽습니다. 사진제공=다이소
반올림(rounding)하거나 잘라내거나(clipping) 해서 실수가 특정 정수 범위 안으로 들어오게끔 퉁치자! 자료제공=엔비디아
FP32를 INT8로 양자화한 것을 나타낸 예. 사진자료=엔비디아
위 엔비디아 그림의 숫자들 중 한 세트를 빼서 챗GPT의 도움을 얻어 변환해봤습니다. 실수 3.75를 FP32로 나타내면 01000000011100000000000000000000인데, 이 숫자를 양자화를 위해 정수 134로 바꿔서 INT8 변환하면 10000110으로 압축됩니다. 자료출처=챗GPT
삼성전자와 네이버는 AI 연산 과정에서 정보의 중요도에 따라 가중치를 주는 파라미터인 Weights(연두색) 부분만 양자화해서 압축 알고리즘의 효과를 극대화할 것으로 예상됩니다. 사진출처=구
네이버가 발표한 논문에서 따온 PEQA. 4비트 이하로 양자화를 한 다음, 파라미터 꾸러미의 특정 열에 가중치를 더 주면서 양자화의 단점을 보완하는 콘셉트로 해석됩니다. 자료출처=네이버 클라우드 논문
삼성전자의 LPDDR5X D램. 마하 1을 보조하는 D램으로 전력 효율의 최전선에 설 것으로 보입니다. 사진제공=삼성전자.
혹시 삼성전자가…이왕 데이터 효율화 나선 김에 LPDDR D램 내부에도 프로세싱 장치를 넣은 ‘LPDDR-PIM’을 고려하고 있지는 않을까요. 자료출처=삼성전자 ISSCC 2024 자료.
삼성전자와 네이버가 개발 중인 마하 1 스펙. 자료출처=네이버