nlp1 I-Bert 논문리뷰 용어정리 Quantization : 실수형 변수를 정수형 변수로 변환하는 과정. weight 나 activation fuction이 어느정도 범위안에 있다는 것을 가정하는 모델 경량화 방법 성능 RoBERTa-Base/Large를 사용한 GLUE downsteram task에서 I-BERT가 비슷한 성능을 보였으며, inference speedsms 2.4~4배 빨랐다 배경 컴퓨팅 자원의 한계나 real time inference, edge device를 위해서 경량화 할 필요가 있다. 방법 quantization이전의 방법들은 일부에서만 quantization한 fake → floating point를 지원하지 않는 기기에서는 사용 불가 linear 한 layer 에만 적용 가능해서 CNN, Batch.. 2022. 3. 19. 이전 1 다음