기존 지식 증류 기법(Knowledge Distillation)은 모든 토큰에 동일한 손실 함수를 적용했기 때문에 토큰별 예측 정확도를 미세하게 조정하기 어려웠습니다. 저희 중앙대 ICT 인력이 중앙대 연구실과 협력하여 비록 짧은 기간이지만 이 문제를 해결할 수 있는 새로운 기법을 찾아 실험을 통해 그 결과를 EMNLP2025 논문으로 게재하게 되었습니다.
본 논문에서는 FKL(Forward KL)과 RKL(Reverse KL)이라는 두 대표적인 기법의 강점을 분석했습니다.
FKL: 과소평가된 토큰의 예측을 향상시키는 데 효과적입니다.
RKL: 과대평가된 토큰의 예측을 억제하는 데 효과적입니다.
즉, 이 두 방식은 상호 보완적인 역할을 하지만, 동시에 적용하기는 어려웠습니다.
이러한 문제를 해결하고자, 저희는 **Token-wise Distillation (ToDi)**이라는 새로운 기술을 제안하게 되었습니다. ToDi는 기존 지식 증류(Knowledge Distillation) 방식의 한계를 극복하고, 작은 모델이 LLM의 방대한 지식을 더 효율적으로 학습할 수 있도록 돕습니다.
ToDi는 교사 모델과 학생 모델 간의 확률 비율(probability log-ratio)을 기반으로 시그모이드(sigmoid) 가중치 함수를 사용합니다. 이를 통해 각 토큰별로 FKL과 RKL을 유연하게 결합하여 학생 모델이 교사 모델의 지식 분포를 훨씬 더 정밀하게 따라할 수 있게 합니다.
LLM을 더 가볍고 빠르게 활용하고 싶으신가요? 저희 논문 "Token-wise Distillation (ToDi)"에서 자세한 내용을 확인해 보세요!
기존 지식 증류 기법(Knowledge Distillation)은 모든 토큰에 동일한 손실 함수를 적용했기 때문에 토큰별 예측 정확도를 미세하게 조정하기 어려웠습니다. 저희 중앙대 ICT 인력이 중앙대 연구실과 협력하여 비록 짧은 기간이지만 이 문제를 해결할 수 있는 새로운 기법을 찾아 실험을 통해 그 결과를 EMNLP2025 논문으로 게재하게 되었습니다.
본 논문에서는 FKL(Forward KL)과 RKL(Reverse KL)이라는 두 대표적인 기법의 강점을 분석했습니다.
FKL: 과소평가된 토큰의 예측을 향상시키는 데 효과적입니다.
RKL: 과대평가된 토큰의 예측을 억제하는 데 효과적입니다.
즉, 이 두 방식은 상호 보완적인 역할을 하지만, 동시에 적용하기는 어려웠습니다.
이러한 문제를 해결하고자, 저희는 **Token-wise Distillation (ToDi)**이라는 새로운 기술을 제안하게 되었습니다. ToDi는 기존 지식 증류(Knowledge Distillation) 방식의 한계를 극복하고, 작은 모델이 LLM의 방대한 지식을 더 효율적으로 학습할 수 있도록 돕습니다.
ToDi는 교사 모델과 학생 모델 간의 확률 비율(probability log-ratio)을 기반으로 시그모이드(sigmoid) 가중치 함수를 사용합니다. 이를 통해 각 토큰별로 FKL과 RKL을 유연하게 결합하여 학생 모델이 교사 모델의 지식 분포를 훨씬 더 정밀하게 따라할 수 있게 합니다.
LLM을 더 가볍고 빠르게 활용하고 싶으신가요? 저희 논문 "Token-wise Distillation (ToDi)"에서 자세한 내용을 확인해 보세요!