728x90
반응형

2025/10 2

모델이 학습되지 않는 이유 - loss, grad_norm, learning_rate, epoch, batch_size 정리

들어가며딥러닝 모델을 학습시키다 보면, 이런 상황을 한 번쯤 겪게 됩니다." 손실 (Loss)은 줄지 않고 Accuracy는 비슷하네 .. learning rate를 낮춰야 하나? gradient가 터졌나? " 처음에는 그냥 epoch을 늘리면 되겠지하며 돌렸지만학습이 오히려 불안정해지고 손실이 발산하는 경험을 했습니다. 이 문제를 해결하려면, 단순히 하이퍼파라미터를 감으로 조정하는 게 아니라모델 학습의 핵심 지표인 loss, grad_norm, learning_rate, epoch의 관계를 정확히 이해해야 했습니다. Loss - 모델이 얼마나 틀렸는가의 지표Loss (손실함수)는 모델의 예측값과 실제값의 차이를 수치화한 값입니다.즉, 모델이 얼마나 틀렸는가를 나타냅니다.MSE (Mean Squared..

AI Development 2025.10.29

KoELECTRA

https://github.com/monologg/KoELECTRA/blob/master/README_EN.md KoELECTRA/README_EN.md at master · monologg/KoELECTRAPretrained ELECTRA Model for Korean. Contribute to monologg/KoELECTRA development by creating an account on GitHub.github.com 실무에서 한국어 자연어처리 프로젝트를 진행해보면, 다음과 같은 고민이 자주 나옵니다. - 언어 자원 부족 : 영어처럼 다양한 사전학습된 모델이 한국어에서는 상대적으로 적습니다.- 모델 구조 및 학습 방식의 효율성 한계 : 기존에 많이 쓰이던 BERT 계열 모델은 마스크된 토큰..

728x90
반응형