https://github.com/monologg/KoELECTRA/blob/master/README_EN.md
KoELECTRA/README_EN.md at master · monologg/KoELECTRA
Pretrained ELECTRA Model for Korean. Contribute to monologg/KoELECTRA development by creating an account on GitHub.
github.com
실무에서 한국어 자연어처리 프로젝트를 진행해보면, 다음과 같은 고민이 자주 나옵니다.
- 언어 자원 부족 : 영어처럼 다양한 사전학습된 모델이 한국어에서는 상대적으로 적습니다.
- 모델 구조 및 학습 방식의 효율성 한계 : 기존에 많이 쓰이던 BERT 계열 모델은 마스크된 토큰 예측 (Masked Language Model, MLM) 방식으로 학습되며 한국어 처리 시 토큰화나 표현력 면에서 제약이 많습니다.
- 분류, 개체명 인식, 질의응답 등 다양한 태스크에 모델을 적용하려면 사전학습 모델을 잘 선택해야 하고, 한국어 데이터 특성 (어미, 조사, 단어 단위 vs 형태소 단위 등)을 고려해야 합니다.
ELECTRA ?
먼저 이 모델의 기반이 되는 ELECTRA 구조에 대해 간단히 설명하겠습니다.
ELECTRA 는 "생성자 (Generator)" + "판별자 (Discriminator)" 구조로 사전학습을 병행합니다.
전통적인 MLM에서는 입력 문장에서 일부 토큰을 마스크하고, 모델이 마스크된 부분을 예측합니다.
반면 ELECTRA 방식에서는 생성자가 마스크된 위치를 채워 넣고, 판별자가 각 위치가 원본인지 생성된 가짜인지 판별하도록 학습합니다.
이렇게 하면 더 많은 위치에서 학습 signal (원본 VS 가짜)을 받을 수 있어 효율적으로 학습할 수 있다는 장점이 있습니다.
KoELECTRA v3 (Base Discriminator) ?
이 모델은 한국어에 특화된 ELECTRA 구조의 판별자 (Discriminator) 버전입니다.
항목 BERT 방식 (MLM) KoELECTRA 방식 (판별자 중심)
| 학습 방식 | 일부 토큰 마스크 → 예측 | 생성자 채움 → 판별자 원본/가짜 구분 | 
| 학습 신호 | 마스크된 위치만 | 거의 모든 위치에서 신호 가능 | 
| 효율성 | 학습 시간이 더 걸릴 수 있음 | 더 효율적 학습 가능 | 
| 한국어 적용 | 한국어 특화 모델에 따라 상이 | 한국어 특화로 설계됨 | 
'AI Development > 자연어처리' 카테고리의 다른 글
| 파인튜닝의 유형 (0) | 2024.08.14 | 
|---|---|
| 파인튜닝 (fine-tunning) (1) | 2024.08.13 | 
| 데이터 증강(data augmentation) (0) | 2024.08.12 | 
| 감정을 분석하고 뽑아낼 수 있는 오픈소스 모델과 라이브러리 (0) | 2024.08.12 | 
| 형태소 분석 (Morphological Analysis) (0) | 2024.08.11 |