데이터 증강(data augmentation)

티스토리 뷰

AI Development/자연어처리

데이터 증강(data augmentation)

쟤리 2024. 8. 12. 10:10

728x90

한국어 텍스트 데이터셋의 데이터 증강(data augmentation)은 자연어 처리(NLP)에서 모델의 성능을 개선하기 위해 사용되는 기법으로, 특히 데이터가 부족할 때 유용합니다. 데이터 증강 기법은 원래의 데이터를 변형하여 새로운 데이터를 생성함으로써 모델의 일반화 능력을 향상시킵니다. 아래는 한국어 텍스트 데이터 증강의 주요 방법과 종류입니다.

1. 백 트랜슬레이션(Back Translation)

설명: 원본 문장을 다른 언어로 번역한 후 다시 한국어로 번역하여 새로운 문장을 생성하는 방법입니다.
장점: 문장의 의미를 유지하면서도 다양한 표현을 생성할 수 있습니다.

2. 동의어 교체(Synonym Replacement)

설명: 문장 내 특정 단어를 같은 의미를 가진 동의어로 교체하여 변형된 문장을 만드는 방법입니다.
예시: "학생이 도서관에 갔다" -> "학생이 서재에 갔다"

3. 랜덤 인서트(Random Insertion)

설명: 문장에 임의로 단어를 추가하여 새로운 문장을 생성하는 방법입니다.
예시: "학생이 도서관에 갔다" -> "학생이 갑자기 도서관에 갔다"

4. 랜덤 스왑(Random Swap)

설명: 문장 내 단어의 순서를 바꾸어 새로운 문장을 생성하는 방법입니다.
예시: "학생이 도서관에 갔다" -> "도서관에 학생이 갔다"

5. 랜덤 삭제(Random Deletion)

설명: 문장에서 임의의 단어를 삭제하여 문장을 단순화하는 방법입니다.
예시: "학생이 도서관에 갔다" -> "학생이 갔다"

6. 데이터 노이즈 추가

설명: 문장에 타이포그래피적 오류나 오탈자를 의도적으로 삽입하여 모델의 강건성을 높이는 방법입니다.
예시: "학생이 도서관에 갔다" -> "학생이 도서관애 갔다"

7. EDA(기초적 데이터 증강)

설명: EDA(Easy Data Augmentation)는 앞서 언급한 몇 가지 방법(동의어 교체, 랜덤 인서트, 랜덤 스왑, 랜덤 삭제)을 조합하여 데이터 증강을 수행하는 기법입니다.
장점: 단순하고 구현이 용이하여 초기 실험에 적합합니다.

8. 문장 재구성(Rephrasing)

설명: 자연어 생성 모델을 사용하여 동일한 의미의 문장을 다양한 표현으로 생성하는 방법입니다.

728x90

'AI Development > 자연어처리' 카테고리의 다른 글

파인튜닝의 유형 (0)	2024.08.14
파인튜닝 (fine-tunning) (1)	2024.08.13
감정을 분석하고 뽑아낼 수 있는 오픈소스 모델과 라이브러리 (0)	2024.08.12
형태소 분석 (Morphological Analysis) (0)	2024.08.11
토큰화 (Tokenization) (0)	2024.08.11

250x250

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

제리코드르렁

티스토리 뷰

데이터 증강(data augmentation)

1. 백 트랜슬레이션(Back Translation)

2. 동의어 교체(Synonym Replacement)

3. 랜덤 인서트(Random Insertion)

4. 랜덤 스왑(Random Swap)

5. 랜덤 삭제(Random Deletion)

6. 데이터 노이즈 추가

7. EDA(기초적 데이터 증강)

8. 문장 재구성(Rephrasing)

'AI Development > 자연어처리' 카테고리의 다른 글

티스토리툴바