728x90
반응형
데이터 수집 & 전처리 (Data Collection & Preprocessing)
| 용어 | 의미 | 예시 | 출처/맥락 |
| Context | 입력으로 주어지는 문맥, 대화의 앞부분, 이전 턴들의 내용 | “상담사: 혹시 비밀번호를 잊어버리셨나요?” → 이게 다음 발화의 context | Dialogue Systems, Conversational AI |
| Utterance | 한 발화(turn) 단위의 텍스트 | “고객: 인터넷뱅킹 로그인이 안돼요.” | Dialogue Dataset 구성 단위 |
| Input text | 모델에 들어가는 실제 문자열 (Context + 현재 발화 포함) | “Q: 혹시 비밀번호를 잊어버리셨나요? A: 인터넷뱅킹 로그인이 안돼요.” | Transformer, BERT, ELECTRA |
| Token | 텍스트를 분해한 최소 의미 단위 | “비밀번호”, “##오류”, “로그인” | Tokenizer (WordPiece, BPE) |
| Embedding Vector | 각 토큰이 벡터 공간에서 표현된 수치 형태 | [0.13, -0.72, …, 0.05] | Word2Vec, BERT Embedding Layer |
| Label / Target Variable | 모델이 맞히려는 정답값 | intent = “비밀번호 오류” | Supervised Learning |
| Target | 예측하고자 하는 목표(label) — intent, emotion, next response 등 | “고객의도 = 비밀번호 오류” | Classification / Dialogue Modeling |
| Output / Prediction | 모델이 실제로 예측한 결과 | 예측 intent = “비밀번호 재설정 요청” | Inference 결과 |
| Prompt | LLM에게 주어지는 입력 지시문 또는 문제 서술 | “당신은 은행 고객센터 상담사입니다. 아래 문장을 요약하세요.” | LLM, Instruction Tuning |
| Response | LLM이 생성한 출력값 | “고객이 비밀번호를 재설정하려고 합니다.” | ChatGPT, GPT-4, Claude 등 |
| Sample / Example | 하나의 데이터 포인트 (Input + Label 쌍) | (“인터넷뱅킹 안돼요.” → intent: “로그인 오류”) | Dataset 구성 단위 |
| Batch | 학습 시 한 번에 모델에 입력되는 샘플 묶음 | batch size = 32 | Deep Learning Training |
| Sequence Length | 입력 텍스트의 최대 길이 (토큰 기준) | max_seq_length = 128 | Transformer 모델 입력 제한 |
| Ground Truth | 사람이 정답으로 지정한 실제 라벨 | 실제 intent = “비밀번호 오류” | Evaluation 단계 |
| Loss Function | 예측과 정답 간의 차이를 계산하는 함수 | CrossEntropyLoss(pred, target) | Model Training |
임베딩 (Embedding)
| Embedding (임베딩) | 단어를 고정 길이의 벡터로 표현하는 기술 |
| Word2Vec | 단어 간 의미 유사성을 학습하는 초기 대표적 임베딩 모델 |
| GloVe | 전역 통계 기반의 단어 임베딩 방법 |
| Contextual Embedding | 문맥에 따라 단어의 의미가 변하는 임베딩. 대표: ELMo, BERT |
| Embedding Layer | 신경망 내부에서 단어를 벡터로 매핑하는 층 |
| Vocabulary (단어 사전) | 모델이 인식할 수 있는 모든 토큰 목록 |
모델링 (Modeling)
| Language Model (언어 모델) | 단어 시퀀스의 확률을 예측하는 모델 |
| n-gram Model | 이전 n개의 단어를 이용해 다음 단어 확률을 계산하는 고전적 방법 |
| RNN / LSTM / GRU | 순차 데이터를 다루는 전통적 신경망 구조 |
| Attention | 문맥에서 중요한 단어에 가중치를 부여하는 메커니즘 |
| Transformer | RNN을 대체한 현대 NLP의 핵심 아키텍처 (Self-Attention 기반) |
| Encoder / Decoder | 입력을 인코딩하고 출력을 디코딩하는 구조 (예: 번역 모델) |
| Pre-training / Fine-tuning | 대규모 코퍼스로 사전 학습 후, 특정 태스크에 맞게 추가 학습하는 방식 |
| Transfer Learning | 이미 학습된 모델의 지식을 다른 태스크에 전이 |
| Prompt / Instruction Tuning | 자연어 입력으로 모델의 동작을 제어하는 기법 (대규모 언어모델에서 핵심) |
평가 (Evaluation)
| Accuracy / Precision / Recall / F1-score | 분류 문제에서 대표적인 평가 지표 |
| BLEU / ROUGE / METEOR | 번역, 요약 등 생성형 태스크의 품질 평가 지표 |
| Perplexity (혼란도) | 언어 모델의 예측 품질을 나타내는 수치 (낮을수록 좋음) |
| Human Evaluation | 자동 지표로 평가하기 어려운 생성 모델의 결과를 사람이 평가 |
| Confusion Matrix | 분류 결과를 시각적으로 요약한 표 |
추론 및 배포 (Inference & Deployment)
| Inference (추론) | 학습된 모델로 실제 입력에 대한 예측을 수행하는 과정 |
| Serving / API Endpoint | 모델을 서비스 형태로 외부 시스템에서 호출할 수 있게 하는 구조 |
| Latency / Throughput | 응답 지연 시간, 초당 처리량 등 실시간 성능 지표 |
| Quantization / Pruning | 모델 크기 및 연산량을 줄이기 위한 경량화 기술 |
| Tokenizer & Detokenizer | 모델 입출력 시 텍스트를 토큰으로 변환하거나 되돌리는 단계 |
| Pipeline (파이프라인) | 전처리 → 모델 → 후처리를 하나로 묶은 처리 흐름 |
| LLM (Large Language Model) | 대규모 파라미터로 구성된 언어 모델 (예: GPT, LLaMA, Claude 등) |
728x90
반응형
'AI Development > 자연어처리' 카테고리의 다른 글
| KoELECTRA (0) | 2025.10.28 |
|---|---|
| 파인튜닝의 유형 (0) | 2024.08.14 |
| 파인튜닝 (fine-tunning) (1) | 2024.08.13 |
| 데이터 증강(data augmentation) (0) | 2024.08.12 |
| 감정을 분석하고 뽑아낼 수 있는 오픈소스 모델과 라이브러리 (0) | 2024.08.12 |