자연어 처리 (NLP) 모델링 전체에서 자주 쓰이는 용어 체계

AI Development/자연어처리

자연어 처리 (NLP) 모델링 전체에서 자주 쓰이는 용어 체계

쟤리 2025. 11. 1. 09:15

728x90

데이터 수집 & 전처리 (Data Collection & Preprocessing)

용어	의미	예시	출처/맥락
Context	입력으로 주어지는 문맥, 대화의 앞부분, 이전 턴들의 내용	“상담사: 혹시 비밀번호를 잊어버리셨나요?” → 이게 다음 발화의 context	Dialogue Systems, Conversational AI
Utterance	한 발화(turn) 단위의 텍스트	“고객: 인터넷뱅킹 로그인이 안돼요.”	Dialogue Dataset 구성 단위
Input text	모델에 들어가는 실제 문자열 (Context + 현재 발화 포함)	“Q: 혹시 비밀번호를 잊어버리셨나요? A: 인터넷뱅킹 로그인이 안돼요.”	Transformer, BERT, ELECTRA
Token	텍스트를 분해한 최소 의미 단위	“비밀번호”, “##오류”, “로그인”	Tokenizer (WordPiece, BPE)
Embedding Vector	각 토큰이 벡터 공간에서 표현된 수치 형태	[0.13, -0.72, …, 0.05]	Word2Vec, BERT Embedding Layer
Label / Target Variable	모델이 맞히려는 정답값	intent = “비밀번호 오류”	Supervised Learning
Target	예측하고자 하는 목표(label) — intent, emotion, next response 등	“고객의도 = 비밀번호 오류”	Classification / Dialogue Modeling
Output / Prediction	모델이 실제로 예측한 결과	예측 intent = “비밀번호 재설정 요청”	Inference 결과
Prompt	LLM에게 주어지는 입력 지시문 또는 문제 서술	“당신은 은행 고객센터 상담사입니다. 아래 문장을 요약하세요.”	LLM, Instruction Tuning
Response	LLM이 생성한 출력값	“고객이 비밀번호를 재설정하려고 합니다.”	ChatGPT, GPT-4, Claude 등
Sample / Example	하나의 데이터 포인트 (Input + Label 쌍)	(“인터넷뱅킹 안돼요.” → intent: “로그인 오류”)	Dataset 구성 단위
Batch	학습 시 한 번에 모델에 입력되는 샘플 묶음	batch size = 32	Deep Learning Training
Sequence Length	입력 텍스트의 최대 길이 (토큰 기준)	max_seq_length = 128	Transformer 모델 입력 제한
Ground Truth	사람이 정답으로 지정한 실제 라벨	실제 intent = “비밀번호 오류”	Evaluation 단계
Loss Function	예측과 정답 간의 차이를 계산하는 함수	CrossEntropyLoss(pred, target)	Model Training

임베딩 (Embedding)

Embedding (임베딩)	단어를 고정 길이의 벡터로 표현하는 기술
Word2Vec	단어 간 의미 유사성을 학습하는 초기 대표적 임베딩 모델
GloVe	전역 통계 기반의 단어 임베딩 방법
Contextual Embedding	문맥에 따라 단어의 의미가 변하는 임베딩. 대표: ELMo, BERT
Embedding Layer	신경망 내부에서 단어를 벡터로 매핑하는 층
Vocabulary (단어 사전)	모델이 인식할 수 있는 모든 토큰 목록

모델링 (Modeling)

Language Model (언어 모델)	단어 시퀀스의 확률을 예측하는 모델
n-gram Model	이전 n개의 단어를 이용해 다음 단어 확률을 계산하는 고전적 방법
RNN / LSTM / GRU	순차 데이터를 다루는 전통적 신경망 구조
Attention	문맥에서 중요한 단어에 가중치를 부여하는 메커니즘
Transformer	RNN을 대체한 현대 NLP의 핵심 아키텍처 (Self-Attention 기반)
Encoder / Decoder	입력을 인코딩하고 출력을 디코딩하는 구조 (예: 번역 모델)
Pre-training / Fine-tuning	대규모 코퍼스로 사전 학습 후, 특정 태스크에 맞게 추가 학습하는 방식
Transfer Learning	이미 학습된 모델의 지식을 다른 태스크에 전이
Prompt / Instruction Tuning	자연어 입력으로 모델의 동작을 제어하는 기법 (대규모 언어모델에서 핵심)

평가 (Evaluation)

Accuracy / Precision / Recall / F1-score	분류 문제에서 대표적인 평가 지표
BLEU / ROUGE / METEOR	번역, 요약 등 생성형 태스크의 품질 평가 지표
Perplexity (혼란도)	언어 모델의 예측 품질을 나타내는 수치 (낮을수록 좋음)
Human Evaluation	자동 지표로 평가하기 어려운 생성 모델의 결과를 사람이 평가
Confusion Matrix	분류 결과를 시각적으로 요약한 표

추론 및 배포 (Inference & Deployment)

Inference (추론)	학습된 모델로 실제 입력에 대한 예측을 수행하는 과정
Serving / API Endpoint	모델을 서비스 형태로 외부 시스템에서 호출할 수 있게 하는 구조
Latency / Throughput	응답 지연 시간, 초당 처리량 등 실시간 성능 지표
Quantization / Pruning	모델 크기 및 연산량을 줄이기 위한 경량화 기술
Tokenizer & Detokenizer	모델 입출력 시 텍스트를 토큰으로 변환하거나 되돌리는 단계
Pipeline (파이프라인)	전처리 → 모델 → 후처리를 하나로 묶은 처리 흐름
LLM (Large Language Model)	대규모 파라미터로 구성된 언어 모델 (예: GPT, LLaMA, Claude 등)

728x90

저작자표시 비영리 동일조건 (새창열림)

'AI Development > 자연어처리' 카테고리의 다른 글

KoELECTRA (0)	2025.10.28
파인튜닝의 유형 (0)	2024.08.14
파인튜닝 (fine-tunning) (1)	2024.08.13
데이터 증강(data augmentation) (0)	2024.08.12
감정을 분석하고 뽑아낼 수 있는 오픈소스 모델과 라이브러리 (0)	2024.08.12

현재글자연어 처리 (NLP) 모델링 전체에서 자주 쓰이는 용어 체계

제리코드르렁

jerrycodezzZ

250x250

PROMISE, transformer, dl, 프론트엔드, 컴포넌트간통신, ML, AI, 이벤트에미터, async, 이벤트유효성, gradientclipping, 리액트, Await, NLP, 컴포넌트간데이터전달, KoELECTRA, 데이터옵션, 사용자정의이벤트, 자연어처리, 사전학습모델,

Today :
Yesterday :

제리코드르렁

자연어 처리 (NLP) 모델링 전체에서 자주 쓰이는 용어 체계

'AI Development > 자연어처리' 카테고리의 다른 글

'AI Development/자연어처리'의 다른글

티스토리툴바

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

자연어 처리 (NLP) 모델링 전체에서 자주 쓰이는 용어 체계

'AI Development > 자연어처리' 카테고리의 다른 글

'AI Development/자연어처리'의 다른글

관련글

티스토리툴바