728x90
반응형
정규표현식 (Regular Expression)
정규표현식은 일종의 패턴입니다. 문장에서 특정한 단어나 문자를 찾기 위해 사용하는 도구라고 생각하면 됩니다. 예를 들어, 우리가 '사과'라는 단어를 찾고 싶다면, 정규표현식을 이용해 빠르고 정확하게 찾을 수 있습니다. 마치 '숨은 그림 찾기'에서 특정 모양을 찾는 것처럼 말이죠.
- 용도: 텍스트에서 특정 패턴을 찾거나, 치환하거나, 삭제하는 작업에 사용됩니다.
- 예시: 이메일 주소 찾기, 전화번호 형식 확인 등
- https://jerrycodezzz.tistory.com/8
토큰화 (Tokenization)
토큰화는 문장을 단어로 나누는 과정입니다. 한 문장을 구성하는 각각의 단어를 '토큰'이라고 부릅니다. 이렇게 문장을 단어로 나누면, 컴퓨터가 그 단어들을 이해하고 분석하기가 쉬워집니다. 예를 들어, "나는 학교에 간다"라는 문장을 "나는", "학교에", "간다"로 나누는 것이 토큰화입니다.
- 용도: 텍스트 분석의 첫 단계로, 단어 단위의 분석을 가능하게 합니다.
- 예시: 검색 엔진에서 문서를 검색할 때 단어 단위로 검색어를 처리합니다.
https://jerrycodezzz.tistory.com/9
형태소 분석 (Morphological Analysis)
형태소 분석은 단어를 더 작은 의미 단위로 나누는 과정입니다. 형태소란 의미를 가진 가장 작은 단위로, 예를 들어 '먹었습니다'라는 단어는 '먹(어간)', '-었(시제)', '-습니다(종결어미)'로 나눌 수 있습니다. 이렇게 나눈 형태소들을 통해 컴퓨터는 문장의 구조와 의미를 더 잘 이해할 수 있습니다.
- 용도: 자연어 처리에서 문장의 의미를 파악하고 언어의 구조를 이해하는 데 사용됩니다.
- 예시: 번역기에서 문장의 정확한 의미를 파악하기 위해 형태소를 분석합니다.
- https://jerrycodezzz.tistory.com/10
728x90
반응형
'AI Development > 자연어처리' 카테고리의 다른 글
형태소 분석 (Morphological Analysis) (0) | 2024.08.11 |
---|---|
토큰화 (Tokenization) (0) | 2024.08.11 |
정규표현식 (Regular Expression) (0) | 2024.08.11 |
Hugging Face (0) | 2024.08.11 |
BERT (0) | 2024.08.11 |