자연어처리 (NLP) 기초개념
정규표현식 (Regular Expression)
정규표현식은 일종의 패턴입니다. 문장에서 특정한 단어나 문자를 찾기 위해 사용하는 도구라고 생각하면 됩니다. 예를 들어, 우리가 '사과'라는 단어를 찾고 싶다면, 정규표현식을 이용해 빠르고 정확하게 찾을 수 있습니다. 마치 '숨은 그림 찾기'에서 특정 모양을 찾는 것처럼 말이죠.
- 용도: 텍스트에서 특정 패턴을 찾거나, 치환하거나, 삭제하는 작업에 사용됩니다.
- 예시: 이메일 주소 찾기, 전화번호 형식 확인 등
- https://jerrycodezzz.tistory.com/8
정규표현식 (Regular Expression)
정규표현식: 텍스트 데이터 처리의 강력한 도구정규표현식(Regular Expression, regex)은 텍스트 내 특정 패턴을 검색하고 조작하는 데 사용되는 강력한 도구입니다. 특히 데이터 분석, 웹 개발, 시스템
jerrycodezzz.tistory.com
토큰화 (Tokenization)
토큰화는 문장을 단어로 나누는 과정입니다. 한 문장을 구성하는 각각의 단어를 '토큰'이라고 부릅니다. 이렇게 문장을 단어로 나누면, 컴퓨터가 그 단어들을 이해하고 분석하기가 쉬워집니다. 예를 들어, "나는 학교에 간다"라는 문장을 "나는", "학교에", "간다"로 나누는 것이 토큰화입니다.
- 용도: 텍스트 분석의 첫 단계로, 단어 단위의 분석을 가능하게 합니다.
- 예시: 검색 엔진에서 문서를 검색할 때 단어 단위로 검색어를 처리합니다.
https://jerrycodezzz.tistory.com/9
토큰화 (Tokenization)
토큰화(Tokenization)는 자연어 처리(NLP)에서 가장 기본적이고 중요한 단계 중 하나입니다. 토큰화는 텍스트를 분석 가능한 단위인 '토큰(token)'으로 나누는 과정입니다. 이 글에서는 토큰화의 개념
jerrycodezzz.tistory.com
형태소 분석 (Morphological Analysis)
형태소 분석은 단어를 더 작은 의미 단위로 나누는 과정입니다. 형태소란 의미를 가진 가장 작은 단위로, 예를 들어 '먹었습니다'라는 단어는 '먹(어간)', '-었(시제)', '-습니다(종결어미)'로 나눌 수 있습니다. 이렇게 나눈 형태소들을 통해 컴퓨터는 문장의 구조와 의미를 더 잘 이해할 수 있습니다.
- 용도: 자연어 처리에서 문장의 의미를 파악하고 언어의 구조를 이해하는 데 사용됩니다.
- 예시: 번역기에서 문장의 정확한 의미를 파악하기 위해 형태소를 분석합니다.
- https://jerrycodezzz.tistory.com/10
형태소 분석 (Morphological Analysis)
형태소 분석은 자연어 처리(NLP)에서 중요한 기술로, 문장을 구성하는 단어를 더 작은 의미 단위로 분해하는 과정입니다. 이 과정은 컴퓨터가 인간의 언어를 더 잘 이해하고 처리할 수 있도록 돕
jerrycodezzz.tistory.com