728x90
반응형

AI Development/머신러닝 딥러닝 5

하이퍼파라미터 튜닝 외 모델 성능 향상시키는 방법

1. 데이터 전처리(Data Preprocessing)설명: 모델의 성능은 입력 데이터의 품질에 크게 좌우된다. 데이터의 전처리는 모델이 데이터를 더 잘 이해하고 학습할 수 있도록 도와준다.방법:데이터 정규화/표준화: 입력 데이터의 스케일을 맞춰 모델이 특정 특징에 과도하게 의존하지 않도록 한다.결측치 처리: 결측값을 적절히 처리하거나 제거하여 모델의 예측 성능을 저하시키지 않도록 한다.특징 엔지니어링(Feature Engineering): 중요한 특징을 새롭게 만들거나, 불필요한 특징을 제거하여 데이터의 품질을 높인다.효과: 데이터의 품질이 개선되면 모델이 더 잘 학습할 수 있고, 오버피팅(overfitting)이나 언더피팅(underfitting)을 줄일 수 있다.2. 특징 선택(Feature Sel..

하이퍼파라미터 튜닝방법

GridSearchCV, RandomizedSearchCV, 그리고 Bayesian Optimizer는 머신러닝 모델의 하이퍼파라미터 튜닝을 위한 방법들이다. 각 방법은 특정 상황에서 유리하거나 불리할 수 있으며, 이러한 방법들을 비유를 통해 이해하면 더 쉽게 그 차이점을 파악할 수 있다.1. GridSearchCV개념: GridSearchCV는 설정된 하이퍼파라미터의 모든 조합을 일일이 테스트하여 최적의 조합을 찾는 방법이다. 예를 들어, 두 개의 하이퍼파라미터가 있고 각각 3개의 값을 가진다면, 총 3x3=9개의 조합을 모두 시도해 보는 것이다.비유: 축구장에서 골을 넣기 위해 여러 위치에서 슛을 해보는 것과 같다. 모든 위치에서 슛을 해본다면, 가장 정확한 위치를 찾을 수 있다. 그러나 모든 위치에..

XGBoost

XGBoost는 "Extreme Gradient Boosting"의 약자로, 머신러닝에서 주로 사용되는 매우 강력하고 효율적인 알고리즘이다. XGBoost는 회귀와 분류 문제 모두에 사용할 수 있으며, 특히 대규모 데이터 세트에서 뛰어난 성능을 보이는 것으로 유명하다. 개념XGBoost는 여러 개의 약한 학습기(보통 결정 트리)를 결합하여 강력한 모델을 만드는 앙상블 학습 기법의 일종이다. 앙상블 학습은 여러 개의 모델을 결합해 더 좋은 성능을 얻는 방법을 의미한다. XGBoost는 특히 그래디언트 부스팅(Gradient Boosting)이라는 앙상블 방법을 사용하며, 이는 각 모델이 이전 모델의 오류를 줄이는 방향으로 학습하는 것을 의미한다.비유XGBoost를 비유하자면, 시험 준비 과정에서의 피드백을..

로짓함수 (Logit Function)

이 함수는 로지스틱 회귀에서 확률을 계산하는 데 사용되며, 주어진 입력 값이 특정 클래스 (예: 1 또는 0)에 속할 확률을 나타낸다.여기서 p는 특정 사건이 발생할 확률을 의미한다.이 수식은 p와 1-p의 비율 (오즈 비율)을 로그 변환한 값이다.로그 변환을 통해 함수의 결과는 실수 전체를 나타낼 수 있게 된다.  유도과정1. 확률의 정의우선, 어떤 사건이 발생할 확률 ppp가 주어졌다고 가정한다. 이 확률은 다음과 같이 표현된다:2. 오즈 비율(Odds Ratio)오즈 비율은 사건이 발생할 확률 p와 사건이 발생하지 않을 확률 1−p의 비율로 정의된다:오즈 비율은 사건이 발생할 가능성과 발생하지 않을 가능성의 비율을 나타내며, 이 값은 0부터 무한대까지의 값을 가질 수 있다.3. Logit 함수 정의..

하이퍼파라미터 (Hyperparameter)

하이퍼파라미터는 모델이 학습을 할 때 사용되는 설정값들로, 모델 학습 과정 외부에서 설정되는 변수입니다.모델의 구조나 학습 방식에 영향을 미치는 값들을 의미하며, 이 값들은 학습 과정에서 변경되지 않습니다.예시:학습률(learning rate): 모델이 학습할 때, 가중치(weight)를 얼마나 크게 또는 작게 변경할지를 결정하는 값입니다.배치 크기(batch size): 한 번에 모델이 학습할 데이터의 양을 의미합니다. 예를 들어, 배치 크기가 32라면 한 번의 학습에서 32개의 데이터를 사용하게 됩니다.에포크 수(epoch): 전체 데이터셋을 몇 번 반복해서 학습할지를 결정하는 값입니다.하이퍼파라미터는 모델의 성능에 큰 영향을 미치기 때문에, 적절한 값을 찾기 위해 여러 번 실험을 통해 최적화를 시도..

728x90
반응형