728x90
반응형

2024/09/02 5

하이퍼파라미터 튜닝 외 모델 성능 향상시키는 방법

1. 데이터 전처리(Data Preprocessing)설명: 모델의 성능은 입력 데이터의 품질에 크게 좌우된다. 데이터의 전처리는 모델이 데이터를 더 잘 이해하고 학습할 수 있도록 도와준다.방법:데이터 정규화/표준화: 입력 데이터의 스케일을 맞춰 모델이 특정 특징에 과도하게 의존하지 않도록 한다.결측치 처리: 결측값을 적절히 처리하거나 제거하여 모델의 예측 성능을 저하시키지 않도록 한다.특징 엔지니어링(Feature Engineering): 중요한 특징을 새롭게 만들거나, 불필요한 특징을 제거하여 데이터의 품질을 높인다.효과: 데이터의 품질이 개선되면 모델이 더 잘 학습할 수 있고, 오버피팅(overfitting)이나 언더피팅(underfitting)을 줄일 수 있다.2. 특징 선택(Feature Sel..

하이퍼파라미터 튜닝방법

GridSearchCV, RandomizedSearchCV, 그리고 Bayesian Optimizer는 머신러닝 모델의 하이퍼파라미터 튜닝을 위한 방법들이다. 각 방법은 특정 상황에서 유리하거나 불리할 수 있으며, 이러한 방법들을 비유를 통해 이해하면 더 쉽게 그 차이점을 파악할 수 있다.1. GridSearchCV개념: GridSearchCV는 설정된 하이퍼파라미터의 모든 조합을 일일이 테스트하여 최적의 조합을 찾는 방법이다. 예를 들어, 두 개의 하이퍼파라미터가 있고 각각 3개의 값을 가진다면, 총 3x3=9개의 조합을 모두 시도해 보는 것이다.비유: 축구장에서 골을 넣기 위해 여러 위치에서 슛을 해보는 것과 같다. 모든 위치에서 슛을 해본다면, 가장 정확한 위치를 찾을 수 있다. 그러나 모든 위치에..

[트러블슈팅] 모델 성능 저하 및 낮은 예측 성능

원인 : 모델이 대부분 클래스에 대해 낮은 성능 보임, 데이터 불균형해결방법 : 메타정보 추가 및 하이퍼파라미터 튜닝param_grid = { 'max_depth': [3, 5, 7, 9], 'learning_rate': [0.01, 0.1, 0.2], 'n_estimators': [100, 200, 300], 'subsample': [0.8, 1.0], 'colsample_bytree': [0.8, 1.0]}grid_search = GridSearchCV(estimator=xgb_model, param_grid=param_grid, cv=3, n_jobs=-1, verbose=2, scoring='f1_weighted')grid..

카테고리 없음 2024.09.02

SMOTE를 사용할 때, 발생하는 오류

ValueError: Expected n_neighbors  원인 : SMOTE를 사용할 때, 특정 클래스의 샘플 수가 k_neighbors 값보다 적을 때 발생하는 오류k_neighbors는 새로운 샘플을 생성하기 위해 사용하는 이웃의 수를 나타내며, 클래스 샘플 수보다 클 수 없다. 해결방법 : k_neighbors 값을 해당 클래스 샘플 수 보다 작게 설정하거나, 최소 1로 설정하여 문제를 해결smote = SMOTE(random_state=42, k_neighbors=min(5, min_class_samples-1))TypeError: numpy boolean subtract, the '-' operator, is not supported 원인 : 'numpy' 배열에서 부울형 데이터 처리할 때 ..

XGBoost

XGBoost는 "Extreme Gradient Boosting"의 약자로, 머신러닝에서 주로 사용되는 매우 강력하고 효율적인 알고리즘이다. XGBoost는 회귀와 분류 문제 모두에 사용할 수 있으며, 특히 대규모 데이터 세트에서 뛰어난 성능을 보이는 것으로 유명하다. 개념XGBoost는 여러 개의 약한 학습기(보통 결정 트리)를 결합하여 강력한 모델을 만드는 앙상블 학습 기법의 일종이다. 앙상블 학습은 여러 개의 모델을 결합해 더 좋은 성능을 얻는 방법을 의미한다. XGBoost는 특히 그래디언트 부스팅(Gradient Boosting)이라는 앙상블 방법을 사용하며, 이는 각 모델이 이전 모델의 오류를 줄이는 방향으로 학습하는 것을 의미한다.비유XGBoost를 비유하자면, 시험 준비 과정에서의 피드백을..

728x90
반응형