AI Development/자주쓰는 코드

쟤리 데이터 전처리 할 때 자주쓰는 코드

쟤리 2024. 8. 22. 10:06
728x90
반응형

열 삭제

df = df.drop(columns=['B'])
df = df.drop(columns=['B', 'C'])

 

null 값 확인

df.isnull().sum()

 

특정값을 가진 행 삭제

df = df[df['A'] != 2]

 

특정범위 값 바꾸기 1

# 값 변환 함수 정의
def change_value(x):
    if 20 <= x <= 29:
        return 2
    elif 30 <= x <= 39:
        return 3
    else:
        return x  # 해당하지 않는 값은 그대로 유지

# 변환 적용
df['Age'] = df['Age'].apply(change_value)

특정범위 값 바꾸기 2

# [20-29] 범위의 값을 2로 변경
df.loc[(df['Age'] >= 20) & (df['Age'] <= 29), 'Age'] = 2

# [30-39] 범위의 값을 3으로 변경
df.loc[(df['Age'] >= 30) & (df['Age'] <= 39), 'Age'] = 3

 

특정값 다른 값으로 바꾸기 1

df['A'] = df['A'].replace(1, 10)

 

특정값 다른 값으로 바꾸기 2

df['A'] = df['A'].replace({1: 10, 2: 20})

 

특정값 포함하면 삭제 

# '없음'을 포함한 행 삭제
df = df[~df['음식명'].str.contains('없음')]

 

특정값 포함하면 삭제2

# '쌀밥', '잡곡밥', '현미밥', '배추김치', '깍두기'를 포함한 행 삭제
pattern = '|'.join(['쌀밥', '잡곡밥', '현미밥', '배추김치', '깍두기'])
df = df[~df['음식명'].str.contains(pattern)]
728x90
반응형