본문 바로가기
Python 파이썬/pandas

pandas ) 중복 데이터 처리 duplicated(), drop_duplicates()

by 하이방가루 2022. 4. 4.
728x90
반응형

duplicated() 중복 데이터 확인

  요소를 검사하여 중복된 요소면 True 아니면 False를 반환한다.

import pandas as pd

df = pd.DataFrame({'c1': ['a','a','b','a','b'],
                   'c2': [1,1,1,2,2],
                   'c3': [1,1,2,2,2]
                   })
print(df); print()

# 중복 데이터 확인 : .duplicated() 중복된 데이터이면 True
print(df.duplicated()) # 행단위의 중복 확인
print()
print(df['c2'].duplicated()) # 열단위(Series)의 중복 확인
print()

실행결과

  c1  c2  c3
0  a   1   1
1  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2

0    False
1     True
2    False
3    False
4    False
dtype: bool

0    False
1     True
2     True
3    False
4     True
Name: c2, dtype: bool

 

drop_duplicates() 중복 데이터 제거

import pandas as pd

df = pd.DataFrame({'c1': ['a','a','b','a','b'],
                   'c2': [1,1,1,2,2],
                   'c3': [1,1,2,2,2]
                   })
print(df); print()

# 중복 행 데이터를 제거 : .drop_duplicates()
df2 = df.drop_duplicates()
print(df2); print()

# 컬럼을 기준으로 중복 행 제거
df3 = df.drop_duplicates(subset=['c2','c3'])
print(df3)

실행결과

  c1  c2  c3
0  a   1   1
1  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2

  c1  c2  c3
0  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2

  c1  c2  c3
0  a   1   1
2  b   1   2
3  a   2   2
728x90
반응형

댓글