728x90
반응형
duplicated() 중복 데이터 확인
요소를 검사하여 중복된 요소면 True 아니면 False를 반환한다.
import pandas as pd
df = pd.DataFrame({'c1': ['a','a','b','a','b'],
'c2': [1,1,1,2,2],
'c3': [1,1,2,2,2]
})
print(df); print()
# 중복 데이터 확인 : .duplicated() 중복된 데이터이면 True
print(df.duplicated()) # 행단위의 중복 확인
print()
print(df['c2'].duplicated()) # 열단위(Series)의 중복 확인
print()
실행결과
c1 c2 c3
0 a 1 1
1 a 1 1
2 b 1 2
3 a 2 2
4 b 2 2
0 False
1 True
2 False
3 False
4 False
dtype: bool
0 False
1 True
2 True
3 False
4 True
Name: c2, dtype: bool
drop_duplicates() 중복 데이터 제거
import pandas as pd
df = pd.DataFrame({'c1': ['a','a','b','a','b'],
'c2': [1,1,1,2,2],
'c3': [1,1,2,2,2]
})
print(df); print()
# 중복 행 데이터를 제거 : .drop_duplicates()
df2 = df.drop_duplicates()
print(df2); print()
# 컬럼을 기준으로 중복 행 제거
df3 = df.drop_duplicates(subset=['c2','c3'])
print(df3)
실행결과
c1 c2 c3
0 a 1 1
1 a 1 1
2 b 1 2
3 a 2 2
4 b 2 2
c1 c2 c3
0 a 1 1
2 b 1 2
3 a 2 2
4 b 2 2
c1 c2 c3
0 a 1 1
2 b 1 2
3 a 2 2
728x90
반응형
'Python 파이썬 > pandas' 카테고리의 다른 글
pandas ) 자료형 변환 함수 astype() (0) | 2022.04.18 |
---|---|
pandas ) 특정 요소 변경 replace() 함수 (0) | 2022.04.12 |
pandas ) 누락 데이터 처리 isnull(), dropna(), fillna(), replace() (0) | 2022.04.04 |
pandas ) 판다스 내장 그래프 도구 (0) | 2022.03.22 |
pandas ) 판다스 데이터 속성&메소드 Pandas Data Properties&Method (0) | 2022.03.21 |
댓글