본문 바로가기
Python 파이썬/pandas

pandas ) 판다스 데이터 속성&메소드 Pandas Data Properties&Method

by 하이방가루 2022. 3. 21.
728x90
반응형

보통 데이터가 들어오면 head() 매소드를 통해 데이터를 몇 개만 미리 볼 수 있다.

.head(정수) [정수를 입력하지 않으면 기본값5가 들어감]

  처음부터 정수만큼의 행을 반환한다.

 

.tail(정수) [정수를 입력하지 않으면 기본값5가 들어감]

  마지막부터 정수만큼의 행을 반환한다.

 

데이터프레임.info()

  행과 열이 갯수와 각 열의 이름과 유효한 데이터 개수, 자료형, 그리고 자료형의 갯수와 메모리 사용량이 출력된다.

 

.count()

  유효한 데이터의 갯수를 반환한다.

  유요한 데이터란 'None', 'NaN', 'NaT','inf' 를 제외한 데이터를 말한다.

 

시리즈.unique()

  고유한 값들을 반환한다.

 

.value_counts()

  고유한 값의 갯수를 반환한다.

  데이터프레임에서도 사용가능하지만 열이 많은 경우 분석하기 힘들기때문에 보통 시리즈에 대해서 사용한다.

  dropna=False 옵션을 주면 유효하지 않은 값의 갯수도 반환한다.

 

.describe() 기술 통계 정보 요약

  데이터프레임의 경우 각 열의 유효한 데이터 수(count), 평균(mean), 분산(std), 최소값(min), 1사분위(25%), 중간값(50%), 3사분위(75%), 최대값(max)를 구하여 반환한다.

  include='all' 옵션을 주면 산술 데이터만이 아닌 모든 데이터에 대한 정보를 반환한고, 고유값 개수(unique), 최빈값(top), 빈도수(freq)에 대한 정보가 추가된다. 하지만 산술 데이터를 가진 열에 대해서 앞의 3가지 추가되는 항목은 NaN값이 표시된다.

  시리즈의 경우 공통적으로 count를 보여주고 dtype에 따라 문자열이면 unique, top, freq을 보여주고 숫자형일 경우 그 외의 정보들을 보여준다.

 

산술메소드

[데이터프레임에서는 numeric_only=True 옵션을 주어야 향후 버전에서 TypeError가 나오지 않는다]

.mean() 

  각 열(시리즈)의 평균값을 반환한다.

 

.median()

  각 열(시리즈)의 중간값을 반환한다.

 

.max()

  각 열(시리즈)의 최대값을 반환한다.

 

.min()

  각 열(시리즈)의 최소값을 반환한다.

 

.std()

  각 열(시리즈)의 표준편차을 반환한다.

 

.var()

  각 열(시리즈)의 분산을 반환한다.

 

데이터프레임[ [ 열이름, 열이름 ]  ].corr()

  두 열의 상관계수를 반환한다.

  모든 열 간의 상간계수를 반환받으려면, 데이터프레임.corr()

 

데이터프레임.T 또는 데이터프레임.transpose()

  데이터프레임을 전치하여 반환한다. (행과 열을 교환)

728x90
반응형

댓글