일반적으로 표준화와 정규화는 거희 같은 뜻으로 사용된다.
데이터 표준화 Data Standardization
보통 데이터를 수집하면 세계 곳곳에서 자료를 수집하기 때문에 단위 선택, 대소문자 구분, 약칭 활용 등 여러 가지 원인에 의해 다양한 형태로 표현되어 있다.
따라서 동일한 대상을 표현하는 방법을 일관성있게 데이터를 포맷하는 과정을 말한다.
1. 단위 환산
같은 데이터셋 안에서 서로 다른 측정 단위를 사용한다면, 전체 데이터의 일관성 측면에서 문제가 발생한다.
따라서, 측정 단위를 동일하게 맞출 필요가 있다.
흔히, 영미권에서는 주로 마일, 야드, 온스 등을 사용하고 있는데, 한국에서 사용하는 미터 평, 그램 등으로 변환하는 것이 좋다.
2. 자료형 변환
보통 파이썬에서 CVS, 엑셀, JSON, XML, 웹 크롤링한 자료들을 데이터 프레임으로 바꾸다보면 숫자가 문자열로 저장된 경우가 있다.
또한, 데이터셋에서 범주형 데이터(국가,종,과 등)를 정수형 데이터(1,2,3)로 들어가 있는 경우도 있다.
이러한 데이터들의 자료형을 컴퓨터가 계산할 수 있게 또는 사용자가 잘 알수 있게 바꿔줄 필요가 있다.
데이터 정규화 Data Nomalization
데이터프레임의 열(특성)에 들어 있는 숫자 데이터의 상대적 크기 차이 때문에 머신러닝 분석 결과가 달라질 수 있다.
예를 들어 A 특성은 0~1000의 범위 값을 갖고, B 특성은 0~10의 범위 값을 갖을 경우, 머신러닝 알고리즘을 큰 숫자에 더 민감하게 반응하기 때문에 A 특성에 영향이 더 커진다.
따라서, 숫자 데이터의 상대적인 크기 차이를 제거할 필요가 있다.
이렇게 각 특성 데이터를 동일한 크기 기준으로 나눈 비율로 나타내는 것을 정규화라고 한다.
보통 데이터 정규화는 특성을 표준점수로 환산하는 방법을 많이 사용한다.
1. 표준점수(z-score)
보통 사이킷런(scikit-learn)의 StandardScaler를 사용하여 표준점수로 환산하는 방법을 많이 쓴다.
2. 최대값(의 절대값)으로 나누기(-1~1)
어떤 열의 원소 값을 그 열의 최대값(의 절대값)으로 나누면 가장 큰 값은 최대값 자기자신을 나눈 1또는 -1이 된다.
3. 최대값에 최소값을 뺀 값으로 나누기(0~1)
양수값또는 음수값만을 갖는 열 데이터에서 해당 열의 최소값을 뺀 값에 최대값에 최소값을 뺀 값으로 나눌 경우 열 데이터의 절대값 중 가장 작은 값은 0이 되고 가장 큰 값은 1이 된다.
'AI > 데이터 분석' 카테고리의 다른 글
인과성, 연관성, 상관계수 (0) | 2022.04.18 |
---|
댓글