본문 바로가기
728x90
반응형

AI/데이터 분석2

인과성, 연관성, 상관계수 인과성 어떤 상태(원인)에서 다른 상태(결과)가 필연적으로 일어나는 경우의 법칙성 회귀분석모델을 통해 결과를 예측할 수 있다. ex) 수학을 공부한 시간과 수학점수 연관성 사물이나 현상이 일정한 관계를 맺는 특성이나 성질.(제 3의 힘이 존재함) ex) 영어점수와 국어점수 상관계수 두 변수간의 관계의 강도 $$ Corr(x,y) = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{Var(x)} \cdot \sqrt{Var(y)}} $$ $ -1 < Corr < 1 $의 범위를 갖는다. 분모가 없으면 무한히 늘어날 수 있다. 평균을 기준으로 같은 방향으로 빈번하게 움직일수록 양의 상관관계가 커지고, (x가 평균에서 -방향에 있을 때, y도 평균에서 -방향에 있고, x가.. 2022. 4. 18.
데이터 표준화, 정규화 일반적으로 표준화와 정규화는 거희 같은 뜻으로 사용된다. 데이터 표준화 Data Standardization 보통 데이터를 수집하면 세계 곳곳에서 자료를 수집하기 때문에 단위 선택, 대소문자 구분, 약칭 활용 등 여러 가지 원인에 의해 다양한 형태로 표현되어 있다. 따라서 동일한 대상을 표현하는 방법을 일관성있게 데이터를 포맷하는 과정을 말한다. 1. 단위 환산 같은 데이터셋 안에서 서로 다른 측정 단위를 사용한다면, 전체 데이터의 일관성 측면에서 문제가 발생한다. 따라서, 측정 단위를 동일하게 맞출 필요가 있다. 흔히, 영미권에서는 주로 마일, 야드, 온스 등을 사용하고 있는데, 한국에서 사용하는 미터 평, 그램 등으로 변환하는 것이 좋다. 2. 자료형 변환 보통 파이썬에서 CVS, 엑셀, JSON, .. 2022. 4. 13.
728x90
반응형