본문 바로가기
728x90
반응형

Python 파이썬/pandas10

pandas ) 연속 데이터의 구간 분할 pandas.cut() 구간 분할 binning 데이터 분석 알고리즘에 따라서는 데이터를 그대로 사용하기 보다는 일정한 구간(bin)으로 나눠서 분석하는 것이 효율적인 경우가 있다. 나이, 가격, 비용, 효율, 지역, 품종 등 수준이나 정도를 일정한 구간으로 나누고, 각 구간을 범주형 이산 변수로 변환하는 과정을 구간 분할(binning)이라고 한다. pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True) 데이터 값을 분할하고 구간별로 정렬해야 할 때 사용하십시오. 이 함수는 연속형 변수에서 범주형 변수로 변환하는 데도 유용하다. 예를 들어, 연령대를 연.. 2022. 4. 20.
pandas ) 자료형 변환 함수 astype() DataFrame/Series.astype(dtype, copy=True, errors='raise') 지정한 dtype으로 pandas객체를 캐스팅한다. 매개변수Parameters dtype 자료형data type, 또는 딕셔너리dict -> {column name : data type} numpy.dtype 또는 Python type을 사용하여 pandas객체 전체를 같은 자료형으로 캐스팅한다. 딕셔너리로 캐스팅할 경우, {col: dtype, …}와 같이 키값col이 열 이름이고 dtype은 numpy.dtype 또는 Python type을 넣어 하나 또는 그 이상의 데이터프레임DataFrame의 열을 그 열에 지정된 자료형으로 캐스팅한다. copy 불리언bool, default True True일.. 2022. 4. 18.
pandas ) 특정 요소 변경 replace() 함수 DataFrame/Series.replace(to_replace=None, value=NoDefault.no_default, inplace=False, limit=None,regex=False, method=NoDefault.no_default) to_replace의 값을 value로 대체한다. 시리즈의 값들을 다른 값들로 유동적으로 대체한다. 업데이트해야할 위치를 지정해야하는 .loc 또는 .iloc와는 다르다. 매개변수 to_replace : str(문자열), regex(정규 표현식), list(리스트), dict(딕셔너리), Series(시리즈), int(정수형), float(실수형), None 대체될 값을 찾는 방법이다. 숫자형, 문자열 or 정규 표현식: 숫자형numeric : 같은 값을 갖는 .. 2022. 4. 12.
pandas ) 중복 데이터 처리 duplicated(), drop_duplicates() duplicated() 중복 데이터 확인 요소를 검사하여 중복된 요소면 True 아니면 False를 반환한다. import pandas as pd df = pd.DataFrame({'c1': ['a','a','b','a','b'], 'c2': [1,1,1,2,2], 'c3': [1,1,2,2,2] }) print(df); print() # 중복 데이터 확인 : .duplicated() 중복된 데이터이면 True print(df.duplicated()) # 행단위의 중복 확인 print() print(df['c2'].duplicated()) # 열단위(Series)의 중복 확인 print() 실행결과 c1 c2 c3 0 a 1 1 1 a 1 1 2 b 1 2 3 a 2 2 4 b 2 2 0 False 1 .. 2022. 4. 4.
pandas ) 누락 데이터 처리 isnull(), dropna(), fillna(), replace() isnull() 누락데이터이면 True를 아니면 False를 반환한다. 반대로 notnull()은 누락데이터이면 False를 아니면 True를 반환한다. 직관적으로 누락데이터만을 확인할 수 있다. import pandas as pd import seaborn as sns titanic = sns.load_dataset('titanic') # 각 열(axis=0)의 누락데이터 합 보기 print(titanic.isnull().sum()) # tip : 행으로 계산하려면 sum(axis=1) 실행결과 survived 0 pclass 0 sex 0 age 177 sibsp 0 parch 0 fare 0 embarked 2 class 0 who 0 adult_male 0 deck 688 embark_town 2.. 2022. 4. 4.
pandas ) 판다스 내장 그래프 도구 시리즈 or 데이터프레임 .plot(kind='그래프 종류') line (default;기본값) 선 그래프 기본값이므로 데이터프레임(시지르).plot() 만으로 사용가능하다. 가로(x)축은 인덱스를 나타내고 세로(y)축은 값을 나타낸다. 선 하나가 시리즈(열) 1개를 나타낸다. bar 수직 막대 그래프 가로(x)축은 인덱스를 나타내고 세로(y)축은 값을 나타낸다. 시리즈(열) 갯수만큼의 막대가 가로 눈금마다 나타난다. barh 수평 막대 그래프 가로(x)축은 값을 나타내고 세로(y)축은 인덱스를 나타낸다. 시리즈(열) 갯수만큼의 막대가 세로 눈금마다 나타난다. hist 히스토그램 값의 출현빈도수를 나타내는 도수분표 그래프 가로(x)축은 값를 나타내고 세로(y)축은 빈도수(Frequency)을 나타낸다. .. 2022. 3. 22.
pandas ) 판다스 데이터 속성&메소드 Pandas Data Properties&Method 보통 데이터가 들어오면 head() 매소드를 통해 데이터를 몇 개만 미리 볼 수 있다. .head(정수) [정수를 입력하지 않으면 기본값5가 들어감] 처음부터 정수만큼의 행을 반환한다. .tail(정수) [정수를 입력하지 않으면 기본값5가 들어감] 마지막부터 정수만큼의 행을 반환한다. 데이터프레임.info() 행과 열이 갯수와 각 열의 이름과 유효한 데이터 개수, 자료형, 그리고 자료형의 갯수와 메모리 사용량이 출력된다. .count() 유효한 데이터의 갯수를 반환한다. 유요한 데이터란 'None', 'NaN', 'NaT','inf' 를 제외한 데이터를 말한다. 시리즈.unique() 고유한 값들을 반환한다. .value_counts() 고유한 값의 갯수를 반환한다. 데이터프레임에서도 사용가능하지만 열이.. 2022. 3. 21.
pandas ) I/O 도구 Input 가져오기 CSV (Comma-Separated Values) 쉼표( ,)로 열을 구분하고 줄바꿈으로 행을 구분한다. # read_csv_sample.csv c0,c1,c2,c3 0,1,4,7 1,2,5,8 2,3,6,9 import pandas as pd # csv 파일 read : pd.read_csv(파일명, 옵션, ...) # dataset/read_csv_sample.csv 파일을 읽어 옴 file_path = './dataset/read_csv_sample.csv' df = pd.read_csv(file_path) print(df) print(df.columns); print() print(df.index) 실행결과 c0 c1 c2 c3 0 0 1 4 7 1 1 2 5 8 2 2 3 .. 2022. 3. 15.
pandas ) 자료구조 데이터프레임 DataFrame 데이터프레임 DataFrame #데이터프레임 : 여러 개의 시리즈가 모여서 만들어짐 # 딕셔너리의 키는 컬럼명(시리즈 이름)이 됨 # pandas.DataFrame(딕셔너리, index = 행이름, columns= 열이름) dict_data = {'c0':[1,2,3],'c1':[0,9,8],'c2':[4,5,6],'c3':[7,8,9]} df = pd.DataFrame(dict_data) # 데이터프레임 생성 print(df); print() print(df.columns, df.index); print() # 컬럼명, 인덱스명 출력 df.index = ['a','b','c'] # 인덱스명 변경 print(df); print() print(df.columns, df.index); print() df.c.. 2022. 3. 14.
pandas ) 자료구조 시리즈 Series 시리즈 Series # 판다스의 시리즈 import pandas as pd a_series = pd.Series({'a':10,'b':20,'c':30,'d':40, 'e':30}) # 딕셔너리의 키가 인덱스명, 값이 value print(a_series) print(type(a_series)) 실행결과 a 10 b 20 c 30 d 40 e 30 dtype: int64 시리즈의 데이터 선택 # 시리즈의 데이터 선택 : 시리즈명[] -> 인덱스명 또는 인덱스 첨자 print(a_series.index, a_series.values); print() print(a_series.value_counts()); print() # 값의 종류와 갯수 print(a_series['a'], a_series[0]); p.. 2022. 3. 14.
728x90
반응형