pandas ) 연속 데이터의 구간 분할 pandas.cut()
구간 분할 binning 데이터 분석 알고리즘에 따라서는 데이터를 그대로 사용하기 보다는 일정한 구간(bin)으로 나눠서 분석하는 것이 효율적인 경우가 있다. 나이, 가격, 비용, 효율, 지역, 품종 등 수준이나 정도를 일정한 구간으로 나누고, 각 구간을 범주형 이산 변수로 변환하는 과정을 구간 분할(binning)이라고 한다. pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True) 데이터 값을 분할하고 구간별로 정렬해야 할 때 사용하십시오. 이 함수는 연속형 변수에서 범주형 변수로 변환하는 데도 유용하다. 예를 들어, 연령대를 연..
2022. 4. 20.
pandas ) 특정 요소 변경 replace() 함수
DataFrame/Series.replace(to_replace=None, value=NoDefault.no_default, inplace=False, limit=None,regex=False, method=NoDefault.no_default) to_replace의 값을 value로 대체한다. 시리즈의 값들을 다른 값들로 유동적으로 대체한다. 업데이트해야할 위치를 지정해야하는 .loc 또는 .iloc와는 다르다. 매개변수 to_replace : str(문자열), regex(정규 표현식), list(리스트), dict(딕셔너리), Series(시리즈), int(정수형), float(실수형), None 대체될 값을 찾는 방법이다. 숫자형, 문자열 or 정규 표현식: 숫자형numeric : 같은 값을 갖는 ..
2022. 4. 12.
pandas ) 중복 데이터 처리 duplicated(), drop_duplicates()
duplicated() 중복 데이터 확인 요소를 검사하여 중복된 요소면 True 아니면 False를 반환한다. import pandas as pd df = pd.DataFrame({'c1': ['a','a','b','a','b'], 'c2': [1,1,1,2,2], 'c3': [1,1,2,2,2] }) print(df); print() # 중복 데이터 확인 : .duplicated() 중복된 데이터이면 True print(df.duplicated()) # 행단위의 중복 확인 print() print(df['c2'].duplicated()) # 열단위(Series)의 중복 확인 print() 실행결과 c1 c2 c3 0 a 1 1 1 a 1 1 2 b 1 2 3 a 2 2 4 b 2 2 0 False 1 ..
2022. 4. 4.
pandas ) I/O 도구
Input 가져오기 CSV (Comma-Separated Values) 쉼표( ,)로 열을 구분하고 줄바꿈으로 행을 구분한다. # read_csv_sample.csv c0,c1,c2,c3 0,1,4,7 1,2,5,8 2,3,6,9 import pandas as pd # csv 파일 read : pd.read_csv(파일명, 옵션, ...) # dataset/read_csv_sample.csv 파일을 읽어 옴 file_path = './dataset/read_csv_sample.csv' df = pd.read_csv(file_path) print(df) print(df.columns); print() print(df.index) 실행결과 c0 c1 c2 c3 0 0 1 4 7 1 1 2 5 8 2 2 3 ..
2022. 3. 15.
pandas ) 자료구조 데이터프레임 DataFrame
데이터프레임 DataFrame #데이터프레임 : 여러 개의 시리즈가 모여서 만들어짐 # 딕셔너리의 키는 컬럼명(시리즈 이름)이 됨 # pandas.DataFrame(딕셔너리, index = 행이름, columns= 열이름) dict_data = {'c0':[1,2,3],'c1':[0,9,8],'c2':[4,5,6],'c3':[7,8,9]} df = pd.DataFrame(dict_data) # 데이터프레임 생성 print(df); print() print(df.columns, df.index); print() # 컬럼명, 인덱스명 출력 df.index = ['a','b','c'] # 인덱스명 변경 print(df); print() print(df.columns, df.index); print() df.c..
2022. 3. 14.