728x90

df.ix[1:1000] 1000행까지 출력

df.ix[1:'ANNL'] ANNL 컬럼의 1행 출력

 

df.drop(0) 0행 삭제 #axis=0 is default

df.drop('ANNL', axis=1) ANNL 열 삭제

 

df.ANNL.value_counts() value 별 카운트 보여줌

df.ANNL.isnull() ANNL 이 널인 레코드만

 

df.rename(columns={"DPTC_ITEPD_CD_X":"DPTC_ITEPD_CD_x"}, inplace=True)

DPTC_ITEPD_CD_X 컬럼명을 DPTC_IPTED_CD_x 로 바꿈

 

data.columns.tolist() 컬럼 전체 출력

 

pd.DataFrame() 에서 사용하는 Paraeter 들에는 (1) data, (2) index, (3) columns, (4) dtype, (5) copy 의 5가지가 있습니다.

(1-1) data : numpy ndarray, dict, DataFrame 등의 data source

(1-2) index : 행(row) 이름, 만약 명기하지 않으면 np.arange(n)이 자동으로 할당 됨

(1-3) column : 열(column) 이름, 만약 명기하지 않으면 역시 np.arnage(n)이 자동으로 할당 됨

(1-4) dtype : 데이터 형태(type), 만약 지정하지 않으면 Python이 자동으로 추정해서 넣어줌

(1-5) copy : 입력 데이터를 복사할지 지정. 디폴트는 False 임. (복사할 거 아니면 메모리 관리 차원에서 디폴트인 False 설정 사용하면 됨)

3행 4열짜리 간단한 DataFrame을 만들어보겠습니다. data 란에 input data 지정은 필수로 해줘야 하구요, 나머지 index, columns, dtype, copy는 별도로 명기를 안해줘도 디폴트 세팅이 적용되어서 DataFrame이 생성이 되긴 합니다.

 

 

In [2]: df_1 = df(data=np.arange(12).reshape(3, 4),

...: index=['r0', 'r1', 'r2'], # Will default to np.arange(n) if no indexing

...: columns=['c0', 'c1', 'c2', 'c3'],

...: dtype='int', # Data type to force, otherwise infer

...: copy=False) # Copy data from inputs

 

In [3]: df_1

Out[3]:
c0 c1 c2 c3
r0 0 1 2 3
r1 4 5 6 7
r2 8 9 10 11



출처: https://rfriend.tistory.com/253 [R, Python 분석과 프로그래밍의 친구 (by R Friend)]

728x90

+ Recent posts