반응형

Python Pandas의 Dataframe을 특정 열(column)을 기준으로 한 정렬방법

 

1. 데이터프레임 생성

-. 엑셀로 간단한 테이블을 만든 후 txt 파일('Dataframe.txt')로 저장한다.

-. 아래 캡쳐는 주피터노트북 (Jupyter notebook) 상에서 해당 txt 파일을 열었을 때 보이는 것. 각 항목이 tab으로 구분되어 있다.

데이터 배열 캡쳐 @Jupyter notebook

 

-. txt 파일을 Dataframe으로 읽어오기 위한 코드 적용 (TSV, tab-seperated values)라고 부르는데, CSV의 comma 대신 tab으로 항목을 구분함.

import pandas as pd
dataFrame = pd.read_csv('Dataframe.txt', sep='\t')

 

TSV -> dataframe 변환 된 결과

 

2. 특정 컬럼 기준으로 정렬 (sort_values)

-. 판다스의 sort_values 기능을 이용한다. dataFrame.sort_values("컬럼명", 정렬기준)

dataFrame = dataFrame.sort_values("Level", ascending=False) #ascending=False: 내림차순, True: 오름차순. default는 True

 

level을 기준으로 내림차순 정렬

 

3. 인덱스 재설정 (reset_index)

-. 인덱스 재설정을 하면 기존 인덱스가 "index"컬럼으로 생성된다.

dataFrame.reset_index()

기존 인덱스 컬럼 ("index")가 남아있는 Dataframe

-. 지저분하니까 reset_index 시 기존 인덱스를 제거 (drop)한다.

dataFrame.reset_index(drop=True)

 

인덱스가 재설정 된 Dataframe

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기