1. Pandas 기초
판다스는 파이썬에서 데이터를 쉽게 다룰 수 있게 해주는 라이브러리이다.
데이터프레임을 깔끔하게 볼 수 있고 열 붙이기, 값 찾기 등 다양한 기능을 쉽게 사용할 수 있다.
먼저 Pandas 라이브러리를 아래 코드를 입력해서 import 한다.
import pandas as pd
import numpy as np
numpy도 함께 쓰일 일이 있으므로 함께 import 한다.
기본 DataFrame 만들어보기
data = {
'name' : ['영수','철수','영희','소희'],
'age' : [20,15,38,8]
}
df = pd.DataFrame(data)
DataFrame 다루기 - 기초
- 행 추가하기
doc = {
'name':'세종',
'age':14,
}
df = df.append(doc,ignore_index=True)
- Colums 추가하기
df['city'] = ['서울','부산','부산','서울','서울']
- 특정 Column만 뽑아보기
df[['name','city']]
- 원하는 조건에 맞는 행만 뽑아보기
df[df['age'] < 20]
- 특정 행에서의 뽑아보기
df.iloc[-1,0] # 마지막 행
df.iloc[0,0] # 첫 행
DataFrame 다루기 - 연산
- 열을 정렬하기
df.sort_values(by='age',ascending=True)
- 조건에 맞는 열을 추가하기
np.where(df['age'] > 20,'성인','청소년')
df['is_adult'] = np.where(df['age'] > 20,'성인','청소년')
- 평균, 최대값, 최소값, 갯수 구하기
df['age'].mean()
df['age'].max()
df['age'].min()
df['age'].count()
- 퀴즈 - 서울에 사는 사람 중 나이가 가장 많은 사람은 몇 살?
df[df['city'] == '서울']['age'].max()
//또는
df[df['city'] == '서울'].sort_values(by='age',ascending=False).iloc[0,1]
2. 엑셀 가져오기
- 실제 데이터 import 해보기 - 엑셀 파일을 colab에 붙여넣기만 하면 된다.
- 엑셀을 DataFrame으로 읽기
pd.read_excel('종목데이터.xlsx')
- df 변수에 넣어두기
df = pd.read_excel('종목데이터.xlsx')
- 앞, 뒤 5줄의 데이터만 확인하기
df.head()
df.tail()
df.head(20)
df.tail(20)
※ 소괄호 안에 숫자를 넣으면 해당 숫자만큼의 줄만 볼 수 있다.
- 소수점 둘째자리까지만 출력하기
pd.options.display.float_format = '{:.2f}'.format
'Phython' 카테고리의 다른 글
[내일배움카드 코딩] 주식 데이터를 활용한 파이썬 데이터분석 강의 후기 (0) | 2023.03.29 |
---|---|
[5주차] 파이썬 백테스팅 2 (0) | 2023.03.29 |
[4주차] 파이썬 백테스팅 1 (0) | 2023.03.23 |
[3주차] DART 데이터 내 마음대로 활용 - DART-Open API 다루기 (2) | 2023.03.21 |
[1주차] 주식 데이터를 활용한 파이썬 데이터 분석 (0) | 2023.03.03 |