Phython

[2주차] 손쉽게 다루는 해외주식 – 데이터분석기초, 해외주식 다루기

김꼬알 2023. 3. 7. 19:11

1. Pandas 기초

판다스는 파이썬에서 데이터를 쉽게 다룰 수 있게 해주는 라이브러리이다.

데이터프레임을 깔끔하게 볼 수 있고 열 붙이기, 값 찾기 등 다양한 기능을 쉽게 사용할 수 있다.

먼저 Pandas 라이브러리를 아래 코드를 입력해서 import 한다.

import pandas as pd
import numpy as np

numpy도 함께 쓰일 일이 있으므로 함께 import 한다.

 

기본 DataFrame 만들어보기

data = {
    'name' : ['영수','철수','영희','소희'],
    'age' : [20,15,38,8]
}

df = pd.DataFrame(data)

 

DataFrame 다루기 - 기초

  • 행 추가하기
doc = {
	'name':'세종',
	'age':14,
}
df = df.append(doc,ignore_index=True)
  • Colums 추가하기
df['city'] = ['서울','부산','부산','서울','서울']
  • 특정 Column만 뽑아보기
df[['name','city']]
  • 원하는 조건에 맞는 행만 뽑아보기
df[df['age'] < 20]
  • 특정 행에서의 뽑아보기
df.iloc[-1,0] # 마지막 행
df.iloc[0,0] # 첫 행

 

DataFrame 다루기 - 연산

  • 열을 정렬하기
df.sort_values(by='age',ascending=True)
  • 조건에 맞는 열을 추가하기
np.where(df['age'] > 20,'성인','청소년')
df['is_adult'] = np.where(df['age'] > 20,'성인','청소년')
  • 평균, 최대값, 최소값, 갯수 구하기
df['age'].mean()

df['age'].max()

df['age'].min()

df['age'].count()
  • 퀴즈 - 서울에 사는 사람 중 나이가 가장 많은 사람은 몇 살?
df[df['city'] == '서울']['age'].max()

//또는

df[df['city'] == '서울'].sort_values(by='age',ascending=False).iloc[0,1]

 

 

2. 엑셀 가져오기

  • 실제 데이터 import 해보기 - 엑셀 파일을 colab에 붙여넣기만 하면 된다.

 

  • 엑셀을 DataFrame으로 읽기
pd.read_excel('종목데이터.xlsx')
  • df 변수에 넣어두기
df = pd.read_excel('종목데이터.xlsx')
  • 앞, 뒤 5줄의 데이터만 확인하기
df.head()

df.tail()

df.head(20)
df.tail(20)

※ 소괄호 안에 숫자를 넣으면 해당 숫자만큼의 줄만 볼 수 있다.

 

  • 소수점 둘째자리까지만 출력하기
pd.options.display.float_format = '{:.2f}'.format