본문 바로가기
반응형

Data Science/Data Analysis with Python11

11. Pandas With Python - 시계열 데이터 시계열 데이터란, 시간에 의하여 변하는 데이터를 말한다. 이러한 데이터를 다루기 위해 파이썬에서 시간을 다루는 방법과 시계열 데이터를 다루는 방법을 알아본다. #1 datetime 오브젝트 from datetime import datetime # 현재 시각 출력 print(datetime.now()) print(datetime.today()) # 특정 날짜, 시간 오브젝트 생성 print(datetime(1970, 1, 1)) print(datetime(1970, 12, 12, 13, 24, 34)) # 시간차이 계산 t1 = datetime.now() t2 = datetime(1970, 1, 1) print(t1 - t2) print(t2 - t1) 파이썬의 datetime 라이브러리를 활용하여 시간값.. 2020. 1. 6.
10. Pandas With Python - 그룹 연산 ㅁ데이터를 그룹화하여 처리하는 방법을 알아본다. #1 데이터 집계 import pandas as pd df = pd.read_csv("./data/gapminder.tsv", sep="\t") # year 열을 기준으로 그룹화한 후 lifeExp 열의 평균을 구하기 avg_life_exp_by_year = df.groupby("year").lifeExp.mean() print(avg_life_exp_by_year) groupby 메서드를 사용하여 특정 열을 기준으로 데이터를 그룹화하여 다룰 수 있다. # groupby 메서드의 분할-반영-결합 과정 살펴보기 # 분할 years = df.year.unique() print(years) # 1952년의 데이터 추출, '반영'의 한 작업 y1952 = df.l.. 2020. 1. 6.
9. Pandas With Python - apply 메서드 데이터프레임의 데이터를 활용 및 분석하기 위하여 apply메서드를 활용할 수 있다. 이에 대해 알아본다. #1 간단한 함수를 작성하고 apply 메서드 활용하기 # def 키워드를 이용해 아래와 같이 작성 def square(x) : return x ** 2 def n_square(x, n) : return x ** n # 아래와 같이 호출한다. print(square(3)) #2 apply 메서드 사용하기 import pandas as pd df = pd.DataFrame({'a' : [10, 20, 30], 'b' : [20, 30, 40]}) print(df) print(df['a'] ** 2) # apply를 통해 메서드를 적용시킨다. # 메서드의 인자가 하나라면 생략 #sq = df['a'].a.. 2020. 1. 6.
8. Pandas With Python - 문자열 처리 데이터를 다룰 때 문자열을 다룰 수 있는 능력은 중요하다. 데이터가 문자열로 들어오는 경우도 많거니와, 여러 데이터를 보기좋은 문자열로 구성하여 출력할 수 있어야 하기 때문이다. 이번 장에서는 Python을 활용하여 문자열을 다루는 방법을 알아본다. #1 문자열 다루기 word = 'grail' sent = 'a scratch' # 문자열은 리스트와 동일하다고 보면 편함 # 양수 인덱스는 0부터 length - 1 까지 # 음수 인덱스는 -length 부터 -1 까지 존재한다. # 양수 음수는 동일하게 작을수록 앞의 문자를 의미한다. print(word[0]) print(word[-1]) print(sent[0:3]) print(sent[-1:]) print(sent[-9:-4]) 문자열은 문자들의 리스.. 2020. 1. 6.
반응형