6. 데이터 로딩, 저장, 파일 형식¶

6.1 텍스트 파일 이용하는 방법¶

파이썬 좋은 이유¶

단순한 문법
직관적인 자료 구조
튜플에 데이터를 저장하고 읽어내는 편리한 기능

pandas 파일 파싱 함수¶

read_csv: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉼표(,)를 기본으로 한다.
read_table: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 탭('\t')을 기본으로 한다.
read_fwf: 고정폭 칼럼 형식에서 데이터를 읽어온다(구분자가 없는 데이터)
read_clipboard: 클립보드에 있는 데이터를 읽어오는 read_table 함수. 웹페이지에서 표를 긁어올 때 유용하다.

pandas 파일 파싱 함수 옵션¶

색인: 반환하는 DataFrame에서 하나 이상의 칼럼을 색인으로 지정할 수 있다. 파일이나 사용자로부터 칼럼의 이름을 받거나 아무것도 받지 않을 수 있다.
자료형 추론과 데이터 변환: 사용자 정의 값 변환과 비어있는 값을 위한 사용자 리스트를 포함한다.
날짜 분석: 여러 칼럼에 걸쳐 있는 날짜와 시간 정보를 하나의 칼럼에 조합해서 결과에 반영한다.
반복: 여러 파일에 걸쳐 있는 자료를 반복적으로 읽어올 수 있다.
정제되지 않는 데이터 처리: 로우나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 일을 처리해준다.

자료형 추론은 매우 중요¶

어떤 칼럼이 숫자인지 불리언인지 지정해줄 필요가 없다

In [15]:

from pandas import DataFrame, Series
import pandas as pd

In [16]:

!cat ch06/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [17]:

df = pd.read_csv('ch06/ex1.csv')

In [18]:

df

Out[18]:

	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo

In [19]:

type(df)

Out[19]:

pandas.core.frame.DataFrame

In [20]:

pd.read_table('ch06/ex1.csv', sep=',')

Out[20]:

	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo

In [21]:

!cat ch06/ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [22]:

pd.read_csv('ch06/ex2.csv', header=None)

Out[22]:

	0	1	2	3	4
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo

In [23]:

pd.read_csv('ch06/ex2.csv', names=['a', 'b', 'c', 'message'])

Out[23]:

	a	b	c	message
1	2	3	4	hello
5	6	7	8	world
9	10	11	12	foo

In [24]:

names = ['a', 'b', 'c', 'd', 'message']

In [25]:

# message -> index
pd.read_csv('ch06/ex2.csv', names=names, index_col='message')

Out[25]:

	a	b	c	d
message
hello	1	2	3	4
world	5	6	7	8
foo	9	10	11	12

In [26]:

!cat ch06/csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16

계층적 색인을 지정하고 싶다면 칼럼 번호나 이름의 리스트를 넘긴다¶

In [27]:

parsed = pd.read_csv('ch06/csv_mindex.csv', index_col=['key1', 'key2'])

In [28]:

parsed

Out[28]:

		value1	value2
key1	key2
one	a	1	2
	b	3	4
	c	5	6
	d	7	8
two	a	9	10
	b	11	12
	c	13	14
	d	15	16

고정된 구분자가 없다면 read_table의 구분자로 정규표현식(파이썬 – 정규식표현식(Regular Expression) 모듈, 번역 파이썬 정규표현식)을 사용하면 된다.¶

In [29]:

list(open('ch06/ex3.txt'))

Out[29]:

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

직접 파일을 고쳐도 되지만 이 파일은 여러 개의 공백문자로 필드가 구분되어 있으므로 이를 표현할 수 있는 정규표현식 \s+를 사용해서 처리¶

In [30]:

result = pd.read_table('ch06/ex3.txt', sep='\s+')

In [31]:

result

Out[31]:

	A	B	C
aaa	-0.264438	-1.026059	-0.619500
bbb	0.927272	0.302904	-0.032399
ccc	-0.264273	-0.386314	-0.217601
ddd	-0.871858	-0.348382	1.100491

이 경우, 첫번째 로우는 다른 로우보다 칼럼이 하나 적기 때문에 read_table은 첫 번째 칼럼이 DataFrame의 색인이 되어야 한다고 추론¶

read_table과 read_csv의 차이점은??¶

read_csv: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉼표(,)를 기본으로 한다.
read_table: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 탭('\t')를 기본으로 한다.

그러니 둘 다 사용을 해도 되지만 왠만하면 read_csv 같은 경우는 csv 파일만 사용을 하고 나머지 특별한 경우를 read_table로 활용¶

In [32]:

pd.read_csv('ch06/ex3.txt', delimiter='\s+')

Out[32]:

	A	B	C
aaa	-0.264438	-1.026059	-0.619500
bbb	0.927272	0.302904	-0.032399
ccc	-0.264273	-0.386314	-0.217601
ddd	-0.871858	-0.348382	1.100491

IO Tools(Text, CSV, HDF5, ⋯) example ¶

파서 함수는 파일 형식에서 발생할 수 있는 매우 다양한 예외를 잘 처리할 수 있도록 많은 추가 인자를 가지고 있다.
skiprows를 이용해서 첫번째, 세번째, 네번째 로우를 건너뛸 수 있음

In [33]:

# Read CSV(comma-separated) file into DataFrame
pd.read_csv?

In [34]:

!cat ch06/ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [35]:

pd.read_csv('ch06/ex4.csv', skiprows=[0, 2, 3])

Out[35]:

	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo

In [36]:

!cat ch06/ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

In [37]:

result = pd.read_csv('ch06/ex5.csv')

In [38]:

result

Out[38]:

	something	a	b	c	d	message
0	one	1	2	3	4	NaN
1	two	5	6	NaN	8	world
2	three	9	10	11	12	foo

In [39]:

pd.isnull(result)

Out[39]:

	something	a	b	c	d	message
0	False	False	False	False	False	True
1	False	False	False	True	False	False
2	False	False	False	False	False	False

na_values 옵션은 리스트나 문자열 집합을 받아서 누락된 값을 처리¶

Why? na_values를 사용하지?¶

특정한 값들은 계산을 하지 않으려고??? 음..

In [40]:

result = pd.read_csv('ch06/ex5.csv', na_values=['NULL'])

In [41]:

result

Out[41]:

	something	a	b	c	d	message
0	one	1	2	3	4	NaN
1	two	5	6	NaN	8	world
2	three	9	10	11	12	foo

In [42]:

# world를 NA값으로 처리하니 NaN으로 나온다.
# 특정한 값을 NA 처리할 수 있을것 같다.
pd.read_csv('ch06/ex5.csv', na_values=['world'])

Out[42]:

	something	a	b	c	d	message
0	one	1	2	3	4	NaN
1	two	5	6	NaN	8	NaN
2	three	9	10	11	12	foo

열마다 다른 NA 문자를 사전 값으로 넘겨 처리 가능¶

In [43]:

sentinels = {'message': ['foo', 'NA'], 'something': ['two']}

In [44]:

pd.read_csv('ch06/ex5.csv', na_values=sentinels)

Out[44]:

	something	a	b	c	d	message
0	one	1	2	3	4	NaN
1	NaN	5	6	NaN	8	world
2	three	9	10	11	12	NaN

In [45]:

result = pd.read_csv('ch06/ex6.csv')

In [46]:

result

Out[46]:

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 0 to 9999
Data columns (total 5 columns):
one      10000  non-null values
two      10000  non-null values
three    10000  non-null values
four     10000  non-null values
key      10000  non-null values
dtypes: float64(4), object(1)

nrows로 처음 몇 줄만 읽어볼 수 있다.¶

리눅스의 head 파일이름 과 같다고 생각하면 된다.

In [47]:

pd.read_csv('ch06/ex6.csv', nrows=5)

Out[47]:

	one	two	three	four	key
0	0.467976	-0.038649	-0.295344	-1.824726	L
1	-0.358893	1.404453	0.704965	-0.200638	B
2	-0.501840	0.659254	-0.421691	-0.057688	G
3	0.204886	1.074134	1.388361	-0.982404	R
4	0.354628	-0.133116	0.283763	-0.837063	Q

TextParser 객체를 이용해서 chunksize에 따라 분리된 파일을 순회 가능¶

In [48]:

chunker = pd.read_csv('ch06/ex6.csv', chunksize=1000)

In [49]:

chunker

Out[49]:

<pandas.io.parsers.TextFileReader at 0x109b87f90>

In [50]:

chunker = pd.read_csv('ch06/ex6.csv', chunksize=1000)

tot = Series([])
for piece in chunker:
    tot = tot.add( piece['key'].value_counts(), fill_value=0)

tot = tot.order(ascending=False)

In [51]:

tot[:10]

Out[51]:

E    368
X    364
L    346
O    343
Q    340
M    338
J    337
F    335
K    334
H    330
dtype: float64

6.1.2 데이터를 텍스트 형식으로 기록하기¶

In [52]:

data = pd.read_csv('ch06/ex5.csv')

In [53]:

data

Out[53]:

	something	a	b	c	d	message
0	one	1	2	3	4	NaN
1	two	5	6	NaN	8	world
2	three	9	10	11	12	foo

In [54]:

data.to_csv('ch06/out.csv')

In [55]:

!cat ch06/out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo

In [56]:

data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo

In [57]:

# Write DataFrame to a comma-separated value (csv) file
# na_rep -> Missing data representation. NA REPresentation
data.to_csv?

na_rep로 누락된값을 원하는 값으로 변경 가능¶

In [58]:

data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo

In [59]:

data.to_csv(sys.stdout, na_rep='NaN')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NaN
1,two,5,6,NaN,8,world
2,three,9,10,11.0,12,foo

row, column 값을 저장할 것인지 선택 가능¶

In [60]:

data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo

커럼의 일부분만 기록 가능, 순서를 직접 지정 가능¶

In [61]:

data.to_csv(sys.stdout, index=False, cols=['a', 'b', 'c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0

Series에도 to_csv method 존재¶

In [62]:

dates = pd.date_range('1/1/2000', periods=7)

In [63]:

ts = Series(np.arange(7), index=dates)

In [64]:

ts.to_csv('ch06/tseries.csv')

In [65]:

!cat ch06/tseries.csv

2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6

약간 복잡하게 헤더를 없애고 첫 번째 칼럼을 색인으로 하면 read_csv 메서드로 Series 객체를 얻을 수 있지만 from_csv 메서드가 좀 더 편리하고 간단하게 문제 해결¶

In [66]:

pd.DataFrame.to_csv?

In [67]:

Series.from_csv('ch06/tseries.csv', parse_dates=True)

Out[67]:

2000-01-01    0
2000-01-02    1
2000-01-03    2
2000-01-04    3
2000-01-05    4
2000-01-06    5
2000-01-07    6
dtype: int64

In [68]:

type( Series.from_csv('ch06/tseries.csv', parse_dates=True) )

Out[68]:

pandas.core.series.Series

In [69]:

# parse dates: boolean, default True.
# Parse dates. Different default from read_table
Series.from_csv?

read_csv를 Series로 읽을 수 있다고 실험하는 중인데 잘 안되네..¶

DataFrame으로 읽어짐

In [70]:

pd.read_csv('ch06/tseries.csv', header=None)

Out[70]:

	0	1
0	2000-01-01	0
1	2000-01-02	1
2	2000-01-03	2
3	2000-01-04	3
4	2000-01-05	4
5	2000-01-06	5
6	2000-01-07	6

In [71]:

type(pd.read_csv('ch06/tseries.csv', header=None))

Out[71]:

pandas.core.frame.DataFrame

In [72]:

pd.read_csv?

6.1.3 수동으로 구분 형식 처리하기¶

read_table에서 읽을 수 없는 잘못된 형식의 줄이 포함된 데이터가 드물게 발견 됨 -> 수동 처리¶

In [73]:

!cat ch06/ex7.csv

"a","b","c"
"1","2","3"
"1","2","3","4"

In [74]:

import csv
f = open('ch06/ex7.csv')

reader = csv.reader(f)

In [75]:

for line in reader:
    print line

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3', '4']

In [76]:

lines = list(csv.reader(open('ch06/ex7.csv')))

In [77]:

header, values = lines[0], lines[1:]

In [78]:

header

Out[78]:

['a', 'b', 'c']

In [79]:

values

Out[79]:

[['1', '2', '3'], ['1', '2', '3', '4']]

In [80]:

# header = a,b,c
# values를 1,1을 같이 묶는다. 2,2 묶고. 3,3 묶고. 4는 header가 a,b,c 3개 밖에 없기 때문에 포함되지 않는다.
data_dict = {h: v for h, v in zip(header, zip(*values))}

In [81]:

data_dict

Out[81]:

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

CSV 파일은 다양한 파일 존재하기 때문에 다양한 옵션들은 csv.Dialect 상속받아 해결¶

다양한 구분자
문자열을 둘러싸는 방법
개행문자

In [82]:

class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'

reader = csv.reader

In [83]:

reader = csv.reader?

In [ ]:

reader = csv.reader

In [84]:

reader = csv.reader

TypeError: "quoting" must be an integer¶

_csv.Error: field larger than field limit (131072) 참고

In [85]:

# quoting이 꼭 integer여야 한다는 오류가 발생해서 삽질하다가 뒤에 quoting keyword를 붙여줌..
reader = csv.reader(f, dialect=my_dialect)

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-85-92557f61d368> in <module>()
      1 # quoting이 꼭 integer여야 한다는 오류가 발생해서 삽질하다가 뒤에 quoting keyword를 붙여줌..
----> 2 reader = csv.reader(f, dialect=my_dialect)

TypeError: "quoting" must be an integer

In [86]:

reader = csv.reader(f, dialect=my_dialect, quoting=csv.QUOTE_NONE)

In [87]:

csv.QUOTE_NONE

Out[87]:

In [88]:

reader = csv.reader(f, delimiter='|')

13.1. csv — CSV File Reading and Writing ¶

In [89]:

# 어떤 옵션들 있는지 보려고 했더니 안 보여주네...
csv.reader??

CSV Note¶

좀 더 복잡하거나 구분자가 한 글자를 초과하는 고정 길이를 가진다면 csv 모듈을 사용할 수 없다.
이런 경우에는 줄을 나누고 문자열의 split 메서드나 정규표현식 메서드인 re.split 등을 이용해서 가공하는 작업을 해야 한다.

CSV 파일 기록¶

In [90]:

with open('mydata.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect, quoting=csv.QUOTE_NONE)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))

In [91]:

!cat mydata.csv

one;two;three
1;2;3
4;5;6
7;8;9

JSON 데이터¶

JSON(JavaScript Object Notation)은 웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 형식 중 하나다.
JSON은 CSV 같은 표 형식의 텍스트보다 좀 더 유연한 데이터 형식이며, JSON 데이터의 예는 다음과 같다.

In [92]:

# json은 python에서처럼 '으로 하면 안된다. 현재 """로 감싸 문자열로 저장되어 있기 때문에 javascript에서는 '를 string 값으로 인식하지 않아서 에러 발생
obj = """
{
    'name': 'Wes',
    'places_lived': ['United States', 'Spain', 'Germany'],
    'pet': null, 'siblings': [{'name': 'Scott', 'age':25, 'pet':'Zuko'},
                                {'name': 'Katie', 'age':33, 'pet': 'Cisco'}]
}
"""

In [93]:

# ValueError: Expecting property name: line 3 column 5 (char 7)
result = json.loads(obj)

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-93-f05e1f9794f2> in <module>()
      1 # ValueError: Expecting property name: line 3 column 5 (char 7)
----> 2 result = json.loads(obj)

NameError: name 'json' is not defined

In [94]:

obj = """
{
    "name": "Wes",
    "places_lived": ["United States", "Spain", "Germany"],
    "pet": null, "siblings": [{"name": "Scott", "age":25, "pet":"Zuko"},
                                {"name": "Katie", "age":33, "pet": "Cisco"}]
}
"""

In [95]:

obj

Out[95]:

'\n{\n    "name": "Wes",\n    "places_lived": ["United States", "Spain", "Germany"],\n    "pet": null, "siblings": [{"name": "Scott", "age":25, "pet":"Zuko"},\n                                {"name": "Katie", "age":33, "pet": "Cisco"}]\n}\n'

JSON은 널 값인 null과 다른 몇 가지 사소한 주의사항(리스트의 마지막에 쉼표가 있으면 안된다던가 하는)을 제외하면 파이썬 코드와 거의 유사¶

기본 자료형은 객체(사전), 배열(리스트), 문자열, 숫자, 불리언 그리고 널
객체의 키는 반드시 문자열
JSON 읽고 쓸 수 있는 라이브러리가 몇 개 있지만 표준 라이브러리인 json 사용

In [96]:

import json

In [97]:

# ValueError: Expecting property name: line 3 column 5 (char 7)
result = json.loads(obj)

In [98]:

result

Out[98]:

{u'name': u'Wes',
 u'pet': None,
 u'places_lived': [u'United States', u'Spain', u'Germany'],
 u'siblings': [{u'age': 25, u'name': u'Scott', u'pet': u'Zuko'},
  {u'age': 33, u'name': u'Katie', u'pet': u'Cisco'}]}

json.dumps는 파이썬 객체를 JSON 형태로 변환¶

In [99]:

asjson = json.dumps(result)

In [100]:

# '가 아니라 "인 것을 확인하자
asjson

Out[100]:

'{"pet": null, "siblings": [{"pet": "Zuko", "age": 25, "name": "Scott"}, {"pet": "Cisco", "age": 33, "name": "Katie"}], "name": "Wes", "places_lived": ["United States", "Spain", "Germany"]}'

JSON 객체나 객체의 리스트를 DataFrame이나 다른 자료 구조로 어떻게 변환해서 분석을 할 것인지는 독자의 몫¶

JSON 객체의 리스트를 DataFrame 생성자로 넘기고 데이터 필드 선택 가능

In [101]:

siblings = DataFrame(result['siblings'], columns=['name', 'age'])

In [102]:

siblings

Out[102]:

	name	age
0	Scott	25
1	Katie	33

pandas에서 JSON을 빠르게 읽고(from_json) 쓰는(to_json) 네이티브 구현중¶

6.1.5 XML과 HTML: 웹 내용 긁어오기¶

lxml¶

아주 큰 파일을 빠르게 처리 가능
여러 종류의 인터페이스 제공
lxml.html, lxml.objectify를 이용해서 XML 처리

대부분의 웹사이트는 딱 필요한 내용만 들어있는 JSON이나 XML을 많이 사용하지 않고 HTML을 사용¶

In [103]:

from lxml.html import parse
from urllib2 import urlopen

# 데이터를 가져 올 url을 넘긴 후
# 데이터를 받아 온 후 parse
parsed = parse(urlopen('http://finance.yahoo.com/q/op?s=AAPL+Options'))

doc = parsed.getroot()

doc 객체에는 모든 HTML 태그 추출¶

우리가 관심 가져야 할 table 태그도 포함
어떻게 동작하는지 확인하기 위해 긁어온 HTML 문서에서 외부 연결 URL을 모두 찾아보자.
외부 연결은 a 태그로 지정
findall 메서드에 XPath(문서 질의 언어)를 사용해서 해당 엘리먼트를 가져올 수 있다.

XPath tutorial site¶

In [104]:

links = doc.findall('.//a')

In [105]:

links[15:20]

Out[105]:

[<Element a at 0x109d23590>,
 <Element a at 0x109d235f0>,
 <Element a at 0x109d23650>,
 <Element a at 0x109d236b0>,
 <Element a at 0x109d23710>]

이 객체는 HTML 엘리먼트를 표현하는 객체일 뿐¶

엘리먼트를 표현하는 객체라고 생각하자. 안 그러면 삽질하게 된다!
URL과 링크 이름을 가져오려면 각 엘리먼트에 대해 get 메서드를 호출하여 URL을 얻고, text_content 메서드를 이용해서 링크 이름을 가져와야 한다.

In [106]:

lnk = links[28]

In [107]:

lnk

Out[107]:

<Element a at 0x109d23a70>

In [108]:

lnk.get('href')

Out[108]:

'https://edit.yahoo.com/mc2.0/eval_profile?.intl=us&.lang=en-US&.done=http://finance.yahoo.com/q/op%3fs=AAPL%2bOptions&.src=quote&.intl=us&.lang=en-US'

In [109]:

lnk.text_content()

Out[109]:

'Account Info'

list comprehensions in Python ¶

In [110]:

urls = [lnk.get('href') for lnk in doc.findall('.//a')]

In [111]:

urls[-10:]

Out[111]:

['/q/op?s=AAPL&k=580.000000',
 '/q?s=AAPL140328P00580000',
 '/q/op?s=AAPL&k=600.000000',
 '/q?s=AAPL140328P00600000',
 '/q/os?s=AAPL&m=2014-03-28',
 'http://help.yahoo.com/l/us/yahoo/finance/quotes/fitadelay.html',
 'http://billing.finance.yahoo.com/realtime_quotes/signup?.src=quote&.refer=quote',
 'http://www.capitaliq.com',
 'http://www.csidata.com',
 'http://www.morningstar.com/']

찾고자 하는 table 일일이 확인¶

몇몇 웹사이트는 table마다 id 속성을 줘서 쉽게 할 수 있지만 어디 세상 일이 쉽게 되는게 있나? 노가다 해야지..

In [112]:

tables = doc.findall('.//table')

In [113]:

calls = tables[9]

In [114]:

puts = tables[13]

In [115]:

rows = calls.findall('.//tr')

웹페이지 구조가 안 바뀌었네.¶

책을 쓴게 2012년 10월 29일인데 아직까지 안 바뀌다니...

In [116]:

def _unpack(row, kind='td'):
    elts = row.findall('.//%s' % kind)
    return [val.text_content() for val in elts]

In [117]:

_unpack(rows[0], kind='th')

Out[117]:

['Strike', 'Symbol', 'Last', 'Chg', 'Bid', 'Ask', 'Vol', 'Open Int']

In [118]:

_unpack(rows[1], kind='td')

Out[118]:

['440.00',
 'AAPL7140328C00440000',
 '94.04',
 ' 0.00',
 '98.30',
 '102.15',
 '1',
 '1']

단계들을 통합하여 웹에서 긁어온 데이터를 DataFrame으로 변환¶

숫자 데이터지만 여전히 문자열 형식으로 저장되어 있으므로 적절하게 변환을 해줘야 하는데 모든 데이터가 실수형은 아닐 것이므로 이 작업은 수동으로 처리
하지만 운 좋겠도 pandas에는 TextParser 클래스가 있어 자동 형 변환을 적절하게 수행해준다.
TextParser 클래스는 read_csv 함수와 다른 파싱 함수에서도 사용

In [119]:

from pandas.io.parsers import TextParser

def parse_options_data(table):
    rows = table.findall('.//tr')
    header = _unpack(rows[0], kind='th')
    data = [_unpack(r) for r in rows[1:]]
    return TextParser(data, names=header).get_chunk()

마지막으로 lxml 테이블 객체를 위에서 작성한 파싱 함수를 이용해서 처리하면 DataFrame 결과값 얻을 수 있다¶

[옵션(금융) - wiki kr](http://ko.wikipedia.org/wiki/%EC%98%B5%EC%85%98_(%EA%B8%88%EC%9C%B5)¶

금융 데이터를 분석하는 것이기 때문에 금융 파트에 대한 도메인 지식이 있어야 한다. 내가 분석하려는 데이터가 어떠한 역할을 하는지 모르면 말짱 황!
옵션(option)은 파생 상품의 일종이며, 미리 결정된 기간 안에 특정 상품을 정해진 가격으로 사고 팔 수 있는 권리를 말한다.
call option: 특정 금융 상품을 정해진 가격에 매입할 수 있는 권리를 가진 매입 옵션(call option)
put option: 매도할 수 있는 권리를 가진 매도 옵션(put option)으로 나뉜다.

In [120]:

call_data = parse_options_data(calls)

In [121]:

put_data = parse_options_data(puts)

In [122]:

call_data[:10]

Out[122]:

	Strike	Symbol	Last	Chg	Bid	Ask	Vol	Open Int
0	440.0	AAPL7140328C00440000	94.04	0.00	98.30	102.15	1	1
1	450.0	AAPL140328C00450000	86.25	0.00	89.40	91.75	5	11
2	450.0	AAPL7140328C00450000	79.35	0.00	88.20	92.15	2	2
3	460.0	AAPL140328C00460000	69.52	0.00	78.50	81.80	3	3
4	470.0	AAPL140328C00470000	71.75	2.78	69.55	70.90	16	78
5	480.0	AAPL140328C00480000	68.05	17.45	59.65	61.75	11	32
6	485.0	AAPL140328C00485000	62.35	4.41	54.50	56.80	5	6
7	485.0	AAPL7140328C00485000	64.00	0.00	53.20	57.20	0	1
8	490.0	AAPL140328C00490000	58.50	7.09	49.30	50.90	1	60
9	492.5	AAPL140328C00492500	37.15	0.00	46.30	49.10	5	5

In [123]:

put_data[:10]

Out[123]:

	Strike	Symbol	Last	Chg	Bid	Ask	Vol	Open Int
0	430	AAPL140328P00430000	0.01	0.00	N/A	0.01	6	164
1	440	AAPL140328P00440000	0.01	0.00	N/A	0.01	105	236
2	440	AAPL7140328P00440000	0.18	0.00	N/A	0.58	1	1
3	450	AAPL140328P00450000	0.01	0.00	N/A	0.01	27	771
4	460	AAPL140328P00460000	0.01	0.01	N/A	0.01	10	281
5	460	AAPL7140328P00460000	0.15	0.00	N/A	0.07	20	20
6	470	AAPL140328P00470000	0.01	0.01	N/A	0.02	2	493
7	480	AAPL140328P00480000	0.02	0.00	N/A	0.02	1	1,065
8	485	AAPL140328P00485000	0.01	0.02	0.01	0.02	63	781
9	485	AAPL7140328P00485000	0.21	0.00	N/A	0.26	10	10

lxml.objectify 이용해 XML 파싱하기¶

XML(eXtensible Markup Language)은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 또 다른 유명한 데이터 형식이다. 지금 이 책도 실제로는 XML 문서로 작성
뉴욕 MTA(Metropolitan Transportation Authority)는 버스와 전철 운영에 관한 여러 가지 데이터 공개
살펴볼 것은 여러 XML 파일로 제공되는 실적 자료
전철과 버스 운영은 매월 아래와 비슷한 내용의 각각 다른 파일(Metro-North Railroad의 경우 Preformance_MNR.xml 같은)로 제공

짜증나게 Performance_MNR.xml을 어떻게 받는지 모르겠다.¶

소스파일을 6장을 뒤져봐도 없고
홈페이지에는 아마 XML 구조가 바뀐듯 싶다.
그래서 최후의 수단으로 얼마 안되서 그냥 내가 일일이 쳤다.
XML은 엄격하기 때문에 하나라도 오타가 있으면 오류 발생하므로 주의!

In [124]:

%%writefile Performance_MNR.xml
<INDICATOR>
    <INDICATOR_SEQ>373889</INDICATOR_SEQ>
    <PARENT_SEQ></PARENT_SEQ>
    <AGENCY_NAME>MEtro-North Railroad</AGENCY_NAME>
    <INDICATOR_NAME>Escalator Availability</INDICATOR_NAME>
    <DESCRIPTION>Percent of the time that escalators are operational systemwide. The availability rate is based on physical observations performed the morning of regular business days only. This is a new indicator the agency began reporting in 2009.</DESCRIPTION>
    <PERIOD_YEAR>2011</PERIOD_YEAR>
    <PERIOD_MONTH>12</PERIOD_MONTH>
    <CATEGORY>Service Indicators</CATEGORY>
    <FREQUENCY>M</FREQUENCY>
    <DESIRED_CHANGE>U</DESIRED_CHANGE>
    <INDICATOR_UNIT>%</INDICATOR_UNIT>
    <DECIMAL_PLACES>1</DECIMAL_PLACES>
    <YTD_TARGET>97.00</YTD_TARGET>
    <YTD_ACTUAL></YTD_ACTUAL>
    <MONTHLY_TARGET>97.00</MONTHLY_TARGET>
    <MONTHLY_ACTUAL></MONTHLY_ACTUAL>
</INDICATOR>

Overwriting Performance_MNR.xml

In [125]:

from lxml import objectify
import urllib2

path = 'Performance_MNR.xml'
# online_path = 'http://www.mta.info/developers/data/lirr/lirr_gtfs.xml'

# data = urllib2.urlopen(online_path).read()
# f = open(path, 'w')
# f.write(data)
# f.close()

parsed = objectify.parse(open(path))
root = parsed.getroot()

In [126]:

data = []

In [127]:

skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']

root.INDICATOR를 통해 모든 엘리먼트를 끄집어 낼 수 있다

각각의 항목에 대해 몇몇 태그는 제외하고 태그 이름(YTD_ACTUAL 같은)을 키 값으로 하는 사전을 만들어 냄

In [128]:

# root.INDICATOR -> root

for elt in root:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

In [129]:

data

Out[129]:

[{'AGENCY_NAME': 'MEtro-North Railroad',
  'CATEGORY': 'Service Indicators',
  'DESCRIPTION': 'Percent of the time that escalators are operational systemwide. The availability rate is based on physical observations performed the morning of regular business days only. This is a new indicator the agency began reporting in 2009.',
  'FREQUENCY': 'M',
  'INDICATOR_NAME': 'Escalator Availability',
  'INDICATOR_UNIT': '%',
  'MONTHLY_ACTUAL': u'',
  'MONTHLY_TARGET': 97.0,
  'PERIOD_MONTH': 12,
  'PERIOD_YEAR': 2011,
  'YTD_ACTUAL': u'',
  'YTD_TARGET': 97.0}]

In [130]:

# 위의 값과 비교하기 위해 테스트 해본 것
for elt in root:
    for child in elt.getchildren():
        print child.tag, child.pyval

INDICATOR_SEQ 373889
PARENT_SEQ 
AGENCY_NAME MEtro-North Railroad
INDICATOR_NAME Escalator Availability
DESCRIPTION Percent of the time that escalators are operational systemwide. The availability rate is based on physical observations performed the morning of regular business days only. This is a new indicator the agency began reporting in 2009.
PERIOD_YEAR 2011
PERIOD_MONTH 12
CATEGORY Service Indicators
FREQUENCY M
DESIRED_CHANGE U
INDICATOR_UNIT %
DECIMAL_PLACES 1
YTD_TARGET 97.0
YTD_ACTUAL 
MONTHLY_TARGET 97.0
MONTHLY_ACTUAL

5장에서 사전 형식은 DataFrame으로 변환할 수 있다는 것 참고¶

In [131]:

perf = DataFrame(data)

In [132]:

perf

Out[132]:

	AGENCY_NAME	CATEGORY	DESCRIPTION	FREQUENCY	INDICATOR_NAME	INDICATOR_UNIT	MONTHLY_ACTUAL	MONTHLY_TARGET	PERIOD_MONTH	PERIOD_YEAR	YTD_ACTUAL	YTD_TARGET
0	MEtro-North Railroad	Service Indicators	Percent of the time that escalators are operat...	M	Escalator Availability	%		97	12	2011		97

6.2 이진 데이터 형식¶

데이터를 효율적으로 저장하는 가장 손쉬운 방법¶

파이썬에 기본으로 내장되어 있는 pickle 직렬화를 통해 데이터를 이진 형식으로 저장하는 것
편리하게도 pandas의 객체는 모두 pickle을 이용해서 데이터를 저장하는 save 메서드 있음

In [133]:

frame = pd.read_csv('ch06/ex1.csv')

In [134]:

frame

Out[134]:

	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo

In [135]:

frame.save('ch06/frame_pickle')

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/generic.py:720: FutureWarning: save is deprecated, use to_pickle
  warnings.warn("save is deprecated, use to_pickle", FutureWarning)

In [136]:

pd.load('ch06/frame_pickle')

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/common.py:2306: FutureWarning: load is deprecated, use read_pickle
  warnings.warn("load is deprecated, use read_pickle", FutureWarning)

Out[136]:

	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo

pickle 사용시 주의사항¶

pickle은 오래 보관할 필요가 없는 데이터에만 추천
오랜 시간이 지나도 안정적으로 데이터를 저장할 거라고 보장 못함

6.2.1 HDF5 형식 사용하기¶

디스크에 이진 형식으로 저장된 대용량의 과학 자료를 효율적으로 읽고 쓸 수 있는 다양한 도구 존재
산업 기준에 맞는 인기 라이브러리중 하나가 HDF5(Hierarchical Data Format), 계층적 데이터 형식
내부적으로 파일 시스템 같은 노드 구조
여러 개의 데이터셋을 저장하고 부가 정보 기록 가능
다양한 압축 기술을 사용해서 on-the-fly(실시간) 압축 지원
반복되는 패턴을 가진 데이터 좀 더 효과적 저장
메모리에 모두 적재할 수 없는 엄ㅊ어나게 큰 데이터를 아주 큰 배열에서 필요한 만큼의 작은 부분들만 효과적으로 읽고 쓸 수 있는 훌륭한 선택
PyTables: HDF5를 추상화하여 여러가지 유연한 데이터 컨테이너와 테이블 색인, 질의 기능 그리고 외부 메모리 연산(out-of-core, external memory algorithm) 지원
h5py: 직접적이지만 고수준의 HDF5 API에 대한 인터페이스 제공
pandas는 PyTable를 이용한 HDFStore라는 가벼운 사전 클래스를 통해 pandas 객체를 저장

In [137]:

store = pd.HDFStore('mydata.h5')

---------------------------------------------------------------------------
Exception                                 Traceback (most recent call last)
<ipython-input-137-35f4287dfd8f> in <module>()
----> 1 store = pd.HDFStore('mydata.h5')

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/io/pytables.pyc in __init__(self, path, mode, complevel, complib, fletcher32, **kwargs)
    343             import tables as _
    344         except ImportError:  # pragma: no cover
--> 345             raise Exception('HDFStore requires PyTables')
    346 
    347         self._path = path

Exception: HDFStore requires PyTables

HDFStore를 사용하기 위해서는 PyTables 라이브러리를 설치해야 한다.¶

그냥 테스트기 때문에 pass 한다.
이런게 있다는 것만 indexing 해두고 나중에 필요하면 찾아보자!

데이터 분석 문제¶

대부분 CPU보다는 IO 성능에 의존적
HDF5는 데이터베이스가 아니다. HDF5는 한 번만 기록하고 여러 번 자주 읽어야 하는 데이터에 최적화되어 있다. 데이터는 아무때나 파일에 추가할 수 있지만 만약 여러 곳에서 동시에 파일을 쓴다면 파일이 깨지는 문제가 발생할 수 있다.

6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기¶

pandas는 ExcelFile 클래스를 통해 마이크로소프트 엑셀 2003 이후 버전의 데이터를 읽기 가능
내부적으로 ExcelFile 클래스는 xlrd, openpyxl 패키지 활용. 사용하기 전에 먼저 설치

In [138]:

xls_file = pd.ExcelFile('data.xls')

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-138-42764eb0b1ec> in <module>()
----> 1 xls_file = pd.ExcelFile('data.xls')

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/io/excel.pyc in __init__(self, path_or_buf, **kwds)
     71     def __init__(self, path_or_buf, **kwds):
     72 
---> 73         import xlrd  # throw an ImportError if we need to
     74 
     75         ver = tuple(map(int, xlrd.__VERSION__.split(".")[:2]))

ImportError: No module named xlrd

In [139]:

table = xls_file.parse('Sheet1')

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-139-b85a48af3b10> in <module>()
----> 1 table = xls_file.parse('Sheet1')

NameError: name 'xls_file' is not defined

6.3 HTML, 웹 API와 함꼐 사용하기¶

Requests: HTTP for Humans ¶

urllib2보다 더 간편
similar code, without Requests.

트위터 분석 문제 발생¶

트위터는 처음에 아무런 인증없이 API를 제공하다 망 과부하가 발생하자 OAuth 인증 방식으로 변경
OAuth2 - API 인증을 위한 만능도구상자
Twitter API
지금은 인증 문제 때문에 pass 하겠음

In [140]:

import requests

In [141]:

url = 'http://search.twitter.com/search.json?q=python%20pandas'

In [142]:

resp = requests.get(url)

In [143]:

resp

Out[143]:

<Response [401]>

In [144]:

resp.text

Out[144]:

u'{"errors":[{"message":"The Twitter REST API v1 is no longer active. Please migrate to API v1.1. https://dev.twitter.com/docs/api/1.1/overview.","code":64}]}'

조금만 수고를 하면 평범한 웹 API를 위한 고수준의 인터페이스를 만들어서 DataFrame에 저장하고 쉽게 분석 작업 수행 가능¶

6.4 데이터베이스와 함께 사용하기¶

대부분의 애플리케이션은 텍스트 파일에서 데이터를 읽어오지 않음
왜냐하면 대용량의 데이터를 저장하기에 텍스트 파일은 상당히 비효율적
SQL 기반의 관계형 데이터 베이스가 많이 사용됨. MySql 같은
최근 유명해진 NoSQL이라 불리는 비 SQL 기반의 데이터베이스도 많이 사용됨
SQL vs NoSQL은 서로 각각의 장점을 파악하고 자신의 업무에 맞는 DB를 선택
SQL에서 데이터를 읽어와서 DataFrame에 저장하는 방법은 꽤 직관적

In [145]:

import sqlite3

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
c REAL, d INTEGER
);"""

con = sqlite3.connect(':memory:')
con.execute(query)
con.commit()

In [146]:

data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]

stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"

con.executemany(stmt, data)
con.commit()

대부분의 파이썬 SQL 드라이버(PyODBC, psycopg2, MySQLdb, pymssql 등)는 테이블에 대해 select 쿼리를 수행하면 튜플 리스트를 반환한다

In [147]:

cursor = con.execute('select * from test')

In [148]:

rows = cursor.fetchall()

In [149]:

rows

Out[149]:

[(u'Atlanta', u'Georgia', 1.25, 6),
 (u'Tallahassee', u'Florida', 2.6, 3),
 (u'Sacramento', u'California', 1.7, 5)]

반환된 튜플 리스트를 DataFrame 생성자에 바로 전달해도 되지만 칼럼의 이름을 지정해주면 더 편하다. cursor의 description 속성을 활용하자.

In [150]:

cursor.description

Out[150]:

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [151]:

DataFrame(rows, columns=zip(*cursor.description)[0])

Out[151]:

	a	b	c	d
0	Atlanta	Georgia	1.25	6
1	Tallahassee	Florida	2.60	3
2	Sacramento	California	1.70	5

데이터베이스에 쿼리를 보내려고 매번 이렇게 하는건 너무 귀찮음
pandas.io.sql 모듈의 read_frame 함수를 이용하면 간편하게 해결
그냥 select 쿼리문과 데이터 베이스 연결 객체(con)만 넘기면 된다

In [152]:

import pandas.io.sql as sql

In [153]:

sql.read_frame('select * from test', con)

Out[153]:

	a	b	c	d
0	Atlanta	Georgia	1.25	6
1	Tallahassee	Florida	2.60	3
2	Sacramento	California	1.70	5

6.4.1 MongoDB에 데이터 저장하고 불러오기¶

NoSQL 데이터베이스는 매우 다양한 형태
버클리DB나 도쿄캐비닛 같은 것은 사전처럼 키-값을 저장하기도 하고
또 다른 것은 기본 저장소는 사전 같은 객체를 사용하며 문서 기반으로 데이터를 저장하기도 한다.
이 책에서는 MongoDB를 예제로 선택
MongoDB 서버를 로컬에 설치하고 공식 드라이버인 pymongo를 사용해서 기본 포트로 번호로 연결
현재 필자의 컴퓨터에는 아직 설치하지 않음. 이런 형식으로 한다는 느낌만 가지자