Pandas¶

가장 자주 살펴볼 라이브러리
고수준의 자료구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구 포함
NumPy 기반에서 개발되어 NumPy를 사용하는 애플리케이션에서 쉽게 사용

Pandas 개발 동기¶

자동적으로 혹인 명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조. 잘못 정렬된 데이터에 의한 일반적인 오류를 에방하고 다양한 소스에서 가져온 다양한 방식으로 색인되어 있는 데이터를 다룰 수 있는 기능
통합된 시계열 기능
시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
산술연산과 한 축의 모든 값을 더하는 등의 데이터 축약연산은 축의 이름 같은 메타데이터로 전달될 수 있어야 함
누락된 데이터를 유연하게 처리할 수 있는 기능
SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능

Pandas import 컨벤션¶

from pandas import Series, DataFrame

import pandas as pd

pd. 으로 시작하는게 좋지만 Series와 DataFrame은 많이 사용하기 때문에 local namespace로 import 하는 것이 훨씬 편함

5.1 pandas 자료 구조 소개¶

5.1.1. Series¶

Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조(어떤 NumPy 자료형이라도 담을 수 있다)
색인이라고 하는 배열의 데이터에 연관된 이름을 가지고 있다.

In [3]:

from pandas import Series, DataFrame
import pandas as pd

In [43]:

obj = Series([4, 7, -5, 3])

In [3]:

obj

Out[3]:

0    4
1    7
2   -5
3    3
dtype: int64

왼쪽에 색인
오른쪽에 색인의 값

In [4]:

obj.values

Out[4]:

array([ 4,  7, -5,  3])

In [5]:

obj.index

Out[5]:

Int64Index([0, 1, 2, 3], dtype=int64)

In [6]:

obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [7]:

obj2

Out[7]:

d    4
b    7
a   -5
c    3
dtype: int64

In [8]:

obj2.index

Out[8]:

Index([u'd', u'b', u'a', u'c'], dtype=object)

In [9]:

obj2['a']

Out[9]:

-5

In [10]:

obj2['d'] = 6

In [11]:

obj2[['c', 'a', 'd']]

Out[11]:

c    3
a   -5
d    6
dtype: int64

In [12]:

obj2

Out[12]:

d    6
b    7
a   -5
c    3
dtype: int64

불리언 배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열연산을 수행해도 색인-값 연결은 유지

In [14]:

obj2[obj2 > 0]

Out[14]:

d    6
b    7
c    3
dtype: int64

In [15]:

obj2 * 2

Out[15]:

d    12
b    14
a   -10
c     6
dtype: int64

In [16]:

np.exp(obj2)

Out[16]:

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Series == 고정 길이의 정렬된 사전형¶

In [19]:

'b' in obj2

Out[19]:

True

In [20]:

'e' in obj2

Out[20]:

False

In [21]:

sdata = {'Ohio': 35000,
         'Texas': 71000,
         'Oregon': 16000,
         'Utah': 5000}

In [22]:

obj3 = Series(sdata)

In [23]:

obj3

Out[23]:

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [24]:

states = ['California', 'Ohio', 'Oregon', 'Texas']

In [25]:

obj4 = Series(sdata, index=states)

In [26]:

obj4

Out[26]:

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: float64

NaN(not a number)¶

pandas에서는 누락된 값 혹은 NA 값으로 취급
'누락된'과 'NA'를 누락된 데이터로 지칭
pandas의 isnull과 notnull 함수는 누락된 함수를 찾을 때 사용

In [27]:

pd.isnull(obj4)

Out[27]:

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:

pd.notnull(obj4)

Out[28]:

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Series의 인스턴스 메서드¶

'hi'.isalpha()와 같이 인스턴스에서 바로 사용할 수 있는 편리함

In [29]:

obj4.isnull()

Out[29]:

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [30]:

obj4.notnull()

Out[30]:

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Seriese의 가장 중요한 기능 - 다르게 색인된 데이터에 대한 산술연산¶

다르게 색인된 데이터에 각각 값이 있어야 하며
intersection이 되지 않는다면 NaN 표시
intersecion이 된다면 해당 operator 연산

In [34]:

obj3

Out[34]:

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [35]:

obj4

Out[35]:

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: float64

In [36]:

obj3 + obj4

Out[36]:

California       NaN
Ohio           70000
Oregon         32000
Texas         142000
Utah             NaN
dtype: float64

Series 객체와 Series의 색인은 모두 name 속성 존재¶

In [37]:

obj4.name = 'population'

In [38]:

obj4.index.name = 'state'

In [39]:

obj4

Out[39]:

state
California      NaN
Ohio          35000
Oregon        16000
Texas         71000
Name: population, dtype: float64

In [44]:

obj

Out[44]:

0    4
1    7
2   -5
3    3
dtype: int64

In [45]:

obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [46]:

obj

Out[46]:

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [49]:

# 색인의 갯수를 맞춰줘야 한다. 당연하지.
obj.index = ['Bob', 'Steve', 'Jeff']

---------------------------------------------------------------------------
Exception                                 Traceback (most recent call last)
<ipython-input-49-f11031c3e9d5> in <module>()
----> 1 obj.index = ['Bob', 'Steve', 'Jeff']

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/generic.pyc in __setattr__(self, name, value)
   1271                 existing = getattr(self, name)
   1272                 if isinstance(existing, Index):
-> 1273                     object.__setattr__(self, name, value)
   1274                 elif name in self._info_axis:
   1275                     self[name] = value

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/lib.so in pandas.lib.AxisProperty.__set__ (pandas/lib.c:30028)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/series.pyc in _set_axis(self, axis, labels, fastpath)
    707         object.__setattr__(self, '_index', labels)
    708         if not fastpath:
--> 709             self._data.set_axis(axis, labels)
    710 
    711     def _set_subtyp(self, is_all_dates):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/internals.pyc in set_axis(self, axis, value)
   3031         if len(value) != len(cur_axis):
   3032             raise Exception('Length mismatch (%d vs %d)'
-> 3033                             % (len(value), len(cur_axis)))
   3034         self.axes[axis] = value
   3035         self._shape = None

Exception: Length mismatch (3 vs 4)

5.1.2. DataFrame¶

표 같은 스프레드시트 형식의 자료 구조로 여러 개의 컬럼
각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언) 담을 수 있다
DataFrame은 로우와 컬럼에 대한 색인 존재.
이 DataFrame은 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편하다.
R의 data.frame 같은 다른 DataFrame과 비슷한 자료 구조와 비교했을 때, DataFrame에서의 로우 연산과 컬럼 연산은 거의 대칭적으로 취급
내부적으로 데이터는 하나 이상의 2차원 배열에 저장
고차원의 표 형식 데이터를 나중에 살펴볼 계층적 색인(Hierachical indexing)을 통해 쉽게 표현(고급 기능에 필수적인 요소)

DataFrame 객체 생성¶

같은 길이의 리스트에 담긴 사전 이용
NumPy 배열 이용

In [483]:

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [484]:

frame = DataFrame(data)

In [485]:

frame

Out[485]:

	pop	state	year
0	1.5	Ohio	2000
1	1.7	Ohio	2001
2	3.6	Ohio	2002
3	2.4	Nevada	2001
4	2.9	Nevada	2002

In [486]:

DataFrame(data, columns=['year', 'state', 'pop'])

Out[486]:

	year	state	pop
0	2000	Ohio	1.5
1	2001	Ohio	1.7
2	2002	Ohio	3.6
3	2001	Nevada	2.4
4	2002	Nevada	2.9

In [487]:

frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])

In [488]:

frame2

Out[488]:

	year	state	pop	debt
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	NaN
three	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	NaN
five	2002	Nevada	2.9	NaN

In [489]:

frame2.columns

Out[489]:

Index([u'year', u'state', u'pop', u'debt'], dtype=object)

In [490]:

type(frame2)

Out[490]:

pandas.core.frame.DataFrame

DataFrame 컬럼 접근 방법¶

사전 형식의 표기법으로 접근(frame2['state'])
속성 형식으로 접근(frame2.state)

In [491]:

frame2['state']

Out[491]:

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [492]:

frame2.state

Out[492]:

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [493]:

frame2.year

Out[493]:

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

로우는 위치나 ix같은 몇 가지 메서드를 통해 접근 가능¶

In [494]:

frame2.ix['three']

Out[494]:

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [495]:

# error 컬럼값인 year를 넣었을 시
frame2.ix['year']

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-495-c612730ce7cd> in <module>()
----> 1 frame2.ix['year']

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/indexing.pyc in __getitem__(self, key)
     52             return self._getitem_tuple(key)
     53         else:
---> 54             return self._getitem_axis(key, axis=0)
     55 
     56     def _get_label(self, label, axis=0):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/indexing.pyc in _getitem_axis(self, key, axis)
    582                     return self._get_loc(key, axis=axis)
    583 
--> 584             return self._get_label(key, axis=axis)
    585 
    586     def _getitem_iterable(self, key, axis=0):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/indexing.pyc in _get_label(self, label, axis)
     64             return self.obj._xs(label, axis=axis, copy=False)
     65         except Exception:
---> 66             return self.obj._xs(label, axis=axis, copy=True)
     67 
     68     def _get_loc(self, key, axis=0):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/frame.pyc in xs(self, key, axis, level, copy, drop_level)
   2171                                     drop_level=drop_level)
   2172         else:
-> 2173             loc = self.index.get_loc(key)
   2174 
   2175             if isinstance(loc, np.ndarray):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/index.pyc in get_loc(self, key)
    824         loc : int if unique index, possibly slice or mask if not
    825         """
--> 826         return self._engine.get_loc(_values_from_object(key))
    827 
    828     def get_value(self, series, key):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_loc (pandas/index.c:3330)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_loc (pandas/index.c:3210)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/hashtable.so in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:10484)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/hashtable.so in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:10438)()

KeyError: 'year'

In [66]:

# row name으로는 사전형식으로 접근 불가
frame2['three']

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-66-c83454b4dc1c> in <module>()
      1 # row name으로는 사전형식으로 접근 불가
----> 2 frame2['three']

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/frame.pyc in __getitem__(self, key)
   1827             return self._getitem_multilevel(key)
   1828         else:
-> 1829             return self._getitem_column(key)
   1830 
   1831     def _getitem_column(self, key):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/frame.pyc in _getitem_column(self, key)
   1834         # get column
   1835         if self.columns.is_unique:
-> 1836             return self._get_item_cache(key)
   1837 
   1838         # duplicate columns

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/generic.pyc in _get_item_cache(self, item)
    782         res = cache.get(item)
    783         if res is None:
--> 784             values = self._data.get(item)
    785             res = self._box_item_values(item, values)
    786             cache[item] = res

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/internals.pyc in get(self, item)
   2349     def get(self, item):
   2350         if self.items.is_unique:
-> 2351             _, block = self._find_block(item)
   2352             return block.get(item)
   2353         else:

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/internals.pyc in _find_block(self, item)
   2638 
   2639     def _find_block(self, item):
-> 2640         self._check_have(item)
   2641         for i, block in enumerate(self.blocks):
   2642             if item in block:

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/internals.pyc in _check_have(self, item)
   2645     def _check_have(self, item):
   2646         if item not in self.items:
-> 2647             raise KeyError('no item named %s' % com.pprint_thing(item))
   2648 
   2649     def reindex_axis(self, new_axis, indexer=None, method=None, axis=0, fill_value=None, limit=None, copy=True):

KeyError: u'no item named three'

In [67]:

frame2[0]

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-67-d9f68b2221a2> in <module>()
----> 1 frame2[0]

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/frame.pyc in __getitem__(self, key)
   1827             return self._getitem_multilevel(key)
   1828         else:
-> 1829             return self._getitem_column(key)
   1830 
   1831     def _getitem_column(self, key):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/frame.pyc in _getitem_column(self, key)
   1834         # get column
   1835         if self.columns.is_unique:
-> 1836             return self._get_item_cache(key)
   1837 
   1838         # duplicate columns

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/generic.pyc in _get_item_cache(self, item)
    782         res = cache.get(item)
    783         if res is None:
--> 784             values = self._data.get(item)
    785             res = self._box_item_values(item, values)
    786             cache[item] = res

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/internals.pyc in get(self, item)
   2349     def get(self, item):
   2350         if self.items.is_unique:
-> 2351             _, block = self._find_block(item)
   2352             return block.get(item)
   2353         else:

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/internals.pyc in _find_block(self, item)
   2638 
   2639     def _find_block(self, item):
-> 2640         self._check_have(item)
   2641         for i, block in enumerate(self.blocks):
   2642             if item in block:

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/internals.pyc in _check_have(self, item)
   2645     def _check_have(self, item):
   2646         if item not in self.items:
-> 2647             raise KeyError('no item named %s' % com.pprint_thing(item))
   2648 
   2649     def reindex_axis(self, new_axis, indexer=None, method=None, axis=0, fill_value=None, limit=None, copy=True):

KeyError: u'no item named 0'

컬럼 대입 가능¶

스칼라 값이나 배열의 값 대입 가능

In [68]:

frame2['debt'] = 16.5

In [69]:

frame2

Out[69]:

	year	state	pop	debt
one	2000	Ohio	1.5	16.5
two	2001	Ohio	1.7	16.5
three	2002	Ohio	3.6	16.5
four	2001	Nevada	2.4	16.5
five	2002	Nevada	2.9	16.5

In [70]:

frame2['debt'] = np.arange(5.)

In [71]:

frame2

Out[71]:

	year	state	pop	debt
one	2000	Ohio	1.5	0
two	2001	Ohio	1.7	1
three	2002	Ohio	3.6	2
four	2001	Nevada	2.4	3
five	2002	Nevada	2.9	4

In [74]:

# Length of values does not match length of index
frame2['debt'] = np.arange(10)

---------------------------------------------------------------------------
AssertionError                            Traceback (most recent call last)
<ipython-input-74-0ba39660d42a> in <module>()
      1 # Length of values does not match length of index
----> 2 frame2['debt'] = np.arange(10)

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/frame.pyc in __setitem__(self, key, value)
   1922         else:
   1923             # set column
-> 1924             self._set_item(key, value)
   1925 
   1926     def _setitem_slice(self, key, value):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/frame.pyc in _set_item(self, key, value)
   1969         ensure homogeneity.
   1970         """
-> 1971         value = self._sanitize_column(key, value)
   1972         NDFrame._set_item(self, key, value)
   1973 

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/frame.pyc in _sanitize_column(self, key, value)
   2010             else:
   2011                 if len(value) != len(self.index):
-> 2012                     raise AssertionError('Length of values does not match '
   2013                                          'length of index')
   2014 

AssertionError: Length of values does not match length of index

리스트나 배열을 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 같아야 한다.
Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 없는 색인에는 값이 대입되지 않는다.

In [75]:

val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [80]:

val

Out[80]:

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [81]:

type(val)

Out[81]:

pandas.core.series.Series

In [76]:

frame2['debt'] = val

In [77]:

frame2

Out[77]:

	year	state	pop	debt
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	-1.2
three	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	-1.5
five	2002	Nevada	2.9	-1.7

In [82]:

frame2['eastern'] = frame2.state == 'Ohio'

In [83]:

frame2

Out[83]:

	year	state	pop	debt	eastern
one	2000	Ohio	1.5	NaN	True
two	2001	Ohio	1.7	-1.2	True
three	2002	Ohio	3.6	NaN	True
four	2001	Nevada	2.4	-1.5	False
five	2002	Nevada	2.9	-1.7	False

In [84]:

del frame2['eastern']

In [85]:

frame2.columns

Out[85]:

Index([u'year', u'state', u'pop', u'debt'], dtype=object)

In [86]:

frame2

Out[86]:

	year	state	pop	debt
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	-1.2
three	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	-1.5
five	2002	Nevada	2.9	-1.7

DataFrame의 색인을 이용해서 생성된 칼럼은 내부 데이터에 대한 view이며 복사가 이루어지지 않는다.
따라서 이렇게 얻은 Series 객체에 대한 변경은 실제 DataFrame에 반영된다.
복사본이 필요할 때는 Series의 copy 메서드를 이용하자

중첩된 사전을 이용해서 데이터 생성¶

In [87]:

pop = {'Nevada': {2001: 2.4,
                  2002: 2.9},
       'Ohio': {2000: 1.5,
                2001: 1.7,
                2002: 3.6}}

In [88]:

pop

Out[88]:

{'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [89]:

type(pop)

Out[89]:

dict

In [90]:

frame3 = DataFrame(pop)

In [91]:

frame3

Out[91]:

	Nevada	Ohio
2000	NaN	1.5
2001	2.4	1.7
2002	2.9	3.6

In [92]:

type(frame3)

Out[92]:

pandas.core.frame.DataFrame

로우, 컬럼 변경¶

In [93]:

frame3.T

Out[93]:

	2000	2001	2002
Nevada	NaN	2.4	2.9
Ohio	1.5	1.7	3.6

index를 직접 지정한다면 지정된 색인으로 DataFrame 생성¶

In [96]:

DataFrame(pop, index=[2001, 2002, 2003])

Out[96]:

	Nevada	Ohio
2001	2.4	1.7
2002	2.9	3.6
2003	NaN	NaN

In [97]:

DataFrame(pop)

Out[97]:

	Nevada	Ohio
2000	NaN	1.5
2001	2.4	1.7
2002	2.9	3.6

Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급¶

In [98]:

pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}

In [99]:

pdata

Out[99]:

{'Nevada': 2000    NaN
2001    2.4
Name: Nevada, dtype: float64,
 'Ohio': 2000    1.5
2001    1.7
Name: Ohio, dtype: float64}

In [100]:

DataFrame(pdata)

Out[100]:

	Nevada	Ohio
2000	NaN	1.5
2001	2.4	1.7

In [101]:

frame3

Out[101]:

	Nevada	Ohio
2000	NaN	1.5
2001	2.4	1.7
2002	2.9	3.6

In [104]:

frame3.index.name = 'year'; frame3.columns.name = 'state'

In [105]:

frame3

Out[105]:

state	Nevada	Ohio
year
2000	NaN	1.5
2001	2.4	1.7
2002	2.9	3.6

새로운 index를 생성하려고 했는데 계속 바뀌기만 하네..?¶

In [116]:

frame3.index.name = 'year3';

In [117]:

frame3

Out[117]:

state2	Nevada	Ohio
year3
2000	NaN	1.5
2001	2.4	1.7
2002	2.9	3.6

In [118]:

 frame3.columns.name = 'state3'

In [119]:

frame3

Out[119]:

state3	Nevada	Ohio
year3
2000	NaN	1.5
2001	2.4	1.7
2002	2.9	3.6

In [120]:

frame3.values

Out[120]:

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

DataFrame의 칼럼에 서로 다른 dtype이 있다면 모든 칼럼을 수용하기 위해 그 칼럼 배열의 dtype이 선택된다.¶

In [122]:

frame2.values

Out[122]:

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

5.1.3 색인 객체¶

pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 칼럼에 대한 이름과 다른 메타데이터(축의 이름 등)를 저장하는 객체
Series나 DataFrame 객체를 생성할 때 사용하는 배열이나 혹은 다른 순차적인 이름은 내부적으로 색인으로 변환

In [125]:

obj = Series(range(3), index=['a', 'b', 'c'])

In [126]:

index = obj.index

In [127]:

index

Out[127]:

Index([u'a', u'b', u'c'], dtype=object)

In [128]:

index[1:]

Out[128]:

Index([u'b', u'c'], dtype=object)

In [129]:

# 색인 객체 변경 불가
index[1] = 'd'

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-129-676fdeb26a68> in <module>()
----> 1 index[1] = 'd'

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/base.pyc in _disabled(self, *args, **kwargs)
    139         """This method will not function because object is immutable."""
    140         raise TypeError("'%s' does not support mutable operations." %
--> 141                         self.__class__)
    142 
    143     __setitem__ = __setslice__ = __delitem__ = __delslice__ = _disabled

TypeError: '<class 'pandas.core.index.Index'>' does not support mutable operations.

In [134]:

index = pd.Index(np.arange(3))

In [135]:

index

Out[135]:

Int64Index([0, 1, 2], dtype=int64)

In [136]:

# index=는 키워드, 뒤의 index는 변수
obj2 = Series([1.5, -2.5, 0], index=index)

In [137]:

obj2

Out[137]:

0    1.5
1   -2.5
2    0.0
dtype: float64

In [138]:

obj2.index is index

Out[138]:

True

In [142]:

obj2.index

Out[142]:

Int64Index([0, 1, 2], dtype=int64)

In [143]:

index

Out[143]:

Int64Index([0, 1, 2], dtype=int64)

In [144]:

frame3

Out[144]:

state3	Nevada	Ohio
year3
2000	NaN	1.5
2001	2.4	1.7
2002	2.9	3.6

In [145]:

'Ohio' in frame3.columns

Out[145]:

True

In [146]:

2003 in frame3.index

Out[146]:

False

5.2 핵심 기능¶

5.2.1 재색인¶

In [148]:

obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [149]:

obj

Out[149]:

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 없는 색인 값이 있다면 비어있는 값을 새로 추가¶

In [150]:

obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [151]:

obj2

Out[151]:

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [152]:

obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

Out[152]:

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

객체가 원래 뷰에 대한 수정이 이루어지는 것인지? 아니면 복사한 객체에 대해 수정이 이루어지는 것인지? 명확하지 않다..¶

In [153]:

obj

Out[153]:

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

시계열 같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우¶

ffill을 사용하여 앞의 값으로 누락된 값을 채워 넣을 수 있다

In [154]:

obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

In [156]:

obj3

Out[156]:

0      blue
2    purple
4    yellow
dtype: object

In [155]:

obj3.reindex(range(6), method='ffill')

Out[155]:

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [157]:

frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'],
                  columns=['Ohio', 'Texas', 'California'])

In [158]:

frame

Out[158]:

	Ohio	Texas	California
a	0	1	2
c	3	4	5
d	6	7	8

In [159]:

frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [160]:

frame2

Out[160]:

	Ohio	Texas	California
a	0	1	2
b	NaN	NaN	NaN
c	3	4	5
d	6	7	8

In [161]:

states = ['Texas', 'Utah', 'California']

In [162]:

frame.reindex(columns=states)

Out[162]:

	Texas	Utah	California
a	1	NaN	2
c	4	NaN	5
d	7	NaN	8

로우와 칼럼을 모두 한 번에 재색인할 수 있지만 보간은 로우에 대해서만 이루어진다(axis 0)¶

In [165]:

frame

Out[165]:

	Ohio	Texas	California
a	0	1	2
c	3	4	5
d	6	7	8

In [163]:

frame.reindex(index=['a', 'b', 'c', 'd'], method='ffill',
              columns=states)

Out[163]:

	Texas	Utah	California
a	1	NaN	2
b	1	NaN	2
c	4	NaN	5
d	7	NaN	8

In [164]:

frame.ix[['a', 'b', 'c', 'd'], states]

Out[164]:

	Texas	Utah	California
a	1	NaN	2
b	NaN	NaN	NaN
c	4	NaN	5
d	7	NaN	8

In [174]:

frame.reindex?

5.2.2 하나의 로우 또는 칼럼 삭제하기¶

In [175]:

obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [176]:

obj

Out[176]:

a    0
b    1
c    2
d    3
e    4
dtype: float64

In [177]:

new_obj = obj.drop('c')

In [178]:

new_obj

Out[178]:

a    0
b    1
d    3
e    4
dtype: float64

In [179]:

obj.drop(['d', 'c'])

Out[179]:

a    0
b    1
e    4
dtype: float64

In [180]:

data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [182]:

data

Out[182]:

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

In [181]:

data.drop(['Colorado', 'Ohio'])

Out[181]:

	one	two	three	four
Utah	8	9	10	11
New York	12	13	14	15

In [184]:

data.drop('two', axis=1)

Out[184]:

	one	three	four
Ohio	0	2	3
Colorado	4	6	7
Utah	8	10	11
New York	12	14	15

In [185]:

data.drop(['two', 'four'], axis=1)

Out[185]:

	one	three
Ohio	0	2
Colorado	4	6
Utah	8	10
New York	12	14

5.2.3 색인하기, 선택하기, 거르기¶

Series의 색인은 NumPy 배열의 색인과 유사하게 동작하는데, Seriese의 색인은 정수가 아니어도 된다는 점이 다르다.¶

In [186]:

obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [193]:

obj

Out[193]:

a    0
b    1
c    2
d    3
dtype: float64

In [187]:

obj['b']

Out[187]:

1.0

In [188]:

obj[1]

Out[188]:

1.0

In [189]:

obj[2:4]

Out[189]:

c    2
d    3
dtype: float64

In [190]:

obj[['b', 'a', 'd']]

Out[190]:

b    1
a    0
d    3
dtype: float64

In [191]:

obj[[1, 3]]

Out[191]:

b    1
d    3
dtype: float64

In [192]:

obj[obj < 2]

Out[192]:

a    0
b    1
dtype: float64

라벨 이름으로 슬라이싱하는 것은 시작점과 끝점을 포함한다는 점이 일반 파이썬에서의 슬라이싱과 다른 점이다.¶

In [194]:

obj['b':'c']

Out[194]:

b    1
c    2
dtype: float64

In [195]:

obj['b':'c'] = 5

In [196]:

obj

Out[196]:

a    0
b    5
c    5
d    3
dtype: float64

In [4]:

data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [5]:

data

Out[5]:

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

In [199]:

data['two']

Out[199]:

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [200]:

data[['three', 'one']]

Out[200]:

	three	one
Ohio	2	0
Colorado	6	4
Utah	10	8
New York	14	12

슬라이싱으로 로우 선택¶

불리언 배열로 컬럼 선택¶

In [201]:

data[:2]

Out[201]:

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7

In [202]:

data[data['three'] > 5]

Out[202]:

	one	two	three	four
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

In [204]:

data

Out[204]:

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

In [203]:

data < 5

Out[203]:

	one	two	three	four
Ohio	True	True	True	True
Colorado	True	False	False	False
Utah	False	False	False	False
New York	False	False	False	False

In [205]:

data[data < 5] = 0

In [206]:

data

Out[206]:

	one	two	three	four
Ohio	0	0	0	0
Colorado	0	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

In [208]:

data.ix['Colorado', ['two', 'three']]

Out[208]:

two      5
three    6
Name: Colorado, dtype: int64

In [210]:

data.ix[['Colorado', 'Utah'], ['two', 'three']]

Out[210]:

	two	three
Colorado	5	6
Utah	9	10

In [209]:

data.ix[['Colorado', 'Utah'], [3, 0, 1]]

Out[209]:

	four	one	two
Colorado	7	0	5
Utah	11	8	9

In [211]:

data.ix[2]

Out[211]:

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [212]:

data.ix[:'Utah', 'two']

Out[212]:

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [10]:

data.ix[data.three > 5, :3]

Out[10]:

	one	two	three
Colorado	4	5	6
Utah	8	9	10
New York	12	13	14

In [11]:

# ,를 기준으로 앞은 행. 뒤로는 열을 나타낸다.
data.ix[data.three > 5, :2]

Out[11]:

	one	two
Colorado	4	5
Utah	8	9
New York	12	13

빈번하게 일어나는 칼럼 선택 작업을 할 때마다 칼럼을 선택하기 위해 frame[:, col]이라고 입력해야 하는 것이 너무과하다고 생각¶

라벨 색인 기능을 모두 ix에 넣었다.

5.2.4 산술연산과 데이터 정렬¶

In [214]:

s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [215]:

s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [216]:

s1

Out[216]:

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [217]:

s2

Out[217]:

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [218]:

s1 + s2

Out[218]:

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

서로 겹치는 색인이 없다면 데이터는 NA 값이 된다.¶

산술연산 시 누락된 값은 전파
DataFrame에서는 로우와 칼럼 모두에 적용

DataFrame과 Series의 차이점은??¶

In [219]:

df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                index=['Ohio', 'Texas', 'Colorado'])

In [220]:

df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [221]:

df1

Out[221]:

	b	c	d
Ohio	0	1	2
Texas	3	4	5
Colorado	6	7	8

In [222]:

df2

Out[222]:

	b	d	e
Utah	0	1	2
Ohio	3	4	5
Texas	6	7	8
Oregon	9	10	11

In [223]:

df1 + df2

Out[223]:

	b	c	d	e
Colorado	NaN	NaN	NaN	NaN
Ohio	3	NaN	6	NaN
Oregon	NaN	NaN	NaN	NaN
Texas	9	NaN	12	NaN
Utah	NaN	NaN	NaN	NaN

산술연산 메서드에 채워 넣을 값 지정하기¶

In [224]:

df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))

In [225]:

df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

In [226]:

df1

Out[226]:

	a	b	c	d
0	0	1	2	3
1	4	5	6	7
2	8	9	10	11

In [227]:

df2

Out[227]:

	a	b	c	d	e
0	0	1	2	3	4
1	5	6	7	8	9
2	10	11	12	13	14
3	15	16	17	18	19

In [228]:

df1 + df2

Out[228]:

	a	b	c	d	e
0	0	2	4	6	NaN
1	9	11	13	15	NaN
2	18	20	22	24	NaN
3	NaN	NaN	NaN	NaN	NaN

In [229]:

# fill value=0인데 왜 4,9,14,19로 채워지지??
df1.add(df2, fill_value=0)

Out[229]:

	a	b	c	d	e
0	0	2	4	6	4
1	9	11	13	15	9
2	18	20	22	24	14
3	15	16	17	18	19

In [232]:

df1.add(df2)

Out[232]:

	a	b	c	d	e
0	0	2	4	6	NaN
1	9	11	13	15	NaN
2	18	20	22	24	NaN
3	NaN	NaN	NaN	NaN	NaN

In [234]:

# 아하! 원래의 df2 값에 fill_value의 값을 더하는군!!
df1.add(df2, fill_value=1)

Out[234]:

	a	b	c	d	e
0	0	2	4	6	5
1	9	11	13	15	10
2	18	20	22	24	15
3	16	17	18	19	20

In [236]:

df1.add(df2, fill_value=2)

Out[236]:

	a	b	c	d	e
0	0	2	4	6	6
1	9	11	13	15	11
2	18	20	22	24	16
3	17	18	19	20	21

In [237]:

# 원래 내가 생각했던 함수의 역할이었지만 잘못된 생각인듯.
df1.reindex(columns=df2.columns, fill_value=0)

Out[237]:

	a	b	c	d
0	0	1	2	3
1	4	5	6	7
2	8	9	10	11

DataFrame과 Series 간의 연산¶

In [238]:

arr = np.arange(12.).reshape((3, 4))

In [239]:

arr

Out[239]:

array([[  0.,   1.,   2.,   3.],
       [  4.,   5.,   6.,   7.],
       [  8.,   9.,  10.,  11.]])

In [240]:

arr[0]

Out[240]:

array([ 0.,  1.,  2.,  3.])

In [241]:

arr - arr[0]

Out[241]:

array([[ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.],
       [ 8.,  8.,  8.,  8.]])

In [242]:

arr - arr[1]

Out[242]:

array([[-4., -4., -4., -4.],
       [ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.]])

브로드캐스팅¶

In [13]:

frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [244]:

series = frame.ix[0]

In [245]:

frame

Out[245]:

	b	d	e
Utah	0	1	2
Ohio	3	4	5
Texas	6	7	8
Oregon	9	10	11

In [246]:

series

Out[246]:

b    0
d    1
e    2
Name: Utah, dtype: float64

In [247]:

frame - series

Out[247]:

	b	d	e
Utah	0	0	0
Ohio	3	3	3
Texas	6	6	6
Oregon	9	9	9

기본적으로 DataFrame 과 Series 간의 산술연산은 Series의 색인을 DataFrame의 칼럼에 맞추고 아래 로우로 전파¶

만약 색인 값을 DataFrame의 칼럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인¶

In [16]:

series2 = Series(range(3), index=['b', 'e', 'f'])

In [249]:

frame + series2

Out[249]:

	b	d	e	f
Utah	0	NaN	3	NaN
Ohio	3	NaN	6	NaN
Texas	6	NaN	9	NaN
Oregon	9	NaN	12	NaN

In [18]:

series2, type(series2)

Out[18]:

(b    0
e    1
f    2
dtype: int64, pandas.core.series.Series)

In [251]:

frame

Out[251]:

	b	d	e
Utah	0	1	2
Ohio	3	4	5
Texas	6	7	8
Oregon	9	10	11

각 로우에 대해 연산을 수행하고 싶다면 산술연산 메서드 사용

In [252]:

series3 = frame['d']

In [253]:

frame

Out[253]:

	b	d	e
Utah	0	1	2
Ohio	3	4	5
Texas	6	7	8
Oregon	9	10	11

In [254]:

series3

Out[254]:

Utah       1
Ohio       4
Texas      7
Oregon    10
Name: d, dtype: float64

In [256]:

# 인자로 넘기는 axis 값은 연산을 적용할 축 번호
# axis=0은 DataFrame의 로우를 따라 연산을 수행
frame.sub(series3, axis=0)

Out[256]:

	b	e
Utah	-1	1
Ohio	-1	1
Texas	-1	1
Oregon	-1	1

5.2.5 함수 적용과 매핑¶

pandas 객체에도 NumPy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용 가능

In [257]:

frame = DataFrame(np.random.randn(4, 3), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [258]:

frame

Out[258]:

	b	d	e
Utah	-0.080118	-1.050124	-2.482035
Ohio	1.629936	-2.184845	-0.508522
Texas	0.000033	0.497823	-0.496307
Oregon	-0.188822	-0.411298	2.236104

In [259]:

np.abs(frame)

Out[259]:

	b	d	e
Utah	0.080118	1.050124	2.482035
Ohio	1.629936	2.184845	0.508522
Texas	0.000033	0.497823	0.496307
Oregon	0.188822	0.411298	2.236104

자주 사용되는 또 다른 연산은 각 로우나 칼럼의 1차원 배열에 함수를 적용하는 것
DataFrame의 apply 메서드를 통해 수행

In [19]:

f = lambda x: x.max() - x.min()

In [20]:

# Applies function along input axis of DataFrame. 
# Objects passed to functions are Series objects having index either the DataFrame's index(axis=0)
# or the columns (axis=1).
# Return type depends on whether passed function aggregates

frame.apply?

In [261]:

frame.apply(f)

Out[261]:

b    1.818758
d    2.682668
e    4.718139
dtype: float64

In [262]:

frame.apply(f, axis=1)

Out[262]:

Utah      2.401917
Ohio      3.814781
Texas     0.994130
Oregon    2.647402
dtype: float64

In [263]:

frame

Out[263]:

	b	d	e
Utah	-0.080118	-1.050124	-2.482035
Ohio	1.629936	-2.184845	-0.508522
Texas	0.000033	0.497823	-0.496307
Oregon	-0.188822	-0.411298	2.236104

axis의 로우, 컬럼 구분¶

로우¶

frame.sub(series3, axis=0)
frame.apply(f, aixs=1)
df.sum(axis=1)

컬럼¶

frame.sort_index(axis=1)

DataFrame에서 axis=¶

0: row
1: column

배열의 합계나 평균같은 일반적인 통계는 DataFrame의 메서드로 있으므로 apply 메서드를 사용해야만 하는 것은 아니다
apply 메서드에 전달된 함수는 스칼라 값을 반환할 필요 없으며, Series 또는 여러 값을 반환해도 된다.

In [264]:

def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])

In [267]:

frame.apply(f)

Out[267]:

	b	d	e
min	-0.188822	-2.184845	-2.482035
max	1.629936	0.497823	2.236104

In [268]:

type(frame.apply(f))

Out[268]:

pandas.core.frame.DataFrame

In [269]:

format = lambda x: '%.2f' % x

In [270]:

frame.applymap(format)

Out[270]:

	b	d	e
Utah	-0.08	-1.05	-2.48
Ohio	1.63	-2.18	-0.51
Texas	0.00	0.50	-0.50
Oregon	-0.19	-0.41	2.24

In [271]:

frame['e'].map(format)

Out[271]:

Utah      -2.48
Ohio      -0.51
Texas     -0.50
Oregon     2.24
Name: e, dtype: object

5.2.6 정렬과 순위¶

In [272]:

obj = Series(range(4), index=['d', 'a', 'b', 'c'])

In [273]:

obj.sort_index()

Out[273]:

a    1
b    2
c    3
d    0
dtype: int64

In [274]:

frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])

In [275]:

frame

Out[275]:

	d	a	b	c
three	0	1	2	3
one	4	5	6	7

In [276]:

frame.sort_index()

Out[276]:

	d	a	b	c
one	4	5	6	7
three	0	1	2	3

In [277]:

frame.sort_index(axis=1)

Out[277]:

	a	b	c	d
three	1	2	3	0
one	5	6	7	4

In [278]:

frame.sort_index(axis=1, ascending=False)

Out[278]:

	d	c	b	a
three	0	3	2	1
one	4	7	6	5

In [279]:

obj = Series([4, 7, -3, 2])

In [280]:

obj.order()

Out[280]:

2   -3
3    2
0    4
1    7
dtype: int64

In [281]:

obj = Series([4, np.nan, 7, np.nan, -3, 2])

In [282]:

obj.order()

Out[282]:

4    -3
5     2
0     4
2     7
1   NaN
3   NaN
dtype: float64

정렬시 NaN은 가장 마지막에 위치¶

In [283]:

frame = DataFrame({'b': [4, 7, -3, 2],
                   'a': [0, 1, 0, 1]})

In [284]:

frame

Out[284]:

	a	b
0	0	4
1	1	7
2	0	-3
3	1	2

In [285]:

frame.sort_index(by='b')

Out[285]:

	a	b
2	0	-3
3	1	2
0	0	4
1	1	7

In [286]:

frame.sort_index(by=['a', 'b'])

Out[286]:

	a	b
2	0	-3
0	0	4
3	1	2
1	1	7

뭘 기준으로 rank 하는지 도저히 모르겠다..!!¶

In [287]:

obj = Series([7, -5, 7, 4, 2, 0, 4])

In [288]:

obj.rank()

Out[288]:

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [289]:

obj.rank(method='first')

Out[289]:

0    6
1    1
2    7
3    4
4    3
5    2
6    5
dtype: float64

In [290]:

obj.rank(ascending=False, method='max')

Out[290]:

0    2
1    7
2    2
3    4
4    5
5    6
6    4
dtype: float64

In [291]:

frame = DataFrame({'b': [4.3, 7, -3, 2],
                   'a':[0, 1, 0, 1],
                   'c':[-2, 5, 8, -2.5]})

In [292]:

frame

Out[292]:

	a	b	c
0	0	4.3	-2.0
1	1	7.0	5.0
2	0	-3.0	8.0
3	1	2.0	-2.5

In [293]:

frame.rank(axis=1)

Out[293]:

	a	b	c
0	2	3	1
1	1	3	2
2	2	1	3
3	2	3	1

5.2.7 중복 색인¶

In [294]:

obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

In [295]:

obj

Out[295]:

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [296]:

obj.index.is_unique

Out[296]:

False

중복되는 색인 값이 있으면 색인을 이용한 데이터 선택은 다르게 동작하고 하나의 Series 객체 반환
중복되는 색인 값이 없으면 색인을 이용한 데이터 선택은 스칼라 값을 반환

In [297]:

obj['a']

Out[297]:

array([0, 1])

In [298]:

obj['c']

Out[298]:

In [299]:

df = DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])

In [300]:

df

Out[300]:

	0	1	2
a	0.084110	-0.197321	0.355402
a	0.164190	-0.754448	0.488057
b	1.047562	-1.282640	1.005273
b	-1.354820	-1.175588	-0.820554

In [301]:

df.ix['b']

Out[301]:

	0	1	2
b	1.047562	-1.282640	1.005273
b	-1.354820	-1.175588	-0.820554

5.3 기술통계 계산과 요약¶

pandas 객체는 일반적인 수학 메서드와 통계 메서드 존재
이 메서드는 대부분 Series나 DataFrame 하나의 칼럼이나 로우에서 단일 값(합이나 평균 같은)을 구하는 축소 혹은 요약통계 범주에 속함
처음부터 누락된 데이터를 제외하도록 설계

In [302]:

df = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])

In [303]:

df

Out[303]:

	one	two
a	1.40	NaN
b	7.10	-4.5
c	NaN	NaN
d	0.75	-1.3

In [304]:

df.sum()

Out[304]:

one    9.25
two   -5.80
dtype: float64

In [305]:

# 각 로우의 합 반환
df.sum(axis=1)

Out[305]:

a    1.40
b    2.60
c     NaN
d   -0.55
dtype: float64

In [306]:

df.mean(axis=1, skipna=False)

Out[306]:

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [307]:

df.idxmax()

Out[307]:

one    b
two    d
dtype: object

In [310]:

# cumulative. 아래로 갈수록 누산 됨
df.cumsum()

Out[310]:

	one	two
a	1.40	NaN
b	8.50	-4.5
c	NaN	NaN
d	9.25	-5.8

In [311]:

df

Out[311]:

	one	two
a	1.40	NaN
b	7.10	-4.5
c	NaN	NaN
d	0.75	-1.3

In [312]:

df.describe()

Out[312]:

	one	two
count	3.000000	2.000000
mean	3.083333	-2.900000
std	3.493685	2.262742
min	0.750000	-4.500000
25%	1.075000	-3.700000
50%	1.400000	-2.900000
75%	4.250000	-2.100000
max	7.100000	-1.300000

In [313]:

obj = Series(['a', 'a', 'b', 'c'] * 4)

In [314]:

obj.describe()

Out[314]:

count     16
unique     3
top        a
freq       8
dtype: object

In [315]:

obj

Out[315]:

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

5.3.1 상관관계와 공분산¶

In [319]:

import pandas.io.data as web

all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2000', '1/1/2010')

price = DataFrame({tic: data['Adj Close']
                   for tic, data in all_data.iteritems()})
volume = DataFrame({tic: data['Volume']
                    for tic, data in all_data.iteritems()})

In [320]:

returns = price.pct_change()

In [322]:

returns.tail()

Out[322]:

	AAPL	GOOG	IBM	MSFT
Date
2009-12-24	0.034337	0.011117	0.004404	0.002894
2009-12-28	0.012293	0.007098	0.013319	0.005411
2009-12-29	-0.011849	-0.005571	-0.003429	0.006817
2009-12-30	0.012141	0.005376	0.005407	-0.013542
2009-12-31	-0.004326	-0.004416	-0.012548	-0.015535

In [323]:

price

Out[323]:

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2515 entries, 2000-01-03 00:00:00 to 2009-12-31 00:00:00
Data columns (total 4 columns):
AAPL    2515  non-null values
GOOG    1353  non-null values
IBM     2515  non-null values
MSFT    2515  non-null values
dtypes: float64(4)

In [324]:

volume

Out[324]:

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2515 entries, 2000-01-03 00:00:00 to 2009-12-31 00:00:00
Data columns (total 4 columns):
AAPL    2515  non-null values
GOOG    1353  non-null values
IBM     2515  non-null values
MSFT    2515  non-null values
dtypes: float64(1), int64(3)

In [325]:

returns.head()

Out[325]:

	AAPL	GOOG	IBM	MSFT
Date
2000-01-03	NaN	NaN	NaN	NaN
2000-01-04	-0.084387	NaN	-0.033954	-0.033811
2000-01-05	0.014616	NaN	0.035148	0.010450
2000-01-06	-0.086435	NaN	-0.017288	-0.033430
2000-01-07	0.047306	NaN	-0.004319	0.013187

In [326]:

returns.MSFT.corr(returns.IBM)

Out[326]:

0.49593101373594894

In [327]:

returns.MSFT.cov(returns.IBM)

Out[327]:

0.00021593677445718774

In [328]:

returns.corr()

Out[328]:

	AAPL	GOOG	IBM	MSFT
AAPL	1.000000	0.470629	0.409913	0.424426
GOOG	0.470629	1.000000	0.390740	0.443446
IBM	0.409913	0.390740	1.000000	0.495931
MSFT	0.424426	0.443446	0.495931	1.000000

In [329]:

returns.cov()

Out[329]:

	AAPL	GOOG	IBM	MSFT
AAPL	0.001027	0.000303	0.000252	0.000309
GOOG	0.000303	0.000580	0.000142	0.000205
IBM	0.000252	0.000142	0.000367	0.000216
MSFT	0.000309	0.000205	0.000216	0.000516

In [330]:

#Compute pairwise correlation of columns, excluding NA/null values
returns.corr?

In [332]:

# Compute pairwise covariance of columns, excluding NA/null values
returns.cov?

In [333]:

returns.corrwith(returns.IBM)

Out[333]:

AAPL    0.409913
GOOG    0.390740
IBM     1.000000
MSFT    0.495931
dtype: float64

In [334]:

returns.corrwith(volume)

Out[334]:

AAPL   -0.057553
GOOG    0.062644
IBM    -0.007912
MSFT   -0.014285
dtype: float64

5.3.2 유일 값, 값 세기, 멤버십¶

In [335]:

obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [339]:

obj

Out[339]:

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [336]:

uniques = obj.unique()

In [337]:

uniques

Out[337]:

array(['c', 'a', 'd', 'b'], dtype=object)

In [338]:

obj.value_counts()

Out[338]:

c    3
a    3
b    2
d    1
dtype: int64

In [341]:

pd.value_counts(obj.values, sort=False)

Out[341]:

a    3
c    3
b    2
d    1
dtype: int64

In [342]:

pd.value_counts(obj.values, sort=True)

Out[342]:

c    3
a    3
b    2
d    1
dtype: int64

In [343]:

mask = obj.isin(['b', 'c'])

In [344]:

mask

Out[344]:

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [345]:

obj[mask]

Out[345]:

0    c
5    b
6    b
7    c
8    c
dtype: object

In [346]:

obj[True]

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-346-8d9c188ba330> in <module>()
----> 1 obj[True]

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/series.pyc in __getitem__(self, key)
    903     def __getitem__(self, key):
    904         try:
--> 905             return self.index.get_value(self, key)
    906         except InvalidIndexError:
    907             pass

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/index.pyc in get_value(self, series, key)
    834         k = _values_from_object(key)
    835         try:
--> 836             return self._engine.get_value(s, k)
    837         except KeyError as e1:
    838             if len(self) > 0 and self.inferred_type == 'integer':

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_value (pandas/index.c:2658)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_value (pandas/index.c:2473)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_loc (pandas/index.c:3177)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.Int64Engine._check_type (pandas/index.c:6304)()

KeyError: True

In [347]:

data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})

In [348]:

data

Out[348]:

	Qu1	Qu2	Qu3
0	1	2	1
1	3	3	5
2	4	1	2
3	3	2	4
4	4	3	4

In [349]:

result = data.apply(pd.value_counts).fillna(0)

In [350]:

result

Out[350]:

	Qu1	Qu2	Qu3
1	1	1	1
2	0	2	1
3	2	2	0
4	2	0	2
5	0	0	1

5.4 누락된 데이터 처리하기¶

누락된 데이터를 처리하는 일은 데이터 분석 애플리케이션에서 흔이 있는 일
누락 데이터를 가능한 쉽게 처리
모든 기술통계는 누락된 데이터를 배제하고 처리
누락된 데이터를 실수든 아니든 모두 NaN(Not a Number)으로 취급
누락된 값을 쉽게 찾을 수 있는 파수병 역할

In [353]:

string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [354]:

string_data

Out[354]:

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [355]:

string_data.isnull()

Out[355]:

0    False
1    False
2     True
3    False
dtype: bool

In [356]:

string_data[0] = None

In [357]:

string_data.isnull()

Out[357]:

0     True
1    False
2     True
3    False
dtype: bool

자꾸 드는 의문점¶

이걸 배워서 어디에 써먹을 수 있을까?
지금 내게 당장 필요한 것인가? 현업에서 이 기술을 사용하지 않으면 진행할 수 없는가?
미래를 위한 투자로 봐야 되나?
직접 적용해 볼 예제들이 없으니 심심하다. 예제라도 있으면 실험해 보면서 할 수 있을텐데. 책이 너무 단조롭다. 그냥 문법 공부하는 느낌?

5.4.1 누락된 데이터 골라내기¶

In [358]:

from numpy import nan as NA

In [359]:

data = Series([1, NA, 3.5, NA, 7])

In [360]:

data.dropna()

Out[360]:

0    1.0
2    3.5
4    7.0
dtype: float64

In [361]:

data[data.notnull()]

Out[361]:

0    1.0
2    3.5
4    7.0
dtype: float64

Series와 DataFrame의 차이점은??¶

이걸 이해해야지 진도를 나갈 수 있을 것 같다.
그냥 파이썬 문법이고 약간 어려운 정도라 따라치기는 하지만 아직 어떤 점이 차이가 나는지 모르겠다.
이걸 어떻게 하면 쉽게 이해할 수 있을까?

In [362]:

data = DataFrame([[1., 6.5, 3.], [1., NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3]])

In [363]:

cleaned = data.dropna()

In [364]:

data

Out[364]:

	0	1	2
0	1	6.5	3
1	1	NaN	NaN
2	NaN	NaN	NaN
3	NaN	6.5	3

In [365]:

cleaned

Out[365]:

	0	1	2
0	1	6.5	3

In [366]:

data.dropna(how='all')

Out[366]:

	0	1	2
0	1	6.5	3
1	1	NaN	NaN
3	NaN	6.5	3

In [367]:

# Failed
data.dropna(how='one')

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-367-b11b6ea54397> in <module>()
----> 1 data.dropna(how='one')

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/frame.pyc in dropna(self, axis, how, thresh, subset)
   2616         else:
   2617             if how is not None:
-> 2618                 raise ValueError('do not recognize %s' % how)
   2619             else:
   2620                 raise ValueError('must specify how or thresh')

ValueError: do not recognize one

In [368]:

data[4] = NA

In [369]:

data

Out[369]:

	0	1	2	4
0	1	6.5	3	NaN
1	1	NaN	NaN	NaN
2	NaN	NaN	NaN	NaN
3	NaN	6.5	3	NaN

In [370]:

data.dropna(axis=1, how='all')

Out[370]:

	0	1	2
0	1	6.5	3
1	1	NaN	NaN
2	NaN	NaN	NaN
3	NaN	6.5	3

In [371]:

data.dropna(axis=1)

Out[371]:

Int64Index([0, 1, 2, 3], dtype=int64)

Empty DataFrame

In [372]:

df = DataFrame(np.random.randn(7, 3))

In [373]:

df

Out[373]:

	0	1	2
0	-0.284660	0.996480	-0.469911
1	-2.670735	-0.372844	-1.976604
2	-0.826885	-1.888286	-0.565196
3	1.242023	0.557712	1.083445
4	-0.217213	-0.434431	1.032560
5	-0.179771	1.340502	-0.004094
6	-0.293089	0.232825	-0.800963

In [378]:

# 여기에서는 :4라고 했으면 정상적으로는 0,1,2,3만 해당이 되야 되는데 4까지 적용이 되네???
df.ix[:4, 1] = NA; df.ix[:2, 2] = NA

In [379]:

df

Out[379]:

	0	1	2
0	-0.284660	NaN	NaN
1	-2.670735	NaN	NaN
2	-0.826885	NaN	NaN
3	1.242023	NaN	1.083445
4	-0.217213	NaN	1.032560
5	-0.179771	1.340502	-0.004094
6	-0.293089	0.232825	-0.800963

thresh¶

몇 개 이상의 값이 들어있는 로우만 살펴보고 싶을 때

In [380]:

df.dropna(thresh=3)

Out[380]:

	0	1	2
5	-0.179771	1.340502	-0.004094
6	-0.293089	0.232825	-0.800963

In [381]:

df.dropna(thresh=2)

Out[381]:

	0	1	2
3	1.242023	NaN	1.083445
4	-0.217213	NaN	1.032560
5	-0.179771	1.340502	-0.004094
6	-0.293089	0.232825	-0.800963

5.4.2 누락된 값 채우기¶

누락된 값을 제외시키지 않고(잠재적으로 다른 데이터도 함께 버려질 가능성이 있다)

In [384]:

df.fillna(0)

Out[384]:

	0	1	2
0	-0.284660	0.000000	0.000000
1	-2.670735	0.000000	0.000000
2	-0.826885	0.000000	0.000000
3	1.242023	0.000000	1.083445
4	-0.217213	0.000000	1.032560
5	-0.179771	1.340502	-0.004094
6	-0.293089	0.232825	-0.800963

In [387]:

# dictionary 형식으로 받았는데 앞의 key가 컬럼을 나타냄
df.fillna({1: 0.5, 3: -1})

Out[387]:

	0	1	2
0	-0.284660	0.500000	NaN
1	-2.670735	0.500000	NaN
2	-0.826885	0.500000	NaN
3	1.242023	0.500000	1.083445
4	-0.217213	0.500000	1.032560
5	-0.179771	1.340502	-0.004094
6	-0.293089	0.232825	-0.800963

In [389]:

df.fillna({2:0.5, 1:-1})

Out[389]:

	0	1	2
0	-0.284660	-1.000000	0.500000
1	-2.670735	-1.000000	0.500000
2	-0.826885	-1.000000	0.500000
3	1.242023	-1.000000	1.083445
4	-0.217213	-1.000000	1.032560
5	-0.179771	1.340502	-0.004094
6	-0.293089	0.232825	-0.800963

In [396]:

_ = df.fillna(0, inplace=True)

In [397]:

df

Out[397]:

	0	1	2
0	-0.284660	0.000000	0.000000
1	-2.670735	0.000000	0.000000
2	-0.826885	0.000000	0.000000
3	1.242023	0.000000	1.083445
4	-0.217213	0.000000	1.032560
5	-0.179771	1.340502	-0.004094
6	-0.293089	0.232825	-0.800963

In [398]:

_ = df.fillna(1, inplace=False)

In [399]:

df

Out[399]:

	0	1	2
0	-0.284660	0.000000	0.000000
1	-2.670735	0.000000	0.000000
2	-0.826885	0.000000	0.000000
3	1.242023	0.000000	1.083445
4	-0.217213	0.000000	1.032560
5	-0.179771	1.340502	-0.004094
6	-0.293089	0.232825	-0.800963

In [411]:

df.fillna(1, inplace=True)

In [412]:

df

Out[412]:

	0	1	2
0	-0.898806	0.550007	1.878563
1	0.885443	-0.087176	-0.590551
2	0.325443	1.000000	-1.037122
3	-0.927943	1.000000	-1.036681
4	-0.028481	1.000000	1.000000
5	0.210230	1.000000	1.000000

In [403]:

df = DataFrame(np.random.randn(6, 3))

In [404]:

df.ix[2:, 1] = NA; df.ix[4:, 2] = NA

In [405]:

df

Out[405]:

	0	1	2
0	-0.898806	0.550007	1.878563
1	0.885443	-0.087176	-0.590551
2	0.325443	NaN	-1.037122
3	-0.927943	NaN	-1.036681
4	-0.028481	NaN	NaN
5	0.210230	NaN	NaN

In [406]:

df.fillna(method='ffill')

Out[406]:

	0	1	2
0	-0.898806	0.550007	1.878563
1	0.885443	-0.087176	-0.590551
2	0.325443	-0.087176	-1.037122
3	-0.927943	-0.087176	-1.036681
4	-0.028481	-0.087176	-1.036681
5	0.210230	-0.087176	-1.036681

In [407]:

df.fillna(method='ffill', limit=2)

Out[407]:

	0	1	2
0	-0.898806	0.550007	1.878563
1	0.885443	-0.087176	-0.590551
2	0.325443	-0.087176	-1.037122
3	-0.927943	-0.087176	-1.036681
4	-0.028481	NaN	-1.036681
5	0.210230	NaN	-1.036681

In [408]:

data = Series([1., NA, 3.5, NA, 7])

In [409]:

data.fillna(data.mean())

Out[409]:

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

In [410]:

data

Out[410]:

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

5.5 계층적 색인¶

계층적 색인은 pandas의 중요한 기능
축에 대해 다중(둘 이상) 색인 단계를 지정할 수 있도록 해준다.
약간 추상적으로 말하면 차원이 높은(고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능

In [413]:

data = Series(np.random.randn(10),
              index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                       [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])

In [414]:

data

Out[414]:

a  1    0.958413
   2    1.022494
   3    0.517799
b  1    0.546603
   2    0.786978
   3    1.567081
c  1    0.319681
   2   -0.375031
d  2   -0.666300
   3   -0.761056
dtype: float64

In [415]:

data.index

Out[415]:

MultiIndex
[(u'a', 1), (u'a', 2), (u'a', 3), (u'b', 1), (u'b', 2), (u'b', 3), (u'c', 1), (u'c', 2), (u'd', 2), (u'd', 3)]

In [416]:

data['b']

Out[416]:

1    0.546603
2    0.786978
3    1.567081
dtype: float64

In [417]:

data['b':'c']

Out[417]:

b  1    0.546603
   2    0.786978
   3    1.567081
c  1    0.319681
   2   -0.375031
dtype: float64

In [418]:

data.ix[['b', 'd']]

Out[418]:

b  1    0.546603
   2    0.786978
   3    1.567081
d  2   -0.666300
   3   -0.761056
dtype: float64

In [422]:

data['b':'d']

Out[422]:

b  1    0.546603
   2    0.786978
   3    1.567081
c  1    0.319681
   2   -0.375031
d  2   -0.666300
   3   -0.761056
dtype: float64

In [420]:

# Failed!
data['b', 'c']

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-420-c6d18aac3c30> in <module>()
      1 # Failed!
----> 2 data['b', 'c']

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/series.pyc in __getitem__(self, key)
    925             key = _check_bool_indexer(self.index, key)
    926 
--> 927         return self._get_with(key)
    928 
    929     def _get_with(self, key):

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/series.pyc in _get_with(self, key)
    942             if isinstance(key, tuple):
    943                 try:
--> 944                     return self._get_values_tuple(key)
    945                 except:
    946                     if len(key) == 1:

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/series.pyc in _get_values_tuple(self, key)
    990 
    991         # If key is contained, would have returned by now
--> 992         indexer, new_index = self.index.get_loc_level(key)
    993         return self._constructor(self.values[indexer], index=new_index, name=self.name)
    994 

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/index.pyc in get_loc_level(self, key, level, drop_level)
   2638                 if len(key) == self.nlevels:
   2639                     if self.is_unique:
-> 2640                         return self._engine.get_loc(_values_from_object(key)), None
   2641                     else:
   2642                         indexer = slice(*self.slice_locs(key, key))

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_loc (pandas/index.c:3330)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_loc (pandas/index.c:3210)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/hashtable.so in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:10484)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/hashtable.so in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:10438)()

KeyError: ('b', 'c')

In [421]:

data[:, 2]

Out[421]:

a    1.022494
b    0.786978
c   -0.375031
d   -0.666300
dtype: float64

In [423]:

data

Out[423]:

a  1    0.958413
   2    1.022494
   3    0.517799
b  1    0.546603
   2    0.786978
   3    1.567081
c  1    0.319681
   2   -0.375031
d  2   -0.666300
   3   -0.761056
dtype: float64

In [424]:

data.unstack()

Out[424]:

	1	2	3
a	0.958413	1.022494	0.517799
b	0.546603	0.786978	1.567081
c	0.319681	-0.375031	NaN
d	NaN	-0.666300	-0.761056

In [425]:

data.unstack().stack()

Out[425]:

a  1    0.958413
   2    1.022494
   3    0.517799
b  1    0.546603
   2    0.786978
   3    1.567081
c  1    0.319681
   2   -0.375031
d  2   -0.666300
   3   -0.761056
dtype: float64

In [426]:

frame = DataFrame(np.arange(12).reshape((4, 3)),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['Ohio', 'Ohio', 'Colorado'],
                           ['Green', 'Red', 'Green']])

In [427]:

frame

Out[427]:

		Ohio		Colorado
		Green	Red	Green
a	1	0	1	2
a	2	3	4	5
b	1	6	7	8
b	2	9	10	11

In [428]:

frame.index.names = ['key1', 'key2']

In [429]:

frame.columns.names = ['state', 'color']

In [430]:

frame

Out[430]:

	state	Ohio		Colorado
	color	Green	Red	Green
key1	key2
a	1	0	1	2
a	2	3	4	5
b	1	6	7	8
b	2	9	10	11

In [431]:

frame['Ohio']

Out[431]:

	color	Green	Red
key1	key2
a	1	0	1
a	2	3	4
b	1	6	7
b	2	9	10

In [432]:

MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
                       names=['state', 'color'])

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-432-2dbb13cfb16f> in <module>()
----> 1 MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
      2                        names=['state', 'color'])

NameError: name 'MultiIndex' is not defined

5.5.1 계층 순서 바꾸고 정렬하기¶

swallevel은 넘겨받은 2개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환(하지만 데이터는 변경되지 않는다)¶

In [433]:

frame.swaplevel('key1', 'key2')

Out[433]:

	state	Ohio		Colorado
	color	Green	Red	Green
key2	key1
1	a	0	1	2
2	a	3	4	5
1	b	6	7	8
2	b	9	10	11

In [435]:

frame

Out[435]:

	state	Ohio		Colorado
	color	Green	Red	Green
key1	key2
a	1	0	1	2
a	2	3	4	5
b	1	6	7	8
b	2	9	10	11

In [438]:

frame.sortlevel(1)

Out[438]:

	state	Ohio		Colorado
	color	Green	Red	Green
key1	key2
a	1	0	1	2
b	1	6	7	8
a	2	3	4	5
b	2	9	10	11

In [439]:

frame.swaplevel(0, 1).sortlevel(0)

Out[439]:

	state	Ohio		Colorado
	color	Green	Red	Green
key2	key1
1	a	0	1	2
1	b	6	7	8
2	a	3	4	5
2	b	9	10	11

In [440]:

frame.swaplevel(0, 1).sortlevel(1)

Out[440]:

	state	Ohio		Colorado
	color	Green	Red	Green
key2	key1
1	a	0	1	2
2	a	3	4	5
1	b	6	7	8
2	b	9	10	11

5.5.2 단계별 요약통계¶

In [441]:

frame.sum(level='key2')

Out[441]:

state	Ohio		Colorado
color	Green	Red	Green
key2
1	6	8	10
2	12	14	16

In [442]:

frame.sum(level='color', axis=1)

Out[442]:

	color	Green	Red
key1	key2
a	1	2	1
a	2	8	4
b	1	14	7
b	2	20	10

In [443]:

frame

Out[443]:

	state	Ohio		Colorado
	color	Green	Red	Green
key1	key2
a	1	0	1	2
a	2	3	4	5
b	1	6	7	8
b	2	9	10	11

5.5.3 DataFrame의 칼럼 사용하기¶

In [446]:

frame = DataFrame({'a': range(7),
                   'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})

In [447]:

frame

Out[447]:

	a	b	c	d
0	0	7	one	0
1	1	6	one	1
2	2	5	one	2
3	3	4	two	0
4	4	3	two	1
5	5	2	two	2
6	6	1	two	3

In [448]:

frame2 = frame.set_index(['c', 'd'])

In [449]:

frame2

Out[449]:

		a	b
c	d
one	0	0	7
	1	1	6
	2	2	5
two	0	3	4
	1	4	3
	2	5	2
	3	6	1

In [450]:

frame.set_index(['c', 'd'], drop=False)

Out[450]:

		a	b	c	d
c	d
one	0	0	7	one	0
	1	1	6	one	1
	2	2	5	one	2
two	0	3	4	two	0
	1	4	3	two	1
	2	5	2	two	2
	3	6	1	two	3

In [453]:

# 계층적 색인 단계 -> 컬럼
frame2.reset_index()

Out[453]:

	c	d	a	b
0	one	0	0	7
1	one	1	1	6
2	one	2	2	5
3	two	0	3	4
4	two	1	4	3
5	two	2	5	2
6	two	3	6	1

In [454]:

frame2

Out[454]:

		a	b
c	d
one	0	0	7
	1	1	6
	2	2	5
two	0	3	4
	1	4	3
	2	5	2
	3	6	1

5.6 pandas와 관련된 기타 주제¶

5.6.1 정수 색인¶

여기 ser 객체는 0, 1, 2 색인을 가지고 있지만 사용자가 원하는 것이 위치 색인인지? 이름 색인인지 알아맞히는 것은 어려운 일

In [455]:

ser = Series(np.arange(3.))

In [456]:

ser[-1]

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-456-3cbe0b873a9e> in <module>()
----> 1 ser[-1]

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/series.pyc in __getitem__(self, key)
    903     def __getitem__(self, key):
    904         try:
--> 905             return self.index.get_value(self, key)
    906         except InvalidIndexError:
    907             pass

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/core/index.pyc in get_value(self, series, key)
    834         k = _values_from_object(key)
    835         try:
--> 836             return self._engine.get_value(s, k)
    837         except KeyError as e1:
    838             if len(self) > 0 and self.inferred_type == 'integer':

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_value (pandas/index.c:2658)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_value (pandas/index.c:2473)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/index.so in pandas.index.IndexEngine.get_loc (pandas/index.c:3210)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/hashtable.so in pandas.hashtable.Int64HashTable.get_item (pandas/hashtable.c:6422)()

/Library/Python/2.7/site-packages/pandas-0.12.0_307_g3a2fe0b-py2.7-macosx-10.8-intel.egg/pandas/hashtable.so in pandas.hashtable.Int64HashTable.get_item (pandas/hashtable.c:6366)()

KeyError: -1

In [457]:

ser

Out[457]:

0    0
1    1
2    2
dtype: float64

In [458]:

ser2 = Series(np.arange(3.), index=['a', 'b', 'c'])

In [459]:

ser2

Out[459]:

a    0
b    1
c    2
dtype: float64

In [460]:

ser2[-1]

Out[460]:

2.0

In [461]:

ser.ix[:1]

Out[461]:

0    0
1    1
dtype: float64

만일 색인의 종류에 상관없이 위치 기반의 색인이 필요하다면 Series의 iget_value 메서드와 DataFrame의 irow, icol 메서드를 사용하면 된다¶

In [462]:

ser3 = Series(range(3), index=[-5, 1, 3])

In [470]:

ser3

Out[470]:

-5    0
 1    1
 3    2
dtype: int64

In [463]:

ser3.iget_value(2)

Out[463]:

In [466]:

frame = DataFrame(np.arange(6).reshape((3, 2)), index=[2, 0, 1])

In [467]:

frame.irow(0)

Out[467]:

0    0
1    1
Name: 2, dtype: int64

In [468]:

frame

Out[468]:

	0	1
2	0	1
0	2	3
1	4	5

In [469]:

frame.irow(1)

Out[469]:

0    2
1    3
Name: 0, dtype: int64

5.6.2 Panel 데이터¶

Panel은 DataFrame의 3차원 버전
pandas 개발은 스프레드시트 형식의 데이터를 다루는 데 초점
계층적 색인을 이용하면 대개의 경우 N차원의 배열은 불필요

In [471]:

import pandas.io.data as web
pdata = pd.Panel(dict((stk, web.get_data_yahoo(stk, '1/1/2009', '6/1/2012'))
                      for stk in ['AAPL', 'GOOG', 'MSFT', 'DELL']))

In [472]:

pdata

Out[472]:

<class 'pandas.core.panel.Panel'>
Dimensions: 4 (items) x 868 (major_axis) x 6 (minor_axis)
Items axis: AAPL to MSFT
Major_axis axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: Open to Adj Close

In [473]:

pdata = pdata.swapaxes('items', 'minor')

In [474]:

pdata

Out[474]:

<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 868 (major_axis) x 4 (minor_axis)
Items axis: Open to Adj Close
Major_axis axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: AAPL to MSFT

In [475]:

pdata['Adj Close']

Out[475]:

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 868 entries, 2009-01-02 00:00:00 to 2012-06-01 00:00:00
Data columns (total 4 columns):
AAPL    861  non-null values
DELL    868  non-null values
GOOG    861  non-null values
MSFT    861  non-null values
dtypes: float64(4)

ix를 이용한 라벨 색인을 통한 접근은 3차원에도 일반화되어 특정 날짜나 어떤 기간 동안의 모든 데이터를 다음처럼 선택할 수 있다¶

In [476]:

pdata.ix[:, '6/1/2012', :]

Out[476]:

	Open	High	Low	Close	Volume	Adj Close
AAPL	569.16	572.65	560.52	560.99	18606700	539.20
DELL	12.15	12.30	12.05	12.07	19397600	11.68
GOOG	571.79	572.65	568.35	570.98	3057900	570.98
MSFT	28.76	28.96	28.44	28.45	56634300	27.01

In [477]:

pdata.ix['Adj Close', '5/22/2012':, :]

Out[477]:

	AAPL	DELL	GOOG	MSFT
Date
2012-05-22	535.33	14.59	600.80	28.25
2012-05-23	548.40	12.08	609.46	27.63
2012-05-24	543.36	12.04	603.66	27.60
2012-05-25	540.45	12.05	591.53	27.59
2012-05-28	NaN	12.05	NaN	NaN
2012-05-29	550.04	12.25	594.34	28.06
2012-05-30	556.67	12.15	588.23	27.85
2012-05-31	555.29	11.93	580.86	27.71
2012-06-01	539.20	11.68	570.98	27.01

통계 모델에 맞게 Panel 데이터를 출력하는 다른 방법은 DataFrame을 쌓아 놓는 것¶

In [478]:

stacked = pdata.ix[:, '5/30/2012':, :].to_frame()

In [479]:

stacked

Out[479]:

		Open	High	Low	Close	Volume	Adj Close
Date	minor
2012-05-30	AAPL	569.20	579.99	566.56	579.17	18908200	556.67
	DELL	12.59	12.70	12.46	12.56	19787800	12.15
	GOOG	588.16	591.90	583.53	588.23	1906700	588.23
	MSFT	29.35	29.48	29.12	29.34	41585500	27.85
2012-05-31	AAPL	580.74	581.50	571.46	577.73	17559800	555.29
	DELL	12.53	12.54	12.33	12.33	19955600	11.93
	GOOG	588.72	590.00	579.00	580.86	2968300	580.86
	MSFT	29.30	29.42	28.94	29.19	39134000	27.71
2012-06-01	AAPL	569.16	572.65	560.52	560.99	18606700	539.20
	DELL	12.15	12.30	12.05	12.07	19397600	11.68
	GOOG	571.79	572.65	568.35	570.98	3057900	570.98
	MSFT	28.76	28.96	28.44	28.45	56634300	27.01

DataFrame에는 to_panel 메서드와 그 반대인 to_frame 메서드가 있다¶

In [480]:

stacked.to_panel()

Out[480]:

<class 'pandas.core.panel.Panel'>
Dimensions: 6 (items) x 3 (major_axis) x 4 (minor_axis)
Items axis: Open to Adj Close
Major_axis axis: 2012-05-30 00:00:00 to 2012-06-01 00:00:00
Minor_axis axis: AAPL to MSFT

In [ ]: