## 2.1　Series（pandasのデータ構造）

In [1]:
import pandas as pd                 # pandasを 'pd' という名で読込み
lst1 = [1,2,3,4,5]                  # 1～5の数列のリスト
lst2 = [x**2 for x in lst1]         # 上記の要素をそれぞれ2乗したリスト
sr = pd.Series( lst2, index=lst1 )  # Seriesに変換（インデックスにlst1を与える）
sr                                  # 内容確認

1     1
2     4
3     9
4    16
5    25
dtype: int64

### 2.1.1　インデックスに基づくアクセス

In [2]:
print( sr.at[2] )           # 指定したインデックス位置の要素の取り出し
print( type(sr.at[2]) )     # データ型の調査

4
<class 'numpy.int64'>


In [3]:
print( sr.loc[2:4] )         # 指定したインデックス範囲の取り出し
print( type(sr.loc[2:4])  )  # データ型の調査

2     4
3     9
4    16
dtype: int64
<class 'pandas.core.series.Series'>


In [4]:
sr.at[2] = 999  # インデックスが2の要素を書き換える
sr              # 内容確認

1      1
2    999
3      9
4     16
5     25
dtype: int64

In [5]:
sr.loc[2:4] = [555,666,777]     # 連続した領域を書き換える
sr                              # 内容確認

1      1
2    555
3    666
4    777
5     25
dtype: int64

#### 2.1.1.1　ドット '.' 表記によるアクセス

In [6]:
words = pd.Series(['りんご','みかん','ぶどう'],index=['apple','orange','grape'])
words

apple     りんご
orange    みかん
grape     ぶどう
dtype: object

In [7]:
print( words.apple )    # wordsのインデックス 'apple' の要素
print( words.grape )    # wordsのインデックス 'grape' の要素

りんご
ぶどう


In [8]:
words.watermelon = 'すいか'    # 新規要素の追加を試みる
words   # 内容確認

apple     りんご
orange    みかん
grape     ぶどう
dtype: object

In [9]:
words.at['watermelon'] = 'すいか'  # 新規要素の追加
words   # 内容確認

apple         りんご
orange        みかん
grape         ぶどう
watermelon    すいか
dtype: object

In [10]:
words.grape = '葡萄'      # 既存のインデックス'grape'の値を変更
words   # 内容確認

apple         りんご
orange        みかん
grape          葡萄
watermelon    すいか
dtype: object

### 2.1.2　格納位置に基づくアクセス

In [11]:
sr.iat[4]

25

In [12]:
sr.iloc[1:4]

2    555
3    666
4    777
dtype: int64

### 2.1.3 スライスを用いたアクセス方法

#### 2.1.3.1 スライスに整数値を与える場合

In [13]:
sr01 = pd.Series([2,4,6,8,10],index=[0,1,2,3,4])    # 0から始まるインデックス
sr02 = pd.Series([2,4,6,8,10],index=[1,2,3,4,5])    # 自然数のインデックス
sr03 = pd.Series([2,4,6,8,10],index=[-2,-1,0,1,2])  # 負の値を含むインデックス
print( sr01[0:2] )         # 以降，スライス [0:2] を指定する試み
print( '--------' )
print( sr02[0:2] )
print( '--------' )
print( sr03[0:2] )

0    2
1    4
dtype: int64
--------
1    2
2    4
dtype: int64
--------
-2    2
-1    4
dtype: int64


#### 2.1.3.2 スライスに非整数のインデックス項目を与える場合

In [14]:
sr04 = pd.Series([2,4,6,8,10],index=['0','1','2','3','4'])
sr05 = pd.Series([2,4,6,8,10],index=['a','b','c','d','e'])
print( sr04['0':'2'] )
print( '--------' )
print( sr05['a':'c'] )

0    2
1    4
2    6
dtype: int64
--------
a    2
b    4
c    6
dtype: int64


### 2.1.4　要素の抽出

In [15]:
msk = [True,True,False,False,True]  # 抽出対象の位置に True を対応させる
sr.iloc[msk]    # iloc に与える

1      1
2    555
5     25
dtype: int64

In [16]:
sr[msk]     # スライスに直接与える

1      1
2    555
5     25
dtype: int64

#### 2.1.4.1 条件式から真理値の列を生成する方法

In [17]:
sr < 100    # 条件を満たす要素の位置を調べる

1     True
2    False
3    False
4    False
5     True
dtype: bool

In [18]:
sr[ sr < 100 ]  # スライスに条件式を記述する

1     1
5    25
dtype: int64

In [19]:
#sr.iloc[ sr < 100 ]

### 2.1.5　重複するインデックスを持つSeriesの扱い

In [20]:
ix2 = ['x','y','y','y','z']         # インデックス用のデータ列（重複あり）
sr2 = pd.Series( lst2, index=ix2 )  # Seriesに変換（インデックスにix2を与える）
sr2                                 # 内容確認

x     1
y     4
y     9
y    16
z    25
dtype: int64

In [21]:
print( sr2.at['y'] )        # 重複するインデックスを持つ要素の取り出し (1)

y     4
y     9
y    16
dtype: int64


In [22]:
print( sr2.loc['y'] )        # 重複するインデックスを持つ要素の取り出し (2)

y     4
y     9
y    16
dtype: int64


In [23]:
print( sr2.loc['x':'y'] )        # 重複するインデックスを持つ要素の取り出し (3)

x     1
y     4
y     9
y    16
dtype: int64


### 2.1.6　Seriesからndarrayへの変換

In [24]:
print( sr2.values )         # データをndarrayとして取り出し
print( type(sr2.values) )   # データ型の調査

[ 1  4  9 16 25]
<class 'numpy.ndarray'>


#### 2.1.6.1　データとしてのインデックス

In [25]:
print( sr2.index )          # インデックスの取り出し
print( type(sr2.index) )    # データ型の調査

Index(['x', 'y', 'y', 'y', 'z'], dtype='object')
<class 'pandas.core.indexes.base.Index'>


In [26]:
ix = sr2.index              # Indexオブジェクトの取り出し
print( '0番目:', ix[0] )
print( '1番目以降:', ix[1:] )

0番目: x
1番目以降: Index(['y', 'y', 'y', 'z'], dtype='object')


In [27]:
print( sr2.index.values )           # インデックスをndarrayとして取り出し
print( type(sr2.index.values) )     # データ型の調査

['x' 'y' 'y' 'y' 'z']
<class 'numpy.ndarray'>


#### 2.1.6.2　インデックスの検索

In [28]:
print( sr2.index.get_loc('z') ) # インデックスが 'z' であるデータの格納位置
print( sr2.index.get_loc('y') ) # インデックスが 'y' であるデータの格納位置

4
slice(1, 4, None)


In [29]:
lst22 = list( range(10) )   # 0-9までの整数のリスト
ix22 = ['x','y','x','x','y','y','z','y','z','x']    # インデックス用のデータ列（重複あり）
sr22 = pd.Series( lst22, index=ix22 )   # Seriesに変換（インデックスにix22を与える）
sr22                                    # 内容確認

x    0
y    1
x    2
x    3
y    4
y    5
z    6
y    7
z    8
x    9
dtype: int64

In [30]:
s = sr22.index.get_loc('y')     # 重複するインデックスの位置
print( s )          # 格納位置
print( type(s) )    # データ型の調査

[False  True False False  True  True False  True False False]
<class 'numpy.ndarray'>


### 2.1.7　ndarrayからSeriesへの変換

In [31]:
import numpy as np                              # NumPyを 'np' という名で読込み
ar = np.array( [2,4,6,8,10], dtype='float64' )  # 偶数列の配列を生成（浮動小数点数として）
print( ar )                                     # 内容確認
print( type(ar) )                               # データ型の調査

[ 2.  4.  6.  8. 10.]
<class 'numpy.ndarray'>


In [32]:
sr3 = pd.Series( ar, index=None )   # Seriesに変換（インデックスは自動生成）
sr3                                 # 内容確認

0     2.0
1     4.0
2     6.0
3     8.0
4    10.0
dtype: float64

### 2.1.8　整列（ソート）

In [33]:
sr4 = pd.Series( [25,1,16,4,9], index=None )    # 整列されていないSeries
sr4                                             # 内容確認

0    25
1     1
2    16
3     4
4     9
dtype: int64

In [34]:
sr41 = sr4.sort_values()    # 要素を昇順に整列
print( sr41 )               # 整列結果の確認

1     1
3     4
4     9
2    16
0    25
dtype: int64


In [35]:
sr4     # 内容確認（再度）

0    25
1     1
2    16
3     4
4     9
dtype: int64

#### 2.1.8.1　整列順序の指定

In [36]:
sr42 = sr4.sort_values( ascending=False )   # 要素を降順に整列
print( sr42 )                               # 整列結果の確認

0    25
2    16
4     9
3     4
1     1
dtype: int64


#### 2.1.8.2　インデックスに沿った整列

In [37]:
sr42.sort_index()       # インデックスの順序で整列

0    25
1     1
2    16
3     4
4     9
dtype: int64

In [38]:
sr42.sort_index( ascending=False )

4     9
3     4
2    16
1     1
0    25
dtype: int64

In [39]:
sr42.sort_index( inplace=True )
sr42

0    25
1     1
2    16
3     4
4     9
dtype: int64

### 2.1.9　要素の削除

In [40]:
# サンプルの作成
sr5 = pd.Series( [111,222,333], index=['d1','d2','d3'] )
sr5     # 内容確認

d1    111
d2    222
d3    333
dtype: int64

In [41]:
sr51 = sr5.drop('d2')   # インデックス 'd2' の要素を削除
sr51    # 内容確認

d1    111
d3    333
dtype: int64

In [42]:
sr5     # 元のデータの内容確認

d1    111
d2    222
d3    333
dtype: int64

In [43]:
sr52 = sr5.drop(['d1','d3'])    # 複数の要素を削除
sr52    # 内容確認

d2    222
dtype: int64

In [44]:
sr53 = pd.Series(range(4),index=['d1','d2','d1','d3'])   # 重複するインデックス 'd1'
sr53

d1    0
d2    1
d1    2
d3    3
dtype: int64

In [45]:
sr54 = sr53.drop('d1')    # 重複するインデックスに対してdrop
sr54

d2    1
d3    3
dtype: int64

In [46]:
# 重複するインデックス 'd1','d4' を持つSeries
sr55 = pd.Series(range(8),index=['d1','d2','d1','d3','d4','d5','d4','d6'])
sr55

d1    0
d2    1
d1    2
d3    3
d4    4
d5    5
d4    6
d6    7
dtype: int64

In [47]:
sr56 = sr55.drop(['d1','d4'])  # 複数の種類の削除対象を指定する
sr56

d2    1
d3    3
d5    5
d6    7
dtype: int64

In [48]:
print( sr5 )        # 元のデータ
print( '--------' )
del sr5['d2']       # 元のデータを直接変更する
print( sr5 )        # 内容確認

d1    111
d2    222
d3    333
dtype: int64
--------
d1    111
d3    333
dtype: int64


### 2.1.10 Seriesオブジェクトの変更と複製について

In [49]:
sr7 = pd.Series([11,12,13],index=['d1','d2','d3'])   # サンプルデータ
sr7

d1    11
d2    12
d3    13
dtype: int64

In [50]:
sr72 = sr7.copy()    # 複製を作る
sr72['d2'] = 999     # 複製されたものを変更
sr72

d1     11
d2    999
d3     13
dtype: int64

In [51]:
sr7    # 元のデータの内容確認

d1    11
d2    12
d3    13
dtype: int64

### 2.1.11　Seriesオブジェクトの連結

In [52]:
srA = pd.Series( [11,12,13] )
srB = pd.Series( [21,22,23] )
srAB = pd.concat( [srA,srB] )   # 上記2つのSeriesを連結
srAB

0    11
1    12
2    13
0    21
1    22
2    23
dtype: int64

### 2.1.12　インデックスの再設定

#### 2.1.12.1 reset_indexメソッドによる方法

In [53]:
srABr = srAB.reset_index( drop=True )
srABr

0    11
1    12
2    13
3    21
4    22
5    23
dtype: int64

In [54]:
srABr = srAB.reset_index()  # dropを指定せずに実行
display( srABr )
print( '--------' )
print( type(srABr) )

Unnamed: 0,index,0
0,0,11
1,1,12
2,2,13
3,0,21
4,1,22
5,2,23


--------
<class 'pandas.core.frame.DataFrame'>


#### 2.1.12.2 与えた項目列でインデックスで置き換える方法

In [55]:
srAB.index = ['a','b','c','d','e','f']    # srAB自体に変更を加える
srAB

a    11
b    12
c    13
d    21
e    22
f    23
dtype: int64

### 2.1.13 マルチインデックス

In [56]:
midx = pd.MultiIndex.from_tuples(
    [('A','a',1),('A','a',2),('A','b',1),('A','b',2),
     ('B','a',1),('B','a',2),('B','b',1),('B','b',2)])

In [57]:
sr = pd.Series(list(range(8)),index=midx)   # 0～7の値を持つSeriesオブジェクト
sr

A  a  1    0
      2    1
   b  1    2
      2    3
B  a  1    4
      2    5
   b  1    6
      2    7
dtype: int64

In [58]:
sr.at[('A')]

a  1    0
   2    1
b  1    2
   2    3
dtype: int64

In [59]:
sr.at[('A','b')]

1    2
2    3
dtype: int64

#### 2.1.13.1 マルチインデックスを指定した整列

In [60]:
sr.sort_index(level=1)    # インデックスの第1レベルで整列

A  a  1    0
      2    1
B  a  1    4
      2    5
A  b  1    2
      2    3
B  b  1    6
      2    7
dtype: int64

In [61]:
sr.sort_index(level=2)    # インデックスの第2レベルで整列

A  a  1    0
   b  1    2
B  a  1    4
   b  1    6
A  a  2    1
   b  2    3
B  a  2    5
   b  2    7
dtype: int64

#### 2.1.13.2 インデックスレベルへの名前の付与

In [62]:
midx = pd.MultiIndex.from_tuples(
    [('A','a',1),('A','a',2),('A','b',1),('A','b',2),
     ('B','a',1),('B','a',2),('B','b',1),('B','b',2)],
    names=['1st','2nd','3rd'])

In [63]:
sr = pd.Series(list(range(8)),index=midx)   # 0～7の値を持つSeriesオブジェクト
sr

1st  2nd  3rd
A    a    1      0
          2      1
     b    1      2
          2      3
B    a    1      4
          2      5
     b    1      6
          2      7
dtype: int64

### 2.1.14　その他

#### 2.1.14.1　開始部分，終了部分の取り出し

In [64]:
sr6 = pd.Series( [x**2 for x in range(1000)] )     # 長いSeries
sr6.head(3)     # 先頭3個の取り出し

0    0
1    1
2    4
dtype: int64

In [65]:
sr6.tail(3)     # 末尾3個の取り出し

997    994009
998    996004
999    998001
dtype: int64