## 2.2　DataFrame（pandasのデータ構造）

### 2.2.1　DataFrameの生成

#### 2.2.1.1　リストからDataFrameを生成する方法

In [1]:
import pandas as pd                 # pandasを 'pd' という名で読込み
lst = [[1,1,1],[2,4,8],[3,9,27]]    # 元になる2次元のデータ
# DataFrameの生成
df = pd.DataFrame( lst, columns=['linear','square','cubic'],
                        index=['d1','d2','d3'] )
df      # 内容確認

Unnamed: 0,linear,square,cubic
d1,1,1,1
d2,2,4,8
d3,3,9,27


In [2]:
df = pd.DataFrame( lst )    # カラム，インデックスの省略
df                          # 内容確認

Unnamed: 0,0,1,2
0,1,1,1
1,2,4,8
2,3,9,27


#### 2.2.1.2　NumPyの配列（ndarray）からDataFrameを生成する方法

In [3]:
import numpy as np                      # NumPyを 'np' の名で読込み
ar = np.array( lst, dtype='int32' )     # NumPyの配列（整数）に変換
# DataFrameの生成
df = pd.DataFrame( ar, columns=['linear','square','cubic'] )
df                                      # 内容確認

Unnamed: 0,linear,square,cubic
0,1,1,1
1,2,4,8
2,3,9,27


#### 2.2.1.3　辞書からDataFrameを生成する方法

In [4]:
dc = {'linear':[1,2,3], 'square':[1,4,9], 'cubic':[1,8,27]}     # 辞書
df3 = pd.DataFrame( dc )    # DataFrameの生成
df3                         # 内容確認

Unnamed: 0,linear,square,cubic
0,1,1,1
1,2,4,8
2,3,9,27


In [5]:
# 辞書からDataFrameを生成（インデックスも与える）
dc = {
    'linear':{'d1':1, 'd2':2, 'd3':3},
    'square':{'d1':1, 'd2':4, 'd3':9},
    'cubic': {'d1':1, 'd2':8, 'd3':27}
}
df3 = pd.DataFrame( dc )    # DataFrameの生成
df3                         # 内容確認

Unnamed: 0,linear,square,cubic
d1,1,1,1
d2,2,4,8
d3,3,9,27


### 2.2.2　DataFrameの要素にアクセスする方法

### 2.2.2.1　atによるアクセス

In [6]:
df2 = pd.DataFrame( )   # 空のDataFrameの生成
df2                     # 内容確認

In [7]:
# インデックスとコラムを指定して直接値を設定
df2.at['d1','linear']=1;  df2.at['d1','square']=1;   df2.at['d1','cubic']=1
df2.at['d2','linear']=2;  df2.at['d2','square']=4;   df2.at['d2','cubic']=8
df2.at['d3','linear']=3;  df2.at['d3','square']=9;   df2.at['d3','cubic']=27
df2     # 内容確認

Unnamed: 0,linear,square,cubic
d1,1.0,1.0,1.0
d2,2.0,4.0,8.0
d3,3.0,9.0,27.0


In [8]:
print( df2.at['d2','square'] )     # 要素の値の参照
print( type(df2.at['d2','square']) )  # データの型の調査

4.0
<class 'numpy.float64'>


#### 2.2.2.2　NaN（欠損値）について

In [9]:
df3 = pd.DataFrame( )   # 空のDataFrameの生成
df3.at['d1','linear']=1;  df3.at['d2','square']=4;  df3.at['d3','cubic']=27
df3     # 内容確認

Unnamed: 0,linear,square,cubic
d1,1.0,,
d2,,4.0,
d3,,,27.0


In [10]:
print( df3.at['d1','square'] )
print( type(df3.at['d1','square']) )

nan
<class 'numpy.float64'>


In [11]:
df3.fillna( 0 )     # NaN を 0 で置き換える

Unnamed: 0,linear,square,cubic
d1,1.0,0.0,0.0
d2,0.0,4.0,0.0
d3,0.0,0.0,27.0


#### 2.2.2.3 iatによるアクセス

In [12]:
print( df2.iat[1,1] )    # 格納位置でアクセス

4.0


In [13]:
# print( df2.iat[3,1] )    # 要素が全く存在しない領域の参照

In [14]:
#df2.iat[3,1] = 16

#### 2.2.2.4　locによるアクセス

In [15]:
# DataFrameの部分抽出（インデックスとコラムで範囲指定）
df22 = df2.loc['d1':'d2','linear':'square']
display( df22 )         # 整形表示
print( '--------' )
print( type(df22) )     # データ型の調査

Unnamed: 0,linear,square
d1,1.0,1.0
d2,2.0,4.0


--------
<class 'pandas.core.frame.DataFrame'>


In [16]:
df2.loc['d1':'d2', : ]    # 全てのカラムが対象

Unnamed: 0,linear,square,cubic
d1,1.0,1.0,1.0
d2,2.0,4.0,8.0


In [17]:
df2.loc[ : , 'linear':'square']    # 全ての行が対象

Unnamed: 0,linear,square
d1,1.0,1.0
d2,2.0,4.0
d3,3.0,9.0


In [18]:
# 飛び飛びの部分の取り出し（インデックスとコラムで対象部分を指定）
df23 = df2.loc[['d1','d3'],['linear','cubic']]
display( df23 )         # 整形表示
print( '--------' )
print( type(df23) )     # データ型の調査

Unnamed: 0,linear,cubic
d1,1.0,1.0
d3,3.0,27.0


--------
<class 'pandas.core.frame.DataFrame'>


#### 2.2.2.5 ilocによるアクセス

In [19]:
# DataFrameの部分抽出（格納順位で範囲指定）
df2.iloc[0:2,0:2]   # インデックス，カラム共に0以上2未満の範囲

Unnamed: 0,linear,square
d1,1.0,1.0
d2,2.0,4.0


In [20]:
# 飛び飛びの部分の取り出し（格納順位で対象部分を指定）
df2.iloc[[0,2],[0,2]]

Unnamed: 0,linear,cubic
d1,1.0,1.0
d3,3.0,27.0


In [21]:
df24 = pd.DataFrame([[x+y for x in range(4)] for y in range(4)],
                   index=['i1','i2','i3','i4'], columns=['c1','c2','c3','c4'])
df24

Unnamed: 0,c1,c2,c3,c4
i1,0,1,2,3
i2,1,2,3,4
i3,2,3,4,5
i4,3,4,5,6


In [22]:
df24.iloc[1:3,1:3] = [[66,77],[88,99]]
df24

Unnamed: 0,c1,c2,c3,c4
i1,0,1,2,3
i2,1,66,77,4
i3,2,88,99,5
i4,3,4,5,6


#### 2.2.2.6 列（カラム）の取り出しと追加

In [23]:
print( df2['linear'] )          # 特定の列にアクセス
print( '--------' )
print( type(df2['linear']) )    # データ型の調査

d1    1.0
d2    2.0
d3    3.0
Name: linear, dtype: float64
--------
<class 'pandas.core.series.Series'>


In [24]:
# 追加するカラムをSeriesとして生成
cl = pd.Series( ['Taro','Jiro','Hanako'], index=['d1','d2','d3'])
df2['name'] = cl    # カラム名 'name' として追加
display( df2 )      # 内容確認

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako


In [25]:
display( df2[['linear','cubic']] )  # 複数のカラムを指定して抽出

Unnamed: 0,linear,cubic
d1,1.0,1.0
d2,2.0,8.0
d3,3.0,27.0


In [26]:
df3 = pd.DataFrame([[1,2],[3,4]])
df3

Unnamed: 0,0,1
0,1,2
1,3,4


In [27]:
df2['linear':'cubic']    # カラムの範囲を指定する試み…

Unnamed: 0,linear,square,cubic,name


In [28]:
df2['d1':'d2']    # 行範囲の指定

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d2,2.0,4.0,8.0,Jiro


In [29]:
df2[1:3]    # 整数で行範囲を指定

Unnamed: 0,linear,square,cubic,name
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako


#### 2.2.2.7 ドット '.' 表記による列（カラム）へのアクセス

In [30]:
# DataFrameの作成
df4 = pd.DataFrame([['中村','大阪府','53'],['田中','東京','31']],
                 columns=['name','address','age'])
df4     # 内容確認

Unnamed: 0,name,address,age
0,中村,大阪府,53
1,田中,東京,31


In [31]:
df4.name    # 'name'のカラム

0    中村
1    田中
Name: name, dtype: object

In [32]:
df4.name[1]     # 'name'のカラムのインデックス[1]

'田中'

In [33]:
df4.gender = ['男','女']      # 新規カラムの追加を試みる
df4     # 内容確認

  df4.gender = ['男','女']      # 新規カラムの追加を試みる


Unnamed: 0,name,address,age
0,中村,大阪府,53
1,田中,東京,31


In [34]:
df4['gender'] = ['男','女']     # 新規カラムの追加
display( df4 )                  # 内容確認
print( 'df4.gender[0] =', df4.gender[0] )   # ドット表記によるアクセス

Unnamed: 0,name,address,age,gender
0,中村,大阪府,53,男
1,田中,東京,31,女


df4.gender[0] = 男


#### 2.2.2.8　行の取り出しと追加

In [35]:
print( df2.loc['d2'] )          # 特定の行へのアクセス
print( '--------' )
print( type(df2.loc['d2']) )    # データ型の調査

linear     2.0
square     4.0
cubic      8.0
name      Jiro
Name: d2, dtype: object
--------
<class 'pandas.core.series.Series'>


In [36]:
print( df2.iloc[1] )    # 特定の行へのアクセス（格納位置指定）

linear     2.0
square     4.0
cubic      8.0
name      Jiro
Name: d2, dtype: object


In [37]:
# 追加する行をSeriesとして生成
lin = pd.Series( [4,16,64,'Junko'], index=['linear','square','cubic','name'] )
df2.loc['d4'] = lin     # インデックス 'd4' の行として追加
df2                     # 内容確認

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako
d4,4.0,16.0,64.0,Junko


In [38]:
df2.loc['d2':'d3']

Unnamed: 0,linear,square,cubic,name
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako


In [39]:
df2.iloc[1:3]

Unnamed: 0,linear,square,cubic,name
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako


In [40]:
df2.loc[ ['d1','d3'] ]

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d3,3.0,9.0,27.0,Hanako


In [41]:
df2.iloc[ [0,2] ]

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d3,3.0,9.0,27.0,Hanako


#### 2.2.2.9　DataFrameをNumPyの配列（ndarray）に変換する方法

In [42]:
print( df2.values )         # NumPyのndarrayとしてデータ配列を取り出す
print( '--------' )
print( type(df2.values) )   # データ型の調査

[[1.0 1.0 1.0 'Taro']
 [2.0 4.0 8.0 'Jiro']
 [3.0 9.0 27.0 'Hanako']
 [4.0 16.0 64.0 'Junko']]
--------
<class 'numpy.ndarray'>


In [43]:
print( df2.to_numpy() )          # NumPyのndarrayとしてデータ配列を取り出す
print( '--------' )
print( type(df2.to_numpy()) )    # データ型の調査

[[1.0 1.0 1.0 'Taro']
 [2.0 4.0 8.0 'Jiro']
 [3.0 9.0 27.0 'Hanako']
 [4.0 16.0 64.0 'Junko']]
--------
<class 'numpy.ndarray'>


#### 2.2.2.10　データとしてのインデックスとカラム

In [44]:
print( df2.index )    # インデックスをデータとして取り出す
print( df2.columns )  # コラムをデータとして取り出す

Index(['d1', 'd2', 'd3', 'd4'], dtype='object')
Index(['linear', 'square', 'cubic', 'name'], dtype='object')


In [45]:
print( df2.index.values )           # インデックスをndarrayとして取り出す
print( type(df2.index.values) )     # データ型の調査
print( '--------' )
print( df2.columns.values )         # コラムをndarrayとして取り出す
print( type(df2.columns.values) )   # データ型の調査

['d1' 'd2' 'd3' 'd4']
<class 'numpy.ndarray'>
--------
['linear' 'square' 'cubic' 'name']
<class 'numpy.ndarray'>


In [46]:
print( df2.index.to_numpy() )           # インデックスをndarrayとして取り出す
print( type(df2.index.to_numpy()) )     # データ型の調査
print( '--------' )
print( df2.columns.to_numpy() )         # コラムをndarrayとして取り出す
print( type(df2.columns.to_numpy()) )   # データ型の調査

['d1' 'd2' 'd3' 'd4']
<class 'numpy.ndarray'>
--------
['linear' 'square' 'cubic' 'name']
<class 'numpy.ndarray'>


#### 2.2.2.11　データの格納順位の調査

In [47]:
y = df2.index.get_loc('d3')         # インデックスの格納位置
x = df2.columns.get_loc('square')   # カラムの格納位置
(x,y)                               # 座標で表示

(1, 2)

### 2.2.3　整列（ソート）

In [48]:
df24 = df2.sort_values( 'name' )    # カラム 'name' の値の順で整列
df24        # 内容確認

Unnamed: 0,linear,square,cubic,name
d3,3.0,9.0,27.0,Hanako
d2,2.0,4.0,8.0,Jiro
d4,4.0,16.0,64.0,Junko
d1,1.0,1.0,1.0,Taro


In [49]:
df2         # 内容確認

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako
d4,4.0,16.0,64.0,Junko


#### 2.2.3.1　整列順序の指定

In [50]:
df24 = df2.sort_values( 'name', ascending=False )   # 降順に整列
df24        # 内容確認

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d4,4.0,16.0,64.0,Junko
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako


#### 2.2.3.2　インデックスに沿った整列

In [51]:
df24.sort_index()     # インデックス順に整列

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako
d4,4.0,16.0,64.0,Junko


### 2.2.4　行，列の削除

In [52]:
df25 = df2.drop(index='d4')  # 'd4' の行を削除
df25    # 内容確認

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako


In [53]:
df25 = df2.drop(columns='name')  # 'name' の列を削除
df25    # 内容確認

Unnamed: 0,linear,square,cubic
d1,1.0,1.0,1.0
d2,2.0,4.0,8.0
d3,3.0,9.0,27.0
d4,4.0,16.0,64.0


In [54]:
df25 = df2.drop(index='d4',columns='name')  # 'd4' の行と 'name' の列を削除
df25    # 内容確認

Unnamed: 0,linear,square,cubic
d1,1.0,1.0,1.0
d2,2.0,4.0,8.0
d3,3.0,9.0,27.0


In [55]:
df2     # 内容確認

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d2,2.0,4.0,8.0,Jiro
d3,3.0,9.0,27.0,Hanako
d4,4.0,16.0,64.0,Junko


In [56]:
# 複数の行，列を削除
df2.drop(index=['d1','d4'],columns=['linear','name'])

Unnamed: 0,square,cubic
d2,4.0,8.0
d3,9.0,27.0


In [57]:
df2.drop('d3')

Unnamed: 0,linear,square,cubic,name
d1,1.0,1.0,1.0,Taro
d2,2.0,4.0,8.0,Jiro
d4,4.0,16.0,64.0,Junko


#### 2.2.4.1　カラムの抹消

In [58]:
del df2['name']     # 'name' のカラムを抹消（直接削除）
df2                 # 内容確認

Unnamed: 0,linear,square,cubic
d1,1.0,1.0,1.0
d2,2.0,4.0,8.0
d3,3.0,9.0,27.0
d4,4.0,16.0,64.0


### 2.2.5 DataFrameの複製

In [59]:
dOrig = pd.DataFrame([[1,2],[3,4]],index=['i1','i2'],columns=['c1','c2'])
dOrig

Unnamed: 0,c1,c2
i1,1,2
i2,3,4


In [60]:
dCopy = dOrig.copy()
dCopy

Unnamed: 0,c1,c2
i1,1,2
i2,3,4


In [61]:
dCopy.iloc[0,0] = 11    # 複製側を変更
print('複製側');      display(dCopy)
print('オリジナル');  display(dOrig)

複製側


Unnamed: 0,c1,c2
i1,11,2
i2,3,4


オリジナル


Unnamed: 0,c1,c2
i1,1,2
i2,3,4


In [62]:
dRef = dOrig           # 別の変数 dRef に代入
dRef.iloc[1,1] = 44    # dRef を変更すると…
print('参照側');      display(dRef)
print('オリジナル');  display(dOrig)

参照側


Unnamed: 0,c1,c2
i1,1,2
i2,3,44


オリジナル


Unnamed: 0,c1,c2
i1,1,2
i2,3,44


### 2.2.6　DataFrameの連結

#### 2.2.6.1 最も単純な連結処理

In [63]:
dfA = pd.DataFrame([['1a','1b'],['2a','2b']],
                   index=['d1','d2'], columns=['a','b'])
dfB = pd.DataFrame([['3a','3b'],['4a','4b']],
                   index=['d3','d4'], columns=['a','b'])
display( dfA );  display( dfB )

Unnamed: 0,a,b
d1,1a,1b
d2,2a,2b


Unnamed: 0,a,b
d3,3a,3b
d4,4a,4b


In [64]:
dfAB = pd.concat( [dfA,dfB] )
display( dfAB )

Unnamed: 0,a,b
d1,1a,1b
d2,2a,2b
d3,3a,3b
d4,4a,4b


In [65]:
dfBA = pd.concat( [dfB,dfA] )
display( dfBA )

Unnamed: 0,a,b
d3,3a,3b
d4,4a,4b
d1,1a,1b
d2,2a,2b


In [66]:
dfC = pd.DataFrame([['3c','3d'],['4c','4d']],
                  index=['d3','d4'],columns=['c','d'])
display( dfC )

Unnamed: 0,c,d
d3,3c,3d
d4,4c,4d


In [67]:
dfAC = pd.concat( [dfA,dfC] )    # dfA と dfC を連結
display( dfAC )

Unnamed: 0,a,b,c,d
d1,1a,1b,,
d2,2a,2b,,
d3,,,3c,3d
d4,,,4c,4d


#### 2.2.6.2 横方向（カラム方向）の連結

In [68]:
dfD = pd.DataFrame([['1e','1f'],['2e','2f'],['3e','3f']],
                  index=['d1','d2','d3'],columns=['e','f'])
display( dfD )

Unnamed: 0,e,f
d1,1e,1f
d2,2e,2f
d3,3e,3f


In [69]:
dfAD = pd.concat( [dfA,dfD], axis=1 )    # dfA と dfD を連結
display( dfAD )

Unnamed: 0,a,b,e,f
d1,1a,1b,1e,1f
d2,2a,2b,2e,2f
d3,,,3e,3f


### 2.2.7 指定した条件によるデータの抽出

#### 2.2.7.1 真理値を用いた抽出

In [70]:
# サンプルデータ
df3 = pd.DataFrame(
    [['taro','male',35],
     ['hanako','female',31],
     ['jiro','male',23],
     ['junko','female',21]],
    columns=['Name','gender','age'] )
df3     # 内容確認

Unnamed: 0,Name,gender,age
0,taro,male,35
1,hanako,female,31
2,jiro,male,23
3,junko,female,21


In [71]:
cond = [False,True,False,False] # 条件リスト
df31 = df3[cond]                # 抽出処理
df31                            # 内容確認

Unnamed: 0,Name,gender,age
1,hanako,female,31


#### 2.2.7.2 条件式から真理値列を生成する方法

In [72]:
# カラム 'gender' が 'female' である行の表す真理値列
cond2 = df3['gender']=='female'
cond2   # 内容確認

0    False
1     True
2    False
3     True
Name: gender, dtype: bool

In [73]:
df3[cond2]      # データの抽出

Unnamed: 0,Name,gender,age
1,hanako,female,31
3,junko,female,21


In [74]:
# もっと簡便な書き方
df3[ df3['gender']=='female' ]

Unnamed: 0,Name,gender,age
1,hanako,female,31
3,junko,female,21


#### 2.2.7.3 論理演算子による条件式の結合

In [75]:
# 連言（andによる結合）
df3[ (df3['gender']=='female') & (df3['age']<30) ]

Unnamed: 0,Name,gender,age
3,junko,female,21


In [76]:
# 否定的な条件指定
df3[ ~(df3['gender']=='male') ]

Unnamed: 0,Name,gender,age
1,hanako,female,31
3,junko,female,21


### 2.2.8　DataFrameに関する情報の取得

#### 2.2.8.1 要約統計量

In [77]:
df2i = df2.describe()   # 要約統計量
display( df2i )         # 内容確認
print( '--------' )
print( type(df2i) )     # データ型の調査

Unnamed: 0,linear,square,cubic
count,4.0,4.0,4.0
mean,2.5,7.5,25.0
std,1.290994,6.557439,28.225284
min,1.0,1.0,1.0
25%,1.75,3.25,6.25
50%,2.5,6.5,17.5
75%,3.25,10.75,36.25
max,4.0,16.0,64.0


--------
<class 'pandas.core.frame.DataFrame'>


#### 2.2.8.2　データ構造に関する情報の表示

In [78]:
df2.info()      # DataFrameの情報表示

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, d1 to d4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   linear  4 non-null      float64
 1   square  4 non-null      float64
 2   cubic   4 non-null      float64
dtypes: float64(3)
memory usage: 300.0+ bytes


### 2.2.9　その他

#### 2.2.9.1　開始部分，終了部分の取り出し

In [79]:
df2.head(2)     # 開始2行分の取り出し

Unnamed: 0,linear,square,cubic
d1,1.0,1.0,1.0
d2,2.0,4.0,8.0


In [80]:
df2.tail(2)     # 末尾2行分の取り出し

Unnamed: 0,linear,square,cubic
d3,3.0,9.0,27.0
d4,4.0,16.0,64.0


#### 2.2.9.2 行と列の転置

In [81]:
df2.T   # 行と列の転置

Unnamed: 0,d1,d2,d3,d4
linear,1.0,2.0,3.0,4.0
square,1.0,4.0,9.0,16.0
cubic,1.0,8.0,27.0,64.0


## 2.3 日付と時刻

### 2.3.1 Timestampクラス

In [82]:
t = pd.Timestamp('2019-06-17T15:14:31')     # ISO8601表記
print('Data type:',type(t))     # 型の調査
t   # 内容確認

Data type: <class 'pandas._libs.tslibs.timestamps.Timestamp'>


Timestamp('2019-06-17 15:14:31')

In [83]:
print( t )      # 整形表示

2019-06-17 15:14:31


In [84]:
t1 = pd.Timestamp('20190617151431')
t2 = pd.Timestamp('2019/06/17 15:14:31')
t3 = pd.Timestamp('2019-06-17 15:14:31')
print( 'Example:\n', t1,'\n', t2,'\n', t3 )

Example:
 2019-06-17 15:14:31 
 2019-06-17 15:14:31 
 2019-06-17 15:14:31


In [85]:
print( 'year:',        t.year );        print( 'month:',       t.month )
print( 'day:',         t.day );         print( 'hour:',        t.hour )
print( 'minute:',      t.minute );      print( 'sedond:',      t.second )
print( 'microsecond:', t.microsecond ); print( 'nanosecond:',  t.nanosecond )
print( 'week day:',    t.weekday() )    # 月曜日～日曜日を0～6の数値で表現

year: 2019
month: 6
day: 17
hour: 15
minute: 14
sedond: 31
microsecond: 0
nanosecond: 0
week day: 0


##### 【更に簡単な方法】

In [86]:
pd.to_datetime('2019-06-17 15:14:31')

Timestamp('2019-06-17 15:14:31')

#### 2.3.1.1 タイムゾーン

In [87]:
t = pd.Timestamp('2019-06-17 15:14:31Z')    # UTC
print( t )  # 整形表示
t           # そのまま表示

2019-06-17 15:14:31+00:00


Timestamp('2019-06-17 15:14:31+0000', tz='UTC')

In [88]:
pd.Timestamp('2019-06-17 15:14.123:31+0000')

Timestamp('2019-06-17 15:14:31+0000', tz='tzutc()')

##### 【タイムゾーンとオフセット】

In [89]:
pd.Timestamp('2019-06-17 15:14.123:31', tz='Asia/Tokyo')    # タイムゾーンを指定

Timestamp('2019-06-17 15:14:31+0900', tz='Asia/Tokyo')

In [90]:
pd.Timestamp('2019-06-17 15:14.123:31+0900')    # 時差を指定

Timestamp('2019-06-17 15:14:31+0900', tz='tzoffset(None, 32400)')

##### 【タイムゾーンの変換】

In [91]:
dutc = pd.Timestamp('2022-01-01 00:00:00Z' )
dutc.tz_convert('Asia/Tokyo')

Timestamp('2022-01-01 09:00:00+0900', tz='Asia/Tokyo')

#### 2.3.1.2 コンストラクタのキーワード引数に日付・時刻の値を与える方法

In [92]:
t = pd.Timestamp(year=2019,month=6,day=17,hour=15,minute=14,second=31,
                 microsecond=123456,nanosecond=789, tz='Asia/Tokyo')
t   # 内容確認

Timestamp('2019-06-17 15:14:31.123456789+0900', tz='Asia/Tokyo')

#### 2.3.1.3 現在時刻の取得

In [93]:
pd.Timestamp.now()  # 引数なし

Timestamp('2022-03-31 14:58:32.703074')

In [94]:
pd.Timestamp.now( tz='Asia/Tokyo' )     # タイムゾーンを明に指定

Timestamp('2022-03-31 14:58:32.719074+0900', tz='Asia/Tokyo')

In [95]:
pd.Timestamp.now( tz='UTC' )    # タイムゾーンを明に指定

Timestamp('2022-03-31 05:58:32.734073+0000', tz='UTC')

### 2.3.2 Timestampの差：Timedelta

In [96]:
t1 = pd.to_datetime('1964-10-10 14:58:00')  # 1964東京オリンピック
t2 = pd.to_datetime('2020-07-24 20:00:00')  # 2020東京オリンピック
dt = t2 - t1
print( type(dt) )   # 型の調査
dt  # 内容確認

<class 'pandas._libs.tslibs.timedeltas.Timedelta'>


Timedelta('20376 days 05:02:00')

In [97]:
t2 + dt

Timestamp('2076-05-08 01:02:00')

#### 2.3.2.1 Timedeltaの生成

In [98]:
dt = pd.Timedelta(days=7,hours=1,minutes=2,seconds=3,
                 microseconds=123456,nanoseconds=789)
dt  # 内容確認

Timedelta('7 days 01:02:03.123456789')

In [99]:
print( 'days:', dt.days )
print( 'seconds:', dt.seconds )
print( 'microseconds:', dt.microseconds )
print( 'nanoseconds:', dt.nanoseconds )

days: 7
seconds: 3723
microseconds: 123456
nanoseconds: 789


### 2.3.3 Timestampの列：date_rangeとDateTimeIndex

In [100]:
dr = pd.date_range(t1,t2)   # t1からt2までのタイムスタンプ列を生成
print( type(dr) )   # 型の調査
dr[:5]  # 先頭5個を表示

<class 'pandas.core.indexes.datetimes.DatetimeIndex'>


DatetimeIndex(['1964-10-10 14:58:00', '1964-10-11 14:58:00',
               '1964-10-12 14:58:00', '1964-10-13 14:58:00',
               '1964-10-14 14:58:00'],
              dtype='datetime64[ns]', freq='D')

In [101]:
dr[0]   # 先頭要素の確認

Timestamp('1964-10-10 14:58:00', freq='D')

#### 2.3.3.1 他の型への変換

In [102]:
dr.to_numpy()[:5]    # NumPyの配列として取り出す（先頭5個を表示）

array(['1964-10-10T14:58:00.000000000', '1964-10-11T14:58:00.000000000',
       '1964-10-12T14:58:00.000000000', '1964-10-13T14:58:00.000000000',
       '1964-10-14T14:58:00.000000000'], dtype='datetime64[ns]')

In [103]:
pd.Series(dr).head(5)     # Seriesオブジェクトに変換（先頭5個を表示）

0   1964-10-10 14:58:00
1   1964-10-11 14:58:00
2   1964-10-12 14:58:00
3   1964-10-13 14:58:00
4   1964-10-14 14:58:00
dtype: datetime64[ns]

#### 2.3.3.2 頻度の規則

In [104]:
dr = pd.date_range( '1989-01-08 00:00:00', '2019-05-01 00:00:00', freq='AS-APR' )
print( len(dr) )    # 要素数の調査
dr[:5]  # 先頭5個を表示

31


DatetimeIndex(['1989-04-01', '1990-04-01', '1991-04-01', '1992-04-01',
               '1993-04-01'],
              dtype='datetime64[ns]', freq='AS-APR')

### 2.3.4 NaT

In [105]:
dfT = pd.DataFrame()
dfT.loc['d1','a'] = pd.Timestamp('2022-01-01')
dfT.loc['d2','b'] = pd.Timestamp('2022-01-02')
dfT

Unnamed: 0,a,b
d1,2022-01-01,NaT
d2,NaT,2022-01-02


In [106]:
type(pd.NaT)

pandas._libs.tslibs.nattype.NaTType

In [107]:
pd.NaT + pd.NaT

NaT

## 2.4 データ列に対する一括処理

In [108]:
sr0 = pd.Series([x for x in range(4)])  # 製数列の作成
sr0     # 内容確認

0    0
1    1
2    2
3    3
dtype: int64

In [109]:
def tm2(x): return(2*x)     # 2倍の値を計算する関数
tm2(3)  # テスト実行

6

In [110]:
sr0.apply(tm2)    # 与えた関数名を全要素に適用

0    0
1    2
2    4
3    6
dtype: int64

In [111]:
dfm = pd.DataFrame(columns=['linear','double','square'])
dfm['linear'] = sr0
dfm['double'] = dfm['linear'].apply( tm2 )              # 関数名を与える
dfm['square'] = dfm['linear'].apply( lambda x:x**2 )    # lambda式を与える
dfm     # 内容確認

Unnamed: 0,linear,double,square
0,0,0,0
1,1,2,1
2,2,4,4
3,3,6,9


In [112]:
dfm.apply(tm2)  # DataFrameに対して適用

Unnamed: 0,linear,double,square
0,0,0,0
1,2,4,2
2,4,8,8
3,6,12,18
