2つの日付の間のDataFrameの行を選択する

Question

さらに

質問

2つの日付の間のDataFrameの行を選択する

以下のようにcsvからDataFrameを作成しています。

stock = pd.read_csv('data_in/' + filename + '.csv', skipinitialspace=True)

このDataFrameには日付の列があります。指定された日付の範囲内、または指定された2つの日付の間にある日付の値を持つ行のみを含む新しいDataFrameを作成する（または既存のDataFrameを上書きする）方法はありますか？

Ezra Citron

編集された質問 17日 8月 2018 в 4:25

プログラミング

python

pandas

解決策・回答

Christin Jose

13日 7月 2016 в 1:00

さらに

ロック機能を使うよりも、ダイレクトチェックを使うのがベストな選択だと感じています。

df = df[(df['date'] > '2000-6-1') & (df['date'] <= '2000-6-10')]

私の場合はうまくいきました。

スライスを使った関数の主な問題点は、限界値が実際の値に含まれていなければならないことで、そうでなければKeyErrorになります。

49

0

Jonny Brooks

23日 1月 2017 в 8:47

さらに

date列に対して、以下のようにisinメソッドを使うことができます。 df[df["date"].isin(pd.date_range(start_date, end_date))]`。

Note: これは（質問にあるように）日付でのみ動作し、タイムスタンプでは動作しません。

例:

import numpy as np   
import pandas as pd

# Make a DataFrame with dates and random numbers
df = pd.DataFrame(np.random.random((30, 3)))
df['date'] = pd.date_range('2017-1-1', periods=30, freq='D')

# Select the rows between two dates
in_range_df = df[df["date"].isin(pd.date_range("2017-01-15", "2017-01-20"))]

print(in_range_df)  # print result

となります。

           0         1         2       date
14  0.960974  0.144271  0.839593 2017-01-15
15  0.814376  0.723757  0.047840 2017-01-16
16  0.911854  0.123130  0.120995 2017-01-17
17  0.505804  0.416935  0.928514 2017-01-18
18  0.204869  0.708258  0.170792 2017-01-19
19  0.014389  0.214510  0.045201 2017-01-20

Jonny Brooks

編集した答え 3日 9月 2018 в 10:25

18

0

質問の追加

カテゴリ

すべて

技術情報

文化・レクリエーション

生活・芸術

科学

プロフェッショナル

事業内容

ユーザー

すべて

新しい

人気

1

2

3

4

5

Do you have a question? Add it on the site and get an answer instantly

ja.kzen.dev

unutbu · Accepted Answer · 2015-03-31T13:49:49+00:00

解決策は2つあります。

ブール値のマスクを使用し、df.loc[mask]を使用します。
日付列をDatetimeIndexとして設定し、df[start_date : end_date]を使用する。

ブーリアンマスクを使用する。

df['date']がdtypedatetime64[ns]`のSeriesであることを確認します。

df['date'] = pd.to_datetime(df['date'])

ブーリアンマスクを作成します。start_dateとend_dateには、datetime.datetimeを使用できます。 start_dateとend_dateは、datetime.datetime、np.datetime64、pd.Timestamp、またはdatetimeの文字列です。

#greater than the start date and smaller than the end date
mask = (df['date'] > start_date) & (df['date'] <= end_date)

サブDataFrameを選択します。

df.loc[mask]

または df に再割り当て

df = df.loc[mask]

例えば、以下のようになります。

インポート numpy as np
pdとしてpandasをインポート

df = pd.DataFrame(np.random.random((200,3)))
df['date'] = pd.date_range('2000-1-1', periods=200, freq='D')
mask = (df['date'] > '2000-6-1') & (df['date'] <= '2000-6-10')
print(df.loc[mask])

イールド

            0         1         2       date
153  0.208875  0.727656  0.037787 2000-06-02
154  0.750800  0.776498  0.237716 2000-06-03
155  0.812008  0.127338  0.397240 2000-06-04
156  0.639937  0.207359  0.533527 2000-06-05
157  0.416998  0.845658  0.872826 2000-06-06
158  0.440069  0.338690  0.847545 2000-06-07
159  0.202354  0.624833  0.740254 2000-06-08
160  0.465746  0.080888  0.155452 2000-06-09
161  0.858232  0.190321  0.432574 2000-06-10

DatetimeIndexを使用しています。

日付による選択を大量に行う場合は、最初に date カラムをインデックスとして設定した方が早いかもしれません。 date列を最初にインデックスとして設定したほうが早いかもしれません。そうすれば、次のようにして日付ごとに行を選択することができます。 df.loc[start_date:end_date]`.

`` python インポート numpy as np pdとしてpandasを読み込む

df = pd.DataFrame(np.random.random((200,3))) df['date'] = pd.date_range('2000-1-1', periods=200, freq='D') df = df.set_index(['date']) print(df.loc['2000-6-1':'2000-6-10'])


イールド

               0         1         2

date
2000-06-01 0.040457 0.326594 0.492136 # <- includes start_date 2000-06-02 0.279323 0.877446 0.464523 2000-06-03 0.328068 0.837669 0.608559 2000-06-04 0.107959 0.678297 0.517435 2000-06-05 0.131555 0.418380 0.025725 2000-06-06 0.999961 0.619517 0.206108 2000-06-07 0.129270 0.024533 0.154769 2000-06-08 0.441010 0.741781 0.470402 2000-06-09 0.682101 0.375660 0.009916 2000-06-10 0.754488 0.352293 0.339337




Python の `seq[start:end]` は `start` を含みますが `end` は含みません。一方、Pandas の `df.loc[start_date : end_date]` は、エンドポイントがインデックス内にあれば *両方* を結果に含みます。ただし、`start_date`も`end_date`もインデックスに入っている必要はありません。

----------

また、[`pd.read_csv` には `parse_dates` パラメータがあります](http://pandas.pydata.org/pandas-docs/dev/generated/pandas.io.parsers.read_csv.html) これを使うと、`date` カラムを `datetime64` として解析することができます。したがって、`parse_dates` を使用すると、`df['date'] = pd.to_datetime(df['date'])` を使用する必要がなくなります。