%matplotlib inline
import pandas as pd
trajets = pd.read_hdf('../datachallenge/divvy-trips.h5', 'fixed')
Afficher les statistiques sur la durée
trajets.tripduration.describe()
Les mêmes, mais en minutes
(trajets.tripduration / 60).describe()
Abonnés vs occasionnels
Attention! sum()
n'est pas la même chose que count()
. Ici on veut compter le nombre de lignes (peu importe quelle colonne).
trajets.groupby('usertype').count().trip_id.plot(kind='bar')
# Une solution alternative
trajets.usertype.value_counts().plot(kind='bar')
Age maximum et minimum
(2014 - trajets.birthyear).describe()
Distribution des sexes.
Mêmes remarques qu'avant.
trajets.groupby('gender').count().trip_id.plot(kind='pie')
Trajets en fonction de l'age.
Encore une fois, on veut compter, pas sommer !
trajets.groupby(2014 - trajets.birthyear).count().trip_id.plot()
trajets.set_index('starttime', inplace=True, drop=False)
trajets['date'] = trajets.index.date
trajets['joursemaine'] = trajets.index.weekday
trajets['heure'] = trajets.index.hour
Durée moyenne par jour (calendrier).
On ne veut plus compter : on veut une moyenne (mean)
trajets.groupby('date').mean().tripduration.plot()
trajets.groupby('joursemaine').mean().tripduration.plot(kind='bar')