ノック5:統計量や欠損値を確認しよう
統計量と欠損値を確認します。
統計量はpadasのdescribeメソッドで表示されます。
実行結果
count:要素の個数
unique:ユニークな値の個数
top:出題頻度が最大の値
freq:topの出現回数
sequenceNumber corporateNumber process correct updateDate ... enPrefectureName
count 114613 114613 114613 114613 114613 ... 230
unique 114613 114613 6 2 1316 ... 1
top 65845 4080401018357 01 0 2015-11-13 ... Shizuoka 2-1-1
freq 1 1 94126 80704 55969 ... 230
欠損値はdata.isna()で表示されます。欠損値がある場合はTrue、値が存在する場合はFalseを返します。
実行結果
sequenceNumber corporateNumber process correct updateDate changeDate name 0 False False False False False False False ... False False
1 False False False False False False False ... False False
2 False False False False False False False ... False False
3 False False False False False False False ... False False
欠損値がいくつあるか表示する場合はdata.isna().sum()を行います。
実行結果
sequenceNumber 0
corporateNumber 0
process 0
correct 0
updateDate 0
changeDate 0
name 0
nameImageId 113370
kind 0
prefectureName 0
cityName 0
streetNumber 17
addressImageId 113418
prefectureCode 0
cityCode 0
postCode 173