Python 実践 データ加工/可視化 100本ノック に挑戦 ノック5

ノック5:統計量や欠損値を確認しよう

 

統計量と欠損値を確認します。

統計量はpadasのdescribeメソッドで表示されます。

 

import pandas as pd

mst=pd.read_csv('data/mst_column_name.txt',encoding='shift-jis',sep='\t')
columns=mst.column_name_en.values

data = pd.read_csv('data/22_shizuoka_all_20210331.csv',
                   encoding="shift-jis",header=None,dtype=object)

data.columns=columns    
print(data.describe())

 

実行結果

count:要素の個数

unique:ユニークな値の個数

top:出題頻度が最大の値

freq:topの出現回数

 

sequenceNumber corporateNumber process correct  updateDate  ... enPrefectureName   
count          114613          114613  114613  114613      114613  ...              230             
unique         114613          114613       6       2        1316  ...                1            

top             65845   4080401018357      01       0  2015-11-13  ...         Shizuoka  2-1-1
freq                1               1   94126   80704       55969  ...              230                     

 

欠損値はdata.isna()で表示されます。欠損値がある場合はTrue、値が存在する場合はFalseを返します。

 

実行結果

 sequenceNumber  corporateNumber  process  correct  updateDate  changeDate   name  0                False            False    False    False       False       False  False  ...   False   False       

1                False            False    False    False       False       False  False  ...   False   False        

2                False            False    False    False       False       False  False  ...   False   False        

3                False            False    False    False       False       False  False  ...   False   False       

 

欠損値がいくつあるか表示する場合はdata.isna().sum()を行います。

 

実行結果

sequenceNumber                   0
corporateNumber                  0
process                          0
correct                          0
updateDate                       0
changeDate                       0
name                             0
nameImageId                 113370
kind                             0
prefectureName                   0
cityName                         0
streetNumber                    17
addressImageId              113418
prefectureCode                   0
cityCode                         0
postCode                       173

 

 

 

 

 

 

 

/* -----codeの行番号----- */