ノック90 :Testデータの前処理をしよう
Testデータの前処理をおこないます。
最初にデータの確認をします。
実行結果
pclass sex age sibsp parch fare embarked class who adult_male deck embark_town alive alone
404 3 female 20.0 0 0 8.6625 S Third woman False NaN Southampton no True
521 3 male 22.0 0 0 7.8958 S Third man True NaN Southampton no True
130 3 male 33.0 0 0 7.8958 C Third man True NaN Cherbourg no True
14 3 female 14.0 0 0 7.8542 S Third child False NaN Southampton no True
610 3 female 39.0 1 5 31.2750 S Third woman False NaN Southampton no False
embark_townとaliveの列を削除します。
train_dsの時と同様、特徴をカテゴリカル変数に変換します。
True=1、False=0に変換します。
TestデータはTrainデータより少ないため、Trainデータに存在していてもTestデータには存在していない状況が発生します。
項目不一致を修正し、あわせます。
実行結果
age sibsp parch fare adult_male alone sex_female sex_male embarked_C embarked_Q embarked_S ...
0 20.0 0 0 8.6625 0 1 1 0 0 0 1 ...
1 22.0 0 0 7.8958 1 1 0 1 0 0 1 ...
2 33.0 0 0 7.8958 1 1 0 1 1 0 0 ...
3 14.0 0 0 7.8542 0 1 1 0 0 0 1 ...
4 39.0 1 5 31.2750 0 0 1 0 0 0 1 ...
.. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
222 56.0 0 1 83.1583 0 0 1 0 1 0 0 ...
[223 rows x 27 columns]
ノック86で行ったスケーリングの処理を行います。
欠損値の補完を行います。
実行結果
age sibsp parch fare adult_male alone sex_female sex_male embarked_C embarked_Q embarked_S ...
0 -0.666020 0.0 0.0 -0.276724 0 1 1 0 0 0 1 ...
1 -0.528613 0.0 0.0 -0.309950 1 1 0 1 0 0 1 ...
2 0.227125 0.0 0.0 -0.309950 1 1 0 1 1 0 0 ...
3 -1.078240 0.0 0.0 -0.311753 0 1 1 0 0 0 1 ...
4 0.639346 1.0 5.0 0.703233 0 0 1 0 0 0 1 ...
[5 rows x 27 columns]