Python 実践 データ加工/可視化 100本ノック に挑戦 ノック4

ノック4:ヘッダを追加しよう

 

mstには、ヘッダ項目が格納されています。この項目からcolumn_name_en項目だけを

抜き出します。

 

import pandas as pd

mst=pd.read_csv('data/mst_column_name.txt',encoding='shift-jis',sep='\t')
columns=mst.column_name_en.values

print(columns)

 

実行結果

['sequenceNumber' 'corporateNumber' 'process' 'correct' 'updateDate'
 'changeDate' 'name' 'nameImageId' 'kind' 'prefectureName' 'cityName'
 'streetNumber' 'addressImageId' 'prefectureCode' 'cityCode' 'postCode'
 'addressOutside' 'addressOutsideImageId' 'closeDate' 'closeCause'
 'successorCorporateNumber' 'changeCause' 'assignmentDate' 'latest'
 'enName' 'enPrefectureName' 'enCityName' 'enAddressOutside' 'furigana'
 'hihyoji']

 

このcolumns情報をdataの変数に設定します。

import pandas as pd

mst=pd.read_csv('data/mst_column_name.txt',encoding='shift-jis',sep='\t')
columns=mst.column_name_en.values

data = pd.read_csv('data/22_shizuoka_all_20210331.csv',
                   encoding="shift-jis",header=None,dtype=object)

data.columns=columns    
print(data.head(5))

 

 

実行結果

sequenceNumber corporateNumber process correct  ...                                enCityName enAddressOutside       furigana hihyoji        
0              1   1000013040008      01       1  ...      1-20, Jonaicho, Aoi ku, Shizuoka shi              NaN  シズオカカテイサイバンショ   
    0
1              2   1000013050072      01       1  ...  1-6-15, Tenjin, Shimizu ku, Shizuoka shi              NaN   シミズカンイサイバンショ    
   0
2              3   1000013050080      01       1  ...      1-12-5, Chuo, Naka ku, Hamamatsu shi              NaN  ハママツカンイサイバンショ   
    0
3              4   1000020222119      01       1  ...                   3-1,Kounodai, Iwata shi              NaN           イワタシ       0    
4              5   1000020222127      01       1  ...               2-16-32 Honmachi, Yaizu shi              NaN           ヤイヅシ       0 

 

ヘッダ情報が付加され、何の値なのか項目から判断できるようになりました。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

/* -----codeの行番号----- */