ノック53:本文以外の項目を取り出そう
タイトルと著者を抜き出します。
readline()を使って1行づつ読んでいきます。
テキストの1行目に走れメロスというタイトルが記入されているので、
1行目をtitleという変数に代入します。
2行目に太宰治と著者名が記入されているので、authorという変数を用意し代入します。
実行結果
間に改行コードがあるので、削除して再度実行します。
\nは改行コードを表しています。
実行結果
次に公開日と修正日を取得します。
テキストのデータを1行単位で全てリードするreadlines()を使用して、
DataFrameの型にします。
実行結果
text
0 走れメロス\n
1 太宰治\n
2 \n
3 ----------------------------------------------...
4 【テキスト中に現れる記号について】\n
改行コードが入るので、replaceで削除します。
str.xxxのように文字列を呼び出して処理します。
実行結果
text
0 走れメロス
1 太宰治
2
3 ----------------------------------------------...
4 【テキスト中に現れる記号について】
データフレーム型のデータから公開日と修正日を取得します。
str.containsは部分一致でその文字列が含まれている箇所を抽出します。
実行結果
101 2000年12月4日公開
102 2011年1月17日修正
101行目、102行目にヒットしました。
体裁を整えて2000/12/4 と2011/1/17に変更します。
実行結果
101 2000/12/4
102 2011/1/17
datetimeで変換した場合は以下のようになります。
実行結果
101 2000-12-04
102 2011-01-17
最後に取得したデータをデータフレーム型で保存します。
変数bodyについては、ノック52のデータを使用します。
実行結果
title autor release_date update_date body
0 走れメロス 太宰治 2000-12-04 2011-01-17 メロスは激怒した。必ず、かの邪智暴虐《じゃちぼうぎゃく》の王を除かなければならぬと決意した
。...