Python 実践 データ加工/可視化 100本ノック に挑戦 ノック57

Python 実践 データ加工/可視化 100本ノック」を購入したので、

一通りやっているところです。今日はノック57を行います。

資料は以下から入手できます。

Python実践 データ加工/可視化 100本ノック|サポート|秀和システム

 

 

ノック57 : 不要な単語を除外しよう

 

除外したい単語が登録してあるstop_words.txtファイルを読み込み、

除外処理を行います。(encodeingの部分は環境設定等で異なるかも)

 

with open('data/stop_words.txt'    ,mode='r',encoding='utf-8') as f :
    stop_words=f.read().split()

print(stop_words)

 

 

実行結果

['する', 'いる', 'なる', 'れる', 'よう']

 

MeCab_dfデータベースに対して、名詞のみデータ、名詞+動詞データを抽出し、除外処理を行います。

 

me01 = mecab_df.loc[mecab_df['品詞']=='名詞']
me02 = mecab_df.loc[(mecab_df['品詞']=='名詞') | (mecab_df['品詞']=='動詞')]
print(len(me01),len(me02))
me01 = me01.loc[~me01['原形'].isin(stop_words)]
me02 = me02.loc[~me02['原形'].isin(stop_words)]
print(len(me01),len(me02))

 

isinを使用すると、引数で渡した値が存在するかを確認し、True/Falseを返します。

チルダで否定しているので存在しているもの以外の行ということになります。

 

実行結果

1686 2666
1673 2448

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

/* -----codeの行番号----- */