データマイニングツール Orange で、
ツールの
目次
データマイニングツール Orange に ついて
オープンソースの
も
私は、
GUI の
また、
以下、
Wikipedia
Orange (ソフトウェア) - Wikipedia詳しい
解説
データマイニングツール”Orange”ダウンロードリンク
Orange – Data Mining Fruitful & FunGithub への
リンク
biolab/orange3: Orange 3 data mining suite: http://orange.biolab.si
実施する 動機
Google Search Console で
共起ネットワーク図を
探していた
少し触った
WordCLoud の
前提
以下、
OS
% sw_vers ProductName: Mac OS X ProductVersion: 10.12.6 BuildVersion: 16G29
入力データ Search Analytics for Sheets - Google スプレッドシート アドオン で、
Google Search Console を Google スプレッドシートに Export。 Export 後の スプレッドシートを TSV 化した データを 入力データと しています。
アドオンの使い方は、 サーチコンソールの 詳細データを Googleスプレッドシートに 自動反映させてTableauに インポートする 方法 :: 「清水 誠」公式サイトが 参考に なりました。
インストール、 設定
以下、Text
の
インストール
Orange – Download から、
私がOrange3-3.4.5.dmg
でした。
ダウンロード後の
特に
インストールが
AddOn Text
の ダウンロード
Orange はText
が
もうTextable
と
ダウンロードは
Add-ons ダイアログを 開く
AddOn の
AddOn Text を ダウンロード
続いてText
の
ダウンロードには、
ダウンロードが
これで、
フローの 作成 コーパスから ワードクラウド作成
まず、
データフロー図のWidget
と
アウトプットと
単に
フロー図作成の
順に
手順上、
線同士で
入力データとなる
スプレッドシートを TSV 化する TSV ファイルから
Copus を 作成する ワードカウントの
前準備と して、 ストップワードを 取り 除く ワードカウント
WordCloud 描画
1. 入力データとなる スプレッドシートを TSV 化する
Search Analytics for Sheets - Google スプレッドシート アドオン で
Google スプレッドシートを
私は
TSV ファイルは
処理と
Date | Query | Page | Country | Device | Clicks | Impressions | CTR | Position |
---|---|---|---|---|---|---|---|---|
2017/07/26 | java uribuilder | https://www.monotalk.xyz/… | jpn | DESKTOP | 7 | 10 | 0.7 | 2.2 |
2. TSV ファイルから Copus を 作成する
1.
の
Copus は
まず、
画面左メニューの、 Text Mining
プルダウンから、Copusを 選択します。 次に 右側の
ウィンドウに Copus が 配置されるので、 配置されたCopus を ダブルクリックします。 Copus ダイアログが
開きます。 Browse ボタンを クリックして ダウンロードした TSV ファイルを 選択します。
TSV ファイル上は、9項目ありますが、 Corpus 側は、 カラム Query だけを 解析対象と 認識したようで、
処理対象のカラムは、 Query のみになります。
3. ワードカウントの 前準備と して、 ストップワードを 取り 除く
2.
で
Copus 化した
まず、
画面左メニューの、 Text Mining
プルダウンから、Preprocess Text を 選択します。 次に 右側の
ウィンドウに Preprocess Text が 配置されるので、 配置されたPreprocess Text を ダブルクリックします。 Preprocess Text
ダイアログが 開きます。 Transformation と して、 Lowercase を 選択し、 小文字に します。
Tokenization で、Whitespace を 選択し、 キーワードの 区切り 文字を スペースと します。
Filtering で、Stopwards と してEnglish を 選択、 これで 英語の デフォルト定義の Stopwards が 使用されます。
日本語は用意されていないようで、 プルダウンで 選択が できませんでした。
また、Filtering は 設定値を いろいろ 触ると 結構結果に 影響します。 いい 感じになるように 調整する ことを おすすめします。
4. ワードカウント
3.
で、
この
まず、
画面左メニューの、 Text Mining
プルダウンから、Bug of words を 選択します。 次に 右側の
ウィンドウに Bug of words が 配置されます。 配置されたBug of words は デフォルト設定の ままで 問題ないので、 ダブルクリックしなくてOKです。
というか 設定を 変更したと しても、 WordCloud の 必要な 値は 変化しないらしく 何を 設定しても 影響が ありませんでした。
5. WordCloud 描画
4.
で、
まず、
画面左メニューの、 Text Mining
プルダウンから、Word Cloud を 選択します。 次に 右側の
ウィンドウに Word Cloud が 配置されます。 配置されたWord Cloud を ダブルクリックします。 Word Cloud ダイアログが
開きます。 Color Words チェックボックスを ON に すると、 WordCloud が カラーに、 OFF に すると モノクロに なります。
Save Image ボタンクリックで、WordCloud を 画像と して 保存できます。
WordCloud の
使ってみた 感想
以下、
プログラミングが
できなくても、 マイニングの 知識は 求められる。
プログラミングができない 人にも、 触れるかと 言うと 触れるとは 思いますが、 マイニング手法に 対する 知識は 必要に なるかと 思いました。
過去に多少実装経験が あったのでなんとかなりましたが、 知識ゼロの 人が なんとなく 触るのは 厳しそうです。 1
[1]ただ、プログラムも 書く 学習コストに 比べると、 画面で Widget を ぐりぐり 触りながら、 作っていけるので、
実装するよりは、学習コスト面で 有利かと 思います。 Google スプレッドシートを
直接 入力ファイルに して 取り込みたい。
個人的にGoogle スプレッドシート を よく 使います。
調べてみた限り 公開した スプレッドシートは 取り込めますが、 非公開の シートを 取り込む術は なさそうでした。
python スクリプトを書けば 取り込みできそうでは あるので、 そのうち 非公開シートを 取り込む スクリプトを 実装してみようかと 思います。 簡単に
ヴィジュアライズ できるのは 嬉しい。
データのplot実装が 面倒だったりするので、 GUI 上で データを 食わせて、 ヴィジュアライズ できるのは よいです。 python の
実装と 並行して、 使うと 理解が 深まりそう。
データ処理手順を(メソッドレベル)で 理解してないと、 気持ちよく 触れないですが、
データ処理手順を理解して、 フローに 落とし 込めれば、 プログラム書くよりも インタラクティブに 操作でき、
操作しているうちに理解が 深まるのかと 思います。
個人的には今後、 実装も するし、 GUIツールも 触るしと いう 形を とろうかと 思います。
参考
以下、
Orange には、
以上です。
コメント