ボット、
除外したい
[TOC]
除外したい 背景
Google Analytics 上記録されないが、
この
実現したいこと
Google Analytics に
ボット、
具体的に
周辺技術、 製品
Google Analytics の ボットの フィルタリング 機能に ついて
既知の<wbr>ボットや<wbr>スパイダーからの<wbr>ヒットを<wbr>すべて<wbr>除外します
チェックボックス- Google Analytics には、
既知の<wbr>ボットや<wbr>スパイダーからの<wbr>ヒットを<wbr>すべて<wbr>除外します
という チェックボックスが あり、 チェックを ON に すると、 Google Analytics 上で アクセスを 除外できる。 - ボットか
どうかの 判断には、 IAB/ABC と いう 会社 が 提供している IAB/ABC International Spiders and Bots List を 使用している。 - IAB/ABC の
提供する ボットリストは、 有料 非会員 $14,000
会員になるともっと 安く 購入できる。 - 法人でないと、
購入は 躊躇する レベルの 金額。
- Google Analytics には、
IAB/ABC International Spiders and Bots List の
関連情報 - Software - IAB Tech Lab から、
List ファイルの Sample 等が 入手できる。 - snowplow/iab-spiders-and-robots-java-client: Java 7+ client library for the IAB and ABC International Spiders and Robots list と
いう Java Client が ある。 - batrobots と、
goodrobots が 区別されていないのかもしれない。 (ものを 見てみないと わからない)
- Software - IAB Tech Lab から、
フィルタ機能に
よる 除外
ボットのフィルタリングを すり 抜けてくる アクセスは、 フィルタ機能での 除外設定を 手動で 行うことができます。
手動での設定は たいへんなので、 自動で 除外フィルタを 追加してくれる、 Home | Referrer Spam Blocker - Automatically block referrer spam for Google Analytics と いう サービスが あったのですが、 2017年で 停止しています。
サービスを停止する 理由が、 The state of Referrerspamblocker.com – Stijlbreuk – Medium に 記載されていますが、 Spam が 進化して、 Google Analytics に 渡される パラメータレベルだと 通常の アクセスと 区別が つかない 旨が 記載されていて、 過去有効だった 手段が 通用しない 場合も 多く、 現在、 Spam ブロックの 目的で 設定する 意味が あるのかちょっと 微妙に 思いました。
Ultimate Bot Blocker
Ultimate Bot Blocker
で
Apache の
その他、
fail2ban
のAddonn - Google Seach Console の
バックリンク否認で アップロードする txt ファイル - Google Analytics の
フィルター定義ファイル - robots.txt
Application レベル での Bot Blocker
Django の
Bot を Block する 製品
プロキシサーバ的に
- 悪意の
ある ボット乱用を ブロック | Cloudflare - ボット | トレンドマイクロ
- Bot Manager | Akamai
- Distil Networks社|製品紹介|日本コーネット・テクノロジー株式会社
調べた こと
Google Analytics で、
アクセスが 除外されている エージェントを 調べる
HTTP サーバ上でアクセスは あるが、 Google Analytics で 除外されている ユーザーエージェントの 種類を 調べてみました。 この ブログは、 PC ページ側の Google Analytics に、 カスタムディメンションで ユーザーエージェントを 設定しています。 AMP ページ側は、 ユーザーエージェントが 記録できていないため、 だいたいに なってしまいますが、 記録結果を 元に アクセスログの ユーザーエージェントと、 付き合わせを 行いました。 アクセスログから
ユーザーエージェントを 取得する
以下、ワンライナーで アクセスログから ユーザーエージェント文字列を 取得しました。 cat /var/log/httpd/access_log* | cut -f6 -d'"' | sort -r | uniq
cat /var/log/httpd/ip_direct_custom_log* | cut -f6 -d'"' | sort -r | uniq
cat /var/log/httpd/ssl_access_log* | cut -f6 -d'"' | sort -r | uniq
GAから
データを 取得する
カスタムディメンション ユーザーエージェント を集計する カスタムレポートを 作成し、 CSVと して 取得しました。 付き
合わせた 結果
User Agent のリスト 感想
- 計測期間、
測定環境の 影響で、 本物っぽい ユーザーエージェントが 混ざる。 - 確かに
ボットであろう アクセスは 抽出できている。 - 良いボットと
思われる ユーザーエージェント 名で、 何を している ボットか なんとなくわかる。
- 計測期間、
実施する こと
- mitchellkrogza/apache-ultimate-bad-bot-blocker を
使って Bot を Block は 実施する。 - fail2ban の
設定を 行う。
GA フィルタの
Google Search Console への
実施した こと
実施した
apache-ultimate-bad-bot-blocker を
使って、 ボット、 クローラの アクセスを ブロックする | Monotalk
Apache でultimate-bad-bot-blocker を 設定する 方法に ついて 書きました。 ultimate-bad-bot-blocker の
bad domain の バックリンクを 否認する | Monotalk ultimate-bad-bot-blocker の リソースを 使って、 Google Search Console で バックリンクを 否認する 方法を 書きました。 ultimate-bad-bot-blocker の
bat bot を robots.txt に 追加する | Monotalk
robots.txt に、bat bot を Disallow する 定義を 記載する 方法を 書きました。 Googleアナリティクス ultimate-bad-bot-blocker で、
ボ ットを 除外する | Monotalk
Google Analytics 上でbat bot の セグメントを 作成する 方法に ついて 書きました。
参考
以下、
- 悪質な
botの アクセスを Nginxで バッサリ切り捨てる - GoogleAnalyticsで
怪しい リファラを 除外する 方法(ビュー設定を 使う) - Google アナリティクスの
ボットの フィルタリング設定とは ?|Sunfish - ANA-White_Ops_-The_Bot_Baseline-_Fraud_in_Digital_Advertising-JP.pdf
- ゴーストリファラ対策~リファラスパムと
つきあう 方法~ | ウェブの 実 - 参照元スパム対策を
してわかった こと | ウェブの 実 - バックリンクを
否認する - Search Console ヘルプ - UserAgentから
OS/ブラウザなどの 調べかたのまとめ
以上です。
コメント