統計調査士 の試験問題に データチェック
というキーワードが出てきました。1
内容がシステム開発観点で興味深かったので、統計調査士 の問題に参考文献として記載されている * 統計実務基礎知識 | 政府刊行物 | 全国官報販売協同組合 の記載をベースにまとめます。
統計実務基礎知識の記載まとめ
以下、統計実務基礎知識の P132-P133 の「電子計算機による審査」の記載内容をまとめます。
データチェックとは
- 電子計算機を利用して集計する場合、調査票に基づく個別データが磁気テープに記録される。
- 磁気テープに記録された段階では誤りが完全に除去されていないため、電子計算機による最終的な審査を行う必要がある。
- この最終的な審査をデータチェックという。
データチェックの2つの機能
データチェックには大きく以下 2 つの機能がある。 * 誤りを検出する機能
* 訂正(補完)する機能チェック・リスト審査
データチェックで検出された疑義のあるデータをすべて電子計算機で機械的に処理するのは難しい。
この場合、電子計算機から疑義のあるデータをリスト(チェック・リスト)として打ち出す。
このリスト(チェック・リスト)に基づき、再度、調査票に戻って審査し、訂正する作業を「チェック・リスト審査」という。チェック・リスト審査 の構成
以下、3構成をとる
1. 誤りの検出
* データチェック要領の作成
2. チェック・リストのプリント * チェック・リスト様式の作成
3. 訂正 (作業)
* チェック・リスト審査要領の作成データチェック要領
- フォーマット 「チェックの種類」、「チェック項目」、「誤りの指摘」及び「誤りの処置」の4点が記載された表形式のドキュメント。
システム開発的には、設計書のようなものかと思います。このドキュメントをインプットにプログラムが作られます。
- プログラムのテスト
擬似データによるテスト、実際のデータを使った「ファイナルテスト」を経て完成される。
システム開発的には違和感のある言葉ですが、検索すると出てくるので他分野では一般的な用語のように思われます。
チェックの種類
この項目がシステム開発的に興味深いです。入力値のバリデーションチェックが別の言葉で言い換えられています。
オフコード・チェック (個別審査)
調査項目に定められた規定コード (符号又はマーク)以外のものを除去する。クロスチェック(関連審査)
各調査事項間の関連性に着目し、その記入内容の矛盾や不合理を除去する。シーケンス・チェック
番号の昇順又は降順、欠番のチェック。レンジ・チェック
上限、下限のチェック。
訂正の方法
誤りを訂正する方法の記載です。
Pandas のデータ欠損値の補完、textLint の --fix
オプションを連想しました。
- ダンプして審査する。
疑義のあるデータをプリントし、これに基づいて調査票に戻って再審査する。- 一定の符号を代入する。
- 頻度の高いものを代入する。
- 特定の符号を交互に与える。
- 確率比例配分する。
- 便宜的に符号を与えて、後で正しい符号に訂正する。
- 集計から除外する。
最も適切な処置は、ダンプして審査する。
参考
-
Web 担当者 Forum の リサーチの記事一覧
リサーチ/データのリテラシー入門——調査統計の基礎知識 コーナーの記事一覧 | Web担当者Forum -
データチェックの重要性
調査方法に潜む罠とチェックの重要性――調査・リサーチ・統計の基礎その4 | リサーチ/データのリテラシー入門——調査統計の基礎知識 | Web担当者Forum -
調査票の誤り混入を防ぐためのチェック項目
調査票チェック項目 - NTTコム リサーチ -
ファイナル・テスト
ファイナル・テストとは - コトバンク -
Pandas の欠損値補完
Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments
以上です。
-
2018年11月の試験を受験予定です。 ↩
コメント