2020年12月、総務省は「機械判読可能なデータの表記方法の統一ルール」*1 を策定した。
DX(デジタルトランスフォーメーション)推進において、データの利活用は全ての企業が取り組まなくてはならない課題だ。経産省が2018年に発表した「DXレポート」*2 でも、データ活用ができない場合、市場の変化に対応することができず、デジタル競争の敗者になりえると記述されている。
この統一ルールは、もともとは政府統計の総合窓口(e-Stat)の利便性向上のために策定されたものだが、企業の効率的なデータ活用においても非常に役立つ資料になっている。
本ページでは、データサイエンティスト視点から、データ利活用時においてルールの中で特に重要と感じたものを抜粋する。
*1 機械判読可能なデータの表記方法の統一ルール(総務省)
https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html
*2 DXレポート(経産省)
https://www.meti.go.jp/shingikai/mono_info_service/digital_transformation/20180907_report.html
4つの重要ルールをご紹介
# 1セル1データとなっているか
1セルに複数のデータが入力されている場合、そのセルが複数の情報を持ってしまい、データの並べ替えや可視化において加工の手間が増えるため、1セル1データの入力とする。
#数値データは数値属性とし、文字列を含まないこと
数値データに対して「円」などの単位やマイナス記号を入力すると、そのデータは文字列と認識され計算や並び替えが正確に行うことができない場合があるため、数値データには文字列を含まないようにする。また、桁区切りのための空白も同様の問題を引き起こすため、削除する。
#スペースや改行等で体裁を整えていないか
スペースや改行は機械でも認識され、データの検索や処理において支障をきたすため、削除する。
#表の構成の取り扱い:データが分断されていないか
表の中で空白の行(列)を追加すると、データが分断されてしまい機械判読において支障をきたすため、削除する。また、表頭や欄外にある空白行(列)も同様に削除する。
これら4つは、日ごろデータ分析プロジェクトに携わる中で、惜しいデータとしてよく見かける。普段からルールに則ってデータを蓄積しておくだけで、分析時の工数削減が可能となる上に、より効果的な分析結果につなげられる。
統一ルールの全ての内容は総務省の報道資料から閲覧可能。本記事で紹介したルールのほかにも、役立つルールが多数紹介されている。生産性の高いデータ利用のために、活用してみてはどうだろうか。
https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html
この記事を書いた人
名前:柳智也(ヤナギトモヤ)
所属:筑波大学理工学群社会工学類学部3年生(2021年4月)
大学では経営工学を専攻。データを用いて新型コロナウイルスの感染状況を理解する取り組みを見てデータ分析に興味を持ち、2021年4月よりデータ分析企業でのインターンシップを開始。趣味はhiphopを聴くこと。