政府の「機械判読可能データ表記法統一」に提案しました

2020年11月28日土曜日

時事 政治

t f B! P L

政府ではデジタル化推進の一環として、ExcelやCSVファイルなどのデータ資料を作る際にコンピータに読み取り易いデータ表記を義務づけるようだ。

e-Stat で以下のような規則案が公開されている。

https://www.e-stat.go.jp/estat/html/topic20201125.pdf

 

また、以下のサイトで一般人の意見を集めている。(1000文字以内)

https://www.e-stat.go.jp/quickpoll/answer/0000022618

 

私も早速、意見を提案して送信した。

以下がその文面だ。

 

「統計表における機械判読可能なデータの表記方法についての意見照会」への提案

「統計表における機械判読可能なデータ作成に関する表記方法案」を拝読させて頂きました。 この表記方法案に賛成です。 追加で提案したい表記方法があるので提案させてください。

[1]正規化の導入

現代のITシステムは、Oracle,SQL Server,PostgreSQL,mySQL といったRDB(リレーショナルデータベース)のDBMS(データベース管理システム)を使用して開発されています。

公開されたExcelとCSVファイルのデータをITシステムで読み込む場合は、これらRDBのDBMSに取り込むことになります。

RDBのデータは「正規化」と呼ばれる規則で設計されています。

表が三つ以上に分割される場合に「正規化(関係の正規化)」を適用する事をお勧めします。 正規化には階層がありますが、ここでは一般的な「第三正規形」までの適用を推奨します。 https://oss-db.jp/dojo/dojo_info_04

[2]文字エンコーディングとBOMの規則

日本語では「Shift-JIS」という文字エンコーディングが使用されていました。 「Shift-JIS」は今でも Windows パソコンでは使用されていますが、Linux や Mac ではもう使用されていない古い文字エンコーディングになります。

現在の主流となる文字エンコーディングは、UTF-8が広まっています。 ExcelやWindows パソコンではShift-JISとUTF-8が両方使用できます。 LinuxやMacではUTF-8しか使えません。

今後政府がテキストデータを公開していくのならば、UTF-8で公開するべきです。

もしUTF-8でCSVファイルなどを公開配布するならば、そのテキストファイルの先頭には、BOM(byte order mark)を付けるべきです。

理由としては、ExcelはShift-JISとUTF-8の両方のCSVファイルを読めるのですが、両者の区別をBOMで行っています。 CSVファイルの先頭にBOMが無ければShift-JISと判断し、BOMが有ればUTF-8と判断するのです。

Shift-JISとUTF-8を使い分けるのならば、BOMの有無で区別した方が扱い易いでしょう。

以上、二つの提案をさせて頂きました。

 

皆も提案した方が良い

この提案は12月1日まで受け付けている。

皆も急いで提案した方が良いと思う。

 

このブログを検索

Translate

人気の投稿

自己紹介

自分の写真
オッサンです。実務経験は Windows環境にて C#,VB.NET ,SQL Server T-SQL,Oracle PL/SQL,PostgreSQL,MariaDB。昔はDelphi,C,C++ など。 趣味はUbuntu,PHP,PostgreSQL,MariaDBかな ?基本無料のやつ。

QooQ