デジタルデータは長期保存に適さない

2020年10月31日土曜日

システム業界問題 閑話 時事 政治

t f B! P L

最近、官公庁の業務の見直しが河野行政改革相によって積極的に行われている。

主に印鑑を必須とする業務を見直し、現代では非合理な業務手順を大幅に見直す改革が進められている。

 

その中に、「法律、政令について、閣議のための書類作成。錐(キリ)で穴を開け『こよりひも』で綴る」という業務がある。

 

後世に残す重要文書を、和紙に印刷し、同じく和紙で作った『こよりひも』で綴た常態で保管するのだ。

https://togetter.com/li/1503323

 

この文書の記録方法は大半の人々からは時代遅れの方法に見えて呆れているだろう。

しかし、私はこの方法は現代のIT化が体制的に未整備な状況の中では、合理的で正しい重要文書の保存方法だと思う。

 

一般の紙は酸性紙で長期間保存する事はできない。

数十年すると腐敗してボロボロになる。

また、ホッチキスやナイロン紐なども紙を綴じる道具としては、数十年で錆びたり腐敗したりして、長期保存には適さない。

伝統的な和紙は中性紙で100年単位での文書の保存が可能な非常に優れた、記録装置と言える。

和紙で作った『こよりひも』も同様に100年単位での文書の保存に相応しい。

 

この、和紙と『こよりひも』による重要文書の保存方法は廃止の方向で検討されている。

 

政府広報を見る限り、重要文書の保存方法には「デジタルアーカイブ体制の確立」という新しい方法を採用するようだ。

 

私も行政のデジタル化には賛成なのでこの方針には反対しない。

しかし、和紙と『こよりひも』による重要文書の保存は別に非合理な方法ではない。

これを機会にデジタルデータの長期保存の難しさについて、記事を書きたいと思う。

 

デジタルデータの長期保存の難しさ

残念ながら現代のデジタルデータは利便性には優れているが、データの長期保存には向いていない。

理由はハードウェアの問題とソフトウェアの問題が両方存在する。

ハードウェアの問題

現在のコンピュータのストレージはHDDとSSDが主流である。

これらはどちらも5年から8年程度しか耐久性がない。

初めからデータの長期保存を目的には作られておらず「消耗品」として使用されている。

大きな会社だとストレージの破壊工場を持っていたりする。

壊れたストレージのデータを完全に消去する為に物理的に破壊してしまう。

それぐらいストレージというモノは頻繁に壊れる。

PCを使用している人なら経験済みだろう。

 

データの長期保存はストレージ以外の外部記憶メディアを使用する。

昔から使用されていたのは「磁気テープ」、最近だと「MO」や「CD-R」「DVD-R」などが使用される。

これらの記憶メディアの寿命は、MOで50年弱、CD-R・DVD-Rで30年弱と、とても100年単位の長期保存に耐えられる代物ではない。

ストレージよりマシなだけで、酸性紙程度の保存能力しかない。

和紙がどれほど優れているか分かるだろう。

長期保存用ブルーレイディスクというものも開発されていて、100年単位のデータ保存が可能だそうだが、当たり前だが、その実績はない。

万が一、100年以内に壊れても誰もデータを復元できない。

バックアップに和紙と『こよりひも』で保存しているなら、長期保存用ブルーレイディスクにあまり意味が無い。

https://www.guardian-r.com/blog/osusume/20190315/1739/

 

ソフトウェアの問題

長期保存の障害はハードウェアだけではない。

現在のデジタルデータは企業や公的機関やオープンコミュニティによって定められたデータ規格に従ってデータファイルが作られている。

また、文字コードも同様に規格が定められて共有されている。

Word, Excel の ファイル形式もそのデータ規格である。

テキストだけではなく、音声や画像や動画のデータ規格もある。

 

ITの進歩により、このデータ規格を扱うソフトウェアが進歩して、古いデータ規格が時代遅れになり、新しいデータ規格に入れ替わるという事を、ここ数十年繰り返している。

コンピュータの速度や記憶容量など性能が向上すると、それまで扱えなかったデータを扱えるようになる為、データ規格を拡張したり、まったく新しいデータ規格に変更したりする必要がある。

そしてこのデータ規格の更新により、古いデータ規格が使用できなくなったりする。

WEBでおなじみのHTMLもバージョンアップを繰り返しており、古いバージョンは使用できなくなっていたりする。

Flashという規格はもう使用が制限されている。

文字コードなども、昔の日本で主流だった JISコード と呼ばれる文字コードは最新のテキストエディタでは閲覧できなくなっている。

古いデータ規格はその規格に対応したソフトウェアの開発者が居なくなってしまうので、データ規格自体が使用できなくなってしまう。

データが壊れた分けではないのに、データを閲覧できないのだ。

家電製品などで、掃除機などがまだ使えるのに、専用フィルターが販売中止になって使う事ができなくなる事と同じだ。

プリンターの専用インクや、昔のFAX用の感熱紙が販売中止になって使用できなくなった経験のある人はいるだろう。

ソフトウェアでも同じ事が起きる。

 

 

デジタルデータはまだ歴史が浅いので、100年単位の長期データの保存技術や保存体制が確立していない。

 

政府はデジタルデータの長期保存体制の確立を目指している

 

これまではデジタルデータの長期保存体制が存在しなかったのだから、和紙と『こよりひも』による重要文書の保存を行う事は、正しい。

しかし、これをこれから IoT や 5G で大量のデータか発生する時代においても続けるのは、さすがに無理だ。

そろそろ本格的にデジタルデータの長期保存体制を確立する必要がある。

実は、和紙と『こよりひも』による重要文書の保存を廃止する政府には、同時にデジタルデータの長期保存体制を構築する計画がある。

その名を「デジタルアーカイブ」と呼ぶ。

現在検討されている方向性としては、行政の体制として人的・財政的にデータを長期保管する体制を確立する事と、保存しているデータの規格と装置の両面から、継続的にデータとアプリとデバイスの維持や更新に努める体制を検討しているようだ。

詳細は決まっていないようだが、必要なアプリとデバイスの維持と、それが出来ない場合のデータマイグレーションも行うらしい。

つまり、データ規格が古くなり、閲覧ができなくなりそうなら、新しいデータ規格に変換するという事だ。

定期的なデータの式年遷宮のような事を行うことになる。

https://www.kantei.go.jp/jp/singi/titeki2/digitalarchive_suisiniinkai/pdf/guideline2020.pdf

 

ハードウェアの方も、100年単位の保存に相応しい技術はまだ確立されたとは言えない。

データの長期保存は、記憶メディアから、別の記憶メディアへと定期的にコピーを繰り返していくことになる。

モノがデジタルデータなので、コピーは容易である。

紙のような物理的実態により、データを保存する体制から、次々とデータをコピーしていく体制へとシフトすることになる。

 

文字コードの互換性維持も重要である

どうしてこの話題を取り上げたかと言えば、最近私は shift-jis と utf-8 という新旧文字コードの共存方法に関する記事を書き続けている。

なぜこんな地味な問題に拘るかと言えば、古いデータ規格と新しいデータ規格が共存できなければ、古いデータ資産に重要なデータがある場合、新しいデータ規格を採用できないからだ。

何時までも古いシステムを使い続けることになる。

これは経産省も問題視しており、新しいシステムへのマイグレーションを企業に対して推奨している。

しかし、古いソフトウェアは廃止できても、その古いデータ規格のデータは捨てられないケースは多い。

もし、システム・マイグレーションをするなら、新しいシステムで古いデータ規格も新しいデータ規格も、両方扱う事ができる必要がある。

また、古いシステムが複数のサブシステムで構成されている場合、モノによっては古いサブシステムの一部を残したまま、大半のサブシステムを新しいモノに更新する事も考えられる。

古いサブシステムの更新重要度が低く、そのまま使った方が良い場合もある。

この場合、新しいシステムで古いデータ規格も新しいデータ規格も、両方扱う事ができれば、マイグレーションのコスト削減になる。

文字コードなど標準化されているのだから、shift-jis と utf-8 の共存に必要なクラスライブラリやツールなど、同じモノを日本中で利用できるはずだ。

既に課題の存在は分かっており、何れこのマイグレーションは必要になるのだから、今のうちに課題の解決策を考えておこうと思ったのだ。

オンラインバンクや会計ソフト、ERPの一部など、まだまだ CSV などに shift-jis を使用している企業は多い。

しかし、いつか shift-jis は使えなくなる。

 

今のうちに、shift-jis と utf-8 の共存に必要なモノを揃えておいた方が良いと、私は思う。

 

shift-jis と utf-8 の混在問題に関する記事(リンクリスト)

https://www.wake-mob.jp/2020/09/shift-jis-utf-8.html

 

このブログを検索

Translate

人気の投稿

自己紹介

自分の写真
オッサンです。実務経験は Windows環境にて C#,VB.NET ,SQL Server T-SQL,Oracle PL/SQL,PostgreSQL,MariaDB。昔はDelphi,C,C++ など。 趣味はUbuntu,PHP,PostgreSQL,MariaDBかな ?基本無料のやつ。

QooQ