3章 フェール・セーフの技術的側面

3-4 システムの良さ

ここでシステムの良さについて考える。コンピューターを例にとると、まず性能がある。

これは情報処理速度、記憶容量の大きさで把握され、20世紀におおむねムーアの法則(1.5~2年で性能が2倍になる)にのっとって順調に発展してきた。

コンピューターも大いに普及し、多数のシステムが稼動するようになると、その信頼性が問題になった。

信頼性を問題にするとき、IBMのRAS技術に注目すべきであろう。

IBMは1955年以来これを実用技術として開発し続け、コンピューターの実用化と普及で業界を牽引してきたと言える。RASとは信頼性(Reliability)、使用可能性(Availability)、保守性(Serviceability)の略語である。

ここで、信頼性とはシステムがどの程度の期間稼働を止めずにその機能を継続し続けられるかという尺度である。使用可能性とは所定の機能を提供している時間が全時間の何%であるかという尺度である。

保守性とはMaintainabilityとも言われ、システムをいかに短時間に所定の健全状態に復元できるかという尺度である。

その関係を図示すると[図表1]のようになり、その関係は下図[図表2]のようになる。

[図表1]使用可能性の概念

[図2]式

ここで稼働時間を統計的平均故障間隔(MTBF:mean time between failures)、保守性を統計的平均故障時間(MTTR:mean time to repair)で表わす使用可能性は稼働率とも言われ、全時間であるMTBFとMTTRの和とMTBFの比で表現する。

RAS機能の良いシステム設計をする際の中心課題は回復である。故障の発生を減らし、故障箇所を見つけて直し、効率よく回復を行うことである。回復とはデータを壊さずに動作を再開することをいう。

次にサブシステムエラーは、エラー回復プログラムとエラーの自動修正を行う。

最後にシステムエラー、オペレーターミスは多重処理等により自動修正を行う。

修正不能の場合は、システムを止めて故障修理を行う。

この多重回復機能により、現実的・実用的に複雑なシステムを運用できたRASの成果は大きい。

この信頼性を達成するために、構成部品の品質を上げる他に冗長配置がある。

具体的には、3-1で述べたように同一機能のもの、例えば電源やハードディスク装置を、2重ないし3重に並置し、1つが故障しても待機状態にある他のものが交替起動する。

また再試行、2度読み、自動誤字訂正等注目すべき数々の工夫がなされていた。このようなRAS技術の導入もあってコンピューターは実用化を可能にし発展してきた。

筆者は1960年製造企業に入社し、その企業が「品質奉仕」を社是にしていた。

これは性能、価格、納期は忘れることがあっても品質こそは製品が顧客とともにある限り、顧客に奉仕し続けるという、長期継続性に着目したものであった。大いに共鳴し、頑張ったものである。信頼性重視の時代とも言える。

3-5 最近のシステムの具体例

最近のシステムの具体例として、2015年9月24日から運用を開始した東京証券取引所の株式売買システム「arrowhead」を取り上げる。

システム性能をまとめると次のようになる。

(1)処理性能

1日の注文件数2.7億件(従来の2倍)、1件当たりの注文応答時間500㎲(従来の1/2に短縮)、記憶装置として半導体メモリを導入したインメモリ技術を採用している。

(2)信頼性

稼働率99.999%を達成、1年間稼動させて、保守で止める時間(MTTR)は7㎳で主要システムは3重構成になっている。

(3)フェール・セーフ機能(安全性)

現在はシステムの自動発生件数は1日で2000万件を超え、機械注文は全体の7割に達する。そこでフェール・セーフを担保するリスク管理機能を追加している。これは未約定の発注済み注文をシステム側で自動取り消しするものである。

また従来は証券会社が別のネットワーク経由変更手続きを手動でする必要があったものを自動化した「キャンセル・オン・ディスコネクト」機能や、推定サーバーから発注を止める機能で、同時に既に発注された注文でも未約定のものは自動で取り外せる「キルスイッチ」もある。

さらに証券会社のサーバーごとに注文を抑止するしきい444値も設定できる「ユーザー設定型リミット機能」もあり、1注文当たりの代金、あるいは単位時間当たりの注文代金や約定金額に上限を定めることもできる。これらは世界初の機能であったが、最近広がりを見せている。

このような機能はシステムの故障等によるフェールではなく、むしろ機能上の暴走を防止するセーフ機能の新しい形と言える。