« ヤリ手なひと | トップページ | 恥を忍んでするはなし »

2007年6月 5日 (火)

情報圧縮の使い方

シャーロック・ホームズは、「踊る人形」事件(Adventure of dancing man)の中で、

As you are aware, E is the most common letter in the English alphabet, and it predominates to so marked an extent that even in a short sentence one would expect to find it most often.

というわけだけれども、結局「E」という英文字は最頻出文字なのであって、これと、「Q」のような出現頻度の低い文字とを同じビット長で表現するいわれはないわな、というのが符号圧縮の第一歩である。

▽ そこにはハフマン符号化(実際には「重要な変形」が施されて、モディファイド・ハフマンとされる)など、文字ごとに符号の長さをばらつかせられる符号(可変長符号)があって、それにより、文全体がより短い符号で表現できるように工夫される。

■Gコード
 いきなりこんな話を持ち出したのは、書棚の奥から古い「数セミ(数学セミナー)」誌がでてきて、その中に「Gコードの仕組みを考える」という記事を見つけたからである(数学セミナー1999,10月号)。
 Gコードは既に新聞のテレビ欄などでお馴染の数値であるが、最大8桁のなかに、日時とチャネルと番組の長さなどが表現されているコードである。件の記事の著者は、Gコード発案の雑誌記事を読んで、

「…一見して、ただの数字の並びを商品にした…」

と驚き、ついにGコードの生成方法を推論してしまう。

■圧縮
 例えば、AからZまでのアルファベット26文字を二進数で表すとすると、00001=A、00010=B、…11010=Zというように対応付けて、5桁は必要になる。しかし頻発するEには1桁、めったに出ないQには6桁というように違う桁数を割り当てておくと、例えばEが100個に対してQが1個現れるような文脈では、工夫しなければ、5×101=505桁になるのに対して、違う桁数でもよいとする場合、1×100+6×1=106桁で、桁数を大幅に削減できる。
 こんなのが、情報圧縮の一つの考え方(ハフマン符号化の考え方)である。

■Gコード特許
 むろん、というかGコードにからんでは、いくつか特許権が取得されていて(代表的な米国のものが USP 5307173など)、コードについては、(例えば上の代表的な米国の)クレイムを見ても、

compressed codes each having at least one digit and each representative of, and compressed in length from, the combination of channel, time-of-day, date and length

とあるから、何がコードに含まれているかはよくわかる。

明細書を斜め読みしてみると、チャネルや、番組長さ、時刻、日付などの値候補について、「優先値」という数値が関連づけられていて、この優先値が高いほど、短い符号を割り当てるようにできている。基本的に優先値は、ゴールデンタイムと目される時間ほど短くなるようになっている。

 要するに、録画される機会の多い時刻を表すフラグメント(0分とか、30分とか)には短い符号を割り当て、めったにでてこないフラグメント(12分など)には長い符号を割り当てれば、合理的な桁数まで圧縮できるのではないか、という発想である。その頻度をアプリオリに(予め)与えておく方法が「優先値」というわけだ。

■件の記事の著者が面白いのは、いちおう、「こうではないか」という解答を得た上で(むろん、生成されるコードは一致しない---数字の選び方に任意性があるからである---のであるが)、その推理の内容を地方新聞に掲載したということである。そして、その掲載紙がジェムスタージャパンに送付されていることである。
 結果、件の記事の著者は、ジェムスタージャパンからコメントを貰っている。それによると、ジェムスタージャパンでは、Gコードの解析について、「全国の利用者からよくいただく質問です」としたうえで、生成方法を秘密にしている理由について、Gコードの海賊版が登場し、誤ったGコードが発生して録画ミスなどが頻発することで、システム自体への信頼がなくなってしまうことを怖れるからだ、としている。そうとすると公開の代償としての特許出願はやりきれないはずであるが、現実には、上の通り特許権を取得ている。
 現実のGコードは、

正規に発生したコードにスクランブルをかけ(暗号化)解析不能にしています

というから良くできている。このスクランブルの結果、特許権だけでは実施できない技術になっているのだろうか。公開の代償での利益確保とノウハウとして秘匿する利益確保とをうまく使い分けているように思う。

■時代はGコードからEPGへと移りつつあり、いまではテレビ番組表自体がネットワーク等を経由して送信されている。その結果、Gコードをタイプする機会は徐々に減って行くのだと思う。いわば過渡的な技術であったわけだが、必要な情報を圧縮して伝達するだけであれば大した技術ではないのに、10進8桁以下の数字にパッケージして、録画指示用のコードとしたあたりが利用分野に適した話であって、技術的にもよくできていると思う。

|

« ヤリ手なひと | トップページ | 恥を忍んでするはなし »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: 情報圧縮の使い方:

» 本当に騙されていませんか?? [騙された方を救う会]
商材を購入する前、ビジネスを始める前にご覧下さい 商材を販売する方はいろんな方が見えます。  あなたの大切なお金を使う前に必ず読んで、参考にする事をお勧めします。 お越し頂き有難う御座います。 ご存知ですか?? 最近の販売商材の内容を??  ■商材には大きく分けて3タイプあります・・・ ①机上の空論・・・この販売者は実績はなく、考えだけの情報です。         ...... [続きを読む]

受信: 2007年6月26日 (火) 23時39分

« ヤリ手なひと | トップページ | 恥を忍んでするはなし »