Hash – LexYu Hive

Hash

ハッシュ（散列(さんれつ) ）アルゴリズム - 任意(にんい) の長(なが) さのデータを固定長(こていちょう) に変換(へんかん) する技術(ぎじゅつ) 。

H(x) = Hash Code

用語

Hashing Function

ハッシュ関数(かんすう)
- 基本要件(きほんようけん) ：
  - 入力(にゅうりょく) は任意(にんい) のサイズのデータ
  - 出力(しゅつりょく) は固定範囲(こていはんい) の値(あたい)
  - 同(おな) じ入力(にゅうりょく) は同(おな) じ出力(しゅつりょく) を得(え) る
  - できるだけ均一(きんいつ) に分布(ぶんぷ) （理想的(りそうてき) な場合(ばあい) ）

詳細説明

データを特定(とくてい) の計算方法(けいさんほうほう) で計算(けいさん) し、結果(けっか) をデータ格納(かくのう) アドレスに変換(へんかん) できる。良(よ) い Hashing Function は計算(けいさん) が簡単(かんたん) で、衝突(しょうとつ) が少(すく) なく、ハッシュテーブルの格納状況(かくのうじょうきょう) を均一(きんいつ) にする。

Hash Code

ハッシュ値(ち)

詳細説明

元(もと) のデータ x がハッシュ関数(かんすう) H で計算(けいさん) された結果(けっか) 。計算結果(けいさんけっか) から元(もと) のデータを逆算(ぎゃくさん) できない（**不可逆(ふかぎゃく) **）。

Hash Table

ハッシュテーブル

詳細説明

連続(れんぞく) したメモリで、データを格納(かくのう) するために使用(しよう) される。各(かく) データは1つの位置(いち) （Bucket）に対応(たいおう) する。

Bucket

バケット

詳細説明

ハッシュテーブル内(ない) の特定(とくてい) のデータは特定(とくてい) のアドレス（Bucket Address）に格納(かくのう) される。

Collision

衝突(しょうとつ)

詳細説明

複数(ふくすう) のデータがハッシュ関数(かんすう) で同(おな) じハッシュ値(ち) を得(え) た場合(ばあい) 、同(おな) じバケットアドレスを使用(しよう) することになる。

Overflow

オーバーフロー

詳細説明

データがハッシュ関数(かんすう) で計算(けいさん) された後(あと) 、ハッシュ値(ち) が指(さ) すバケットアドレスが他(ほか) のデータで満杯(まんぱい) の場合(ばあい) 、このデータをそのアドレスに格納(かくのう) できない。

オーバーフロー処理

分離連鎖法(ぶんりれんさほう) Separate Chaining
開放(かいほう) アドレス法(ほう) Open Addressing Mode
- 線形探査(せんけいたんさ) Linear Probing
- 二次探査(にじたんさ) Quadratic Probing
- 二重(にじゅう) ハッシュ Double Hashing
h(k, i) は i 回目(かいめ) の探査位置(たんさいち)
h'(k) は初期(しょき) ハッシュ関数(かんすう) （通常(つうじょう) key mod size）
i は探査回数(たんさかいすう) （0, 1, 2, …）
m はハッシュテーブルのサイズ

線形探査

func (hm *HashMap) linearProbing(hash uint64) uint64 {
  return (hash + 1) % hm.capacity
}

二次探査

// 二次探査
func (hm *HashMap) quadraticProbing(hash uint64, i int) uint64 {
  return (hash + uint64(i*i)) % hm.capacity
}

二重ハッシュ

func (hm *HashMap) doubleHashing(hash uint64, key any) uint64 {
  // 第二ハッシュ関数を使用
  h2 := someOtherHashFunction(key)
  return (hash + h2) % hm.capacity
}

線形探査

公式説明

公式(こうしき) ：

h(k, i) = (h'(k) + i) \mod m

コードでは: (key%size + i) % size

二次探査

公式説明

公式(こうしき) ：

h(k, i) = (h'(k) + i^2) \mod m

コードでは: (key%size + i*i) % size

二重ハッシュ

公式説明

公式(こうしき) ：

h(k, i) = (h1(k) + i \times h2(k)) \mod{m}

コードでは: (h1 + i*h2) % size

h1 = key % size
h2 = 1 + (key % (size - 1))

Hash Algorithms

MD5 (Message Digest Algorithm 5)

出力(しゅつりょく) : 128-bit (32 hex characters)
用途(ようと) : ファイル整合性検証(せいごうせいけんしょう) 、checksum
注意(ちゅうい) : パスワードハッシュには非推奨(ひすいしょう) （既(すで) に破(やぶ) られている）

その他(ほか) の一般的(いっぱんてき) な Hash アルゴリズム

アルゴリズム	出力長(しゅつりょくちょう)	安全性(あんぜんせい)	用途(ようと)
MD5	128-bit	弱(じゃく)	ファイル検証(けんしょう)
SHA-1	160-bit	弱(じゃく)	旧版(きゅうばん) Git
SHA-256	256-bit	強(きょう)	ブロックチェーン、TLS
SHA-3	可変(かへん)	強(きょう)	新標準(しんひょうじゅん)

Bloom Filter Hash Table