From e174cc7efc8427dee48441cfe2e5317fe8e01b6e Mon Sep 17 00:00:00 2001
From: Orestis <orestis.malaspinas@pm.me>
Date: Mon, 19 Feb 2024 10:47:03 +0100
Subject: [PATCH] maj 2024

---
 slides/cours_14.md | 755 +++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 755 insertions(+)
 create mode 100644 slides/cours_14.md

diff --git a/slides/cours_14.md b/slides/cours_14.md
new file mode 100644
index 0000000..1ff7b23
--- /dev/null
+++ b/slides/cours_14.md
@@ -0,0 +1,755 @@
+---
+title: "Tables de hachage"
+date: "2024-02-20"
+---
+
+# Les tables de hachage
+
+\Huge Les tables de hachage
+
+# Tableau vs Table
+
+## Tableau
+
+* Chaque Ã©lÃ©ment (ou valeur) est liÃ© Ã  un indice (la case du tableau).
+
+```C 
+annuaire tab[2] = {
+    "+41 22 123 45 67", "+41 22 234 56 78", ...
+};
+tab[1] == "+41 22 123 45 67";
+```
+
+## Table
+
+* Chaque Ã©lÃ©ment (ou valeur) est liÃ© Ã  une clÃ©.
+
+```C 
+annuaire tab = {
+//  ClÃ©   ,    Valeur
+    "Paul",    "+41 22 123 45 67",
+    "Orestis", "+41 22 234 56 78",
+};
+tab["Paul"]    == "+41 22 123 45 67";
+tab["Orestis"] == "+41 22 234 56 78";
+```
+
+# Table
+
+## DÃ©finition
+
+Structure de donnÃ©es abstraite oÃ¹ chaque *valeur* (ou Ã©lÃ©ment) est associÃ©e Ã  une *clÃ©* (ou
+argument).
+
+On parle de paires *clÃ©-valeur* (*key-value pairs*).
+
+## Donnez des exemples de telles paires
+
+. . .
+
+* Annuaire (nom-tÃ©lÃ©phone),
+* Catalogue (objet-prix),
+* Table de valeur fonctions (nombre-nombre),
+* Index (nombre-page)
+* ...
+
+# Table
+
+## OpÃ©rations principales sur les tables
+
+* Insertion d'Ã©lÃ©ment (`insert(clÃ©, valeur)`{.C}), insÃ¨re la paire `clÃ©-valeur`
+* Consultation (`get(clÃ©)`{.C}), retourne la `valeur` correspondant Ã  `clÃ©`
+* Suppression (`remove(clÃ©)`{.C}), supprime la paire `clÃ©-valeur`
+
+## Structure de donnÃ©es / implÃ©mentation
+
+EfficacitÃ© dÃ©pend de diffÃ©rents paramÃ¨tres:
+
+* taille (nombre de clÃ©-valeurs maximal),
+* frÃ©quence d'utilisation (insertion, consultation, suppression),
+* donnÃ©es triÃ©es/non-triÃ©es,
+* ...
+
+# Consultation sÃ©quentielle (`sequential_get`)
+
+## SÃ©quentielle
+
+* table reprÃ©sentÃ©e par un (petit) tableau ou liste chaÃ®nÃ©e,
+* types: `key_t` et `value_t` quelconques, et `key_value_t`
+
+    ```C
+    typedef struct {
+        key_t key;
+        value_t value;
+    } key_value_t;
+    ```
+* on recherche l'existence de la clÃ© sÃ©quentiellement dans le tableau, on
+  retourne la valeur.
+
+# Consultation sÃ©quentielle (`sequential_get`)
+
+## ImplÃ©mentation? Une idÃ©e?
+
+. . .
+
+```C
+bool sequential_get(int n, key_value_t table[n], key_t key, 
+    value_t *value) 
+{
+    int pos = n - 1;
+    while (pos >= 0) {
+        if (key ==  table[pos].key) {
+            *value = table[pos].value;
+            return true;
+        }
+        pos--;
+    }
+    return false;
+}
+```
+
+. . .
+
+## InconvÃ©nient?
+
+# Consultation sÃ©quentielle (`sequential_get`)
+
+## Exercice: implÃ©menter la mÃªme fonction avec une liste chaÃ®nÃ©e
+
+Poster le rÃ©sultat sur matrix.
+
+# Consultation dichotomique (`binary_get`)
+
+## Dichotomique
+
+* table reprÃ©sentÃ©e par un (petit) tableau triÃ© par les clÃ©s,
+* types: `key_t` et `value_t` quelconques, et `key_value_t`
+* on recherche l'existence de la clÃ© par dichotomie dans le tableau, on
+  retourne la valeur,
+* les clÃ©s possÃ¨dent la notion d'ordre (`<, >, =` sont dÃ©finis).
+
+# Consultation dichotomique (`binary_get`)
+
+\footnotesize
+
+## ImplÃ©mentation? Une idÃ©e?
+
+. . .
+
+```C
+bool binary_get1(int n, value_key_t table[n], key_t key, value_t *value) {
+    int top = n - 1, bottom = 0;
+    while (top > bottom) { 
+        int middle = (top + bottom) / 2;
+        if (key > table[middle].key) {
+            bottom  = middle+1;
+        } else {
+            top = middle;
+        }
+    }
+    if (key == table[top].key) {
+        *value = table[top].value;
+        return true;
+    } else {
+        return false;
+    }
+} 
+```
+
+# Consultation dichotomique (`binary_get`)
+
+\footnotesize
+
+## Autre implÃ©mentation
+
+```C
+bool binary_get2(int n, key_value_t table[n], key_t key, value_t *value) {
+    int top = n - 1, bottom = 0;
+    while (true) { 
+        int middle = (top + bottom) / 2;
+        if (key > table[middle].key) {
+            bottom  = middle + 1;
+        } else if (key < table[middle].key) {
+            top = middle;
+        } else {
+            *value = table[middle].value;
+            return true;
+        }
+        if (top < bottom) {
+             break;
+        }
+    }
+    return false;
+}
+```
+
+## Quelle est la diffÃ©rence avec le code prÃ©cÃ©dent?
+
+# Transformation de clÃ© (hashing)
+
+## ProblÃ©matique: NumÃ©ro AVS (13 chiffres)
+
+* Format: 106.3123.8492.13
+
+    ```
+    NumÃ©ro AVS    | Nom
+    0000000000000 | -------
+    ...           | ...
+    1063123849213 | Paul
+    ...           | ...
+    3066713878328 | Orestis
+    ...           | ...
+    9999999999999 | -------
+    ```
+
+## Quelle est la clÃ©? Quelle est la valeur?
+
+. . .
+
+* ClÃ©: NumÃ©ro AVS, Valeur: Nom.
+
+## Nombre de clÃ©s? Nombre de citoyens? Rapport?
+
+. . .
+
+* $10^{13}$ clÃ©s, $10^7$ citoyens, $10^{-5}$ ($10^{-3}\%$ de la table est
+  occupÃ©e) $\Rightarrow$ *inefficace*.
+* Pire: $10^{13}$ entrÃ©es ne rentre pas dans la mÃ©moire d'un
+  ordinateur.
+
+# Transformation de clÃ© (hashing)
+
+## ProblÃ©matique 2: Identificateurs d'un programme
+
+* Format: 8 caractÃ¨res (simplification)
+
+    ```
+    Identificateur | Adresse
+    aaaaaaaa       | -------
+    ...            | ...
+    resultat       | 3aeff
+    compteur       | 4fedc
+    ...            | ...
+    zzzzzzzz       | -------
+    ```
+
+## Quelle est la clÃ©? Quelle est la valeur?
+
+. . .
+
+* ClÃ©: Identificateur, Valeur: Adresse.
+
+## Nombre de clÃ©s? Nombre d'identificateur d'un programme? Rapport?
+
+. . .
+
+* $26^{8}\sim 2\cdot 10^{11}$ clÃ©s, $2000$ identificateurs, $10^{-8}$ ($10^{-6}\%$ de la table est
+  occupÃ©e) $\Rightarrow$ *un peu inefficace*.
+
+# Fonctions de transformation de clÃ© (hash functions)
+
+* La table est reprÃ©sentÃ©e avec un tableau.
+* La taille du tableau est beaucoup plus petit que le nombre de clÃ©s.
+* On produit un indice du tableau Ã  partir d'une clÃ©:
+$$
+h(key) = n,\quad n\in\mathbb{N}.
+$$
+En franÃ§ais: on transforme `key` en nombre entier qui sera l'indice dans le
+tableau correspondant Ã  `key`.
+
+## La fonction de hash
+
+* La taille du domaine des clÃ©s est beaucoup plus grand que le domaine des
+  indices.
+* Plusieurs indices peuvent correspondre Ã  la **mÃªme clÃ©**:
+    * Il faut traiter les **collisions**.
+* L'ensemble des indices doit Ãªtre plus petit ou Ã©gal Ã  la taille de la table.
+
+## Une bonne fonction de hash
+
+* Distribue uniformÃ©ment les clÃ©s sur l'ensemble des indices.
+
+# Fonctions de transformation de clÃ©s: exemples
+
+## MÃ©thode par troncature
+
+\begin{align*}
+&h: [0,9999]\rightarrow [0,9]\\
+&h(key)=\mbox{troisiÃ¨me chiffre du nombre.}
+\end{align*}
+
+```
+Key  | Index
+0003 | 0
+1123 | 2 \
+1234 | 3  |-> collision.
+1224 | 2 / 
+1264 | 6 
+```
+
+## Quelle est la taille de la table?
+
+. . .
+
+C'est bien dix oui.
+
+# Fonctions de transformation de clÃ©s: exemples
+
+## MÃ©thode par dÃ©coupage
+
+Taille de l'index: 3 chiffres.
+
+```
+key = 321 991 24 ->  321
+                     991
+                    + 24
+                    ----
+                    1336 -> index = 336
+```
+
+## Devinez l'algorithme?
+
+. . .
+
+On part de la gauche:
+
+1. On dÃ©coupe la clÃ© en tranche de longueur Ã©gale Ã  celle de l'index.
+2. On somme les nombres obtenus.
+3. On tronque Ã  la longueur de l'index.
+
+# Fonctions de transformation de clÃ©s: exemples
+
+## MÃ©thode multiplicative
+
+Taille de l'index: 2 chiffres.
+
+```
+key = 5486 -> key^2 = 30096196 -> index = 96
+```
+
+On prend le carrÃ© de la clÃ© et on garde les chiffres du milieu du rÃ©sultat.
+
+# Fonctions de transformation de clÃ©s: exemples
+
+## MÃ©thode par division modulo
+
+Taille de l'index: `N` chiffres.
+
+```
+h(key) = key % N.
+```
+
+## Quelle doit Ãªtre la taille de la table?
+
+. . .
+
+Oui comme vous le pensiez au moins `N`.
+
+# Traitement des collisions
+
+## La collision
+
+```
+key1 != key2, h(key1) == h(key2)
+```
+
+## Traitement (une idÃ©e?)
+
+. . .
+
+* La premiÃ¨re clÃ© occupe la place prÃ©vue dans le tableau.
+* La deuxiÃ¨me (troisiÃ¨me, etc.) est placÃ©e ailleurs de faÃ§on **dÃ©terministe**.
+
+Dans ce qui suit la taille de la table est `table_size`.
+
+# La mÃ©thode sÃ©quentielle
+
+\footnotesize
+
+## Comment Ã§a marche?
+
+* Quand l'index est dÃ©jÃ  occupÃ© on regarde sur la position suivante, jusqu'Ã  en
+  trouver une libre.
+
+```C
+index = h(key);
+while (table[index].state == OCCUPIED && table[index].key != key) {
+   index = (index + 1) % table_size; // attention Ã  pas dÃ©passer
+}
+table[index].key = key;
+table[index].state = OCCUPIED;
+```
+
+## ProblÃ¨me?
+
+. . .
+
+* Regroupement d'Ã©lÃ©ments (clustering).
+
+# MÃ©thode linÃ©aire
+
+\footnotesize
+
+## Comment Ã§a marche?
+
+* Comme la mÃ©thode sÃ©quentielle mais on "saute" de `k`.
+
+```C
+index = h(key);
+while (table[index].state == OCCUPIED && table[index].key != key) {
+   index = (index + k) % table_size; // attention Ã  pas dÃ©passer
+}
+table[index].key = key;
+table[index].state = OCCUPIED;
+```
+
+## Quelle valeur de `k` Ã©viter?
+
+. . .
+
+* Une valeur oÃ¹  `table_size` est multiple de `k`.
+
+Cette mÃ©thode rÃ©partit mieux les regroupements au travers de la table.
+
+# MÃ©thode du double hashing
+
+\footnotesize
+
+## Comment Ã§a marche?
+
+* Comme la mÃ©thode linÃ©aire, mais `k = h2(key)` (variable).
+
+```C
+index = h(key);
+while (table[index].state == OCCUPIED && table[index].key != key) {
+   index = (index + h2(k)) % table_size; // attention Ã  pas dÃ©passer
+}
+table[index].key = key;
+table[index].state = OCCUPIED;
+```
+
+## Quelle propriÃ©tÃ© doit avoir `h2`?
+
+## Exemple
+
+```C
+h2(key) = (table_size - 2) - key % (table_size -2)
+```
+
+# MÃ©thode pseudo-alÃ©atoire
+
+\footnotesize
+
+## Comment Ã§a marche?
+
+* Comme la mÃ©thode linÃ©aire mais on gÃ©nÃ¨re `k` pseudo-alÃ©atoirement.
+
+    ```C
+    index = h(key);
+    while (table[index].state == OCCUPIED && table[index].key != key) {
+        index = (index + random_number) % table_size;
+    }
+    table[index].key = key;
+    table[index].state = OCCUPIED;
+    ```
+
+## Comment s'assurer qu'on va bien retrouver la bonne clÃ©?
+
+. . .
+
+* Le germe (seed) de la sÃ©quence pseudo-alÃ©atoire doit Ãªtre le mÃªme.
+* Le germe Ã  choisir est l'index retournÃ© par `h(key)`.
+
+    ```C
+    srand(h(key));
+    while {
+        random_number = rand();
+    }
+    ```
+
+# MÃ©thode quadratique
+
+* La fonction des indices de collision est de degrÃ© 2.
+* Soit $J_0=h(key)$, les indices de collision se construisent comme:
+
+    ```C 
+    J_i = J_0 + i^2 % table_size, i > 0,
+    J_0 = 100, J_1 = 101, J_2 = 104, J_3 = 109, ...
+    ```
+
+## ProblÃ¨me possible?
+
+. . .
+
+* Calculer le carrÃ© peut-Ãªtre "lent".
+* En fait on peut ruser un peu.
+
+# MÃ©thode quadratique
+
+\footnotesize
+
+```C 
+J_i = J_0 + i^2 % table_size, i > 0,
+J_0 = 100
+          \
+           d_0 = 1 
+          /        \
+J_1 = 101           Delta = 2
+          \        /
+           d_1 = 3
+          /        \
+J_2 = 104           Delta = 2
+          \        /
+           d_2 = 5
+          /        \
+J_3 = 109           Delta = 2
+          \        /
+           d_3 = 7
+          /        
+J_4 = 116
+--------------------------------------
+J_{i+1} = J_i + d_i,
+d_{i+1} = d_i + Delta, d_0 = 1, i > 0.
+```
+
+# MÃ©thode de chaÃ®nage
+
+## Comment Ã§a marche?
+
+* Chaque index de la table contient un pointeur vers une liste chaÃ®nÃ©e
+  contenant les paires clÃ©s-valeurs.
+
+## Un petit dessin
+
+```
+
+
+
+
+
+
+
+
+
+
+
+```
+
+# MÃ©thode de chaÃ®nage
+
+## Exemple
+
+On hash avec la fonction `h(key) = key % 11` (`key` est le numÃ©ro de la lettre
+de l'alphabet)
+
+```
+ U  | N | E | X | E | M | P | L | E | D | E | T | A | B | L | E
+ 10 | 3 | 5 | 2 | 5 | 2 | 5 | 1 | 5 | 4 | 5 | 9 | 1 | 2 | 1 | 5
+```
+
+## Comment on reprÃ©sente Ã§a? (Ã  vous)
+
+. . .
+
+![La mÃ©thode de chaÃ®nage](figs/fig_hash.png){width=80%}
+
+# MÃ©thode de chaÃ®nage
+
+Avantages:
+
+* Si les clÃ©s sont grandes l'Ã©conomie de place est importante (les places vides
+  sont `NULL`).
+* La gestion des collisions est conceptuellement simple.
+* Pas de problÃ¨me de regroupement (clustering).
+
+# Exercice 1
+
+* Construire une table Ã  partir de la liste de clÃ©s suivante:
+    ```
+    R, E, C, O, U, P, A, N, T
+    ```
+
+* On suppose que la table est initialement vide, de taille $n = 13$.
+* Utiliser la fonction $h1(k)= k \mod 13$ oÃ¹ k est la $k$-Ã¨me lettre de l'alphabet et un traitement sÃ©quentiel des collisions.
+
+# Exercice 2
+
+* Reprendre l'exercice 1 et utiliser la technique de double hachage pour traiter
+  les collisions avec
+
+\begin{align*}
+h_1(k)&=k\mod 13,\\
+h_2(k)&=1+(k\mod 11).
+\end{align*}
+* La fonction de hachage est donc $h(k)=(h(k)+h_2(k)) \% 13$ en cas de
+  collision.
+
+
+# Exercice 3
+
+* Stocker les numÃ©ros de tÃ©lÃ©phones internes d'une entreprise suivants dans un
+tableau de 10 positions.
+* Les numÃ©ros sont compris entre 100 et 299.
+* Soit $N$ le numÃ©ro de tÃ©lÃ©phone, la fonction de hachage est
+$$
+h(N)=N\mod 10.
+$$
+* La fonction de gestion des collisions est
+$$
+C_1(N,i)=(h(N)+3\cdot i)\mod 10.
+$$
+* Placer 145, 167, 110, 175, 210, 215 (mettre son Ã©tat Ã  occupÃ©).
+* Supprimer 175 (rechercher 175, et mettre son Ã©tat Ã  supprimÃ©).
+* Rechercher 35.
+* Les cases ni supprimÃ©es, ni occupÃ©es sont vides.
+* Expliquer se qui se passe si on utilise?
+$$
+C_1(N,i)=(h(N)+5\cdot i)\mod 10.
+$$
+
+# PrÃ©ambule
+
+\small
+
+* On considÃ¨re pas le cas du chaÃ®nage en cas de collisions.
+* L'insertion est construite avec une forme du type
+
+    ```C
+    index = h(key);
+    while (table[index].state == OCCUPIED 
+           && table[index].key != key) {
+       index = (index + k) % table_size; // attention Ã  pas dÃ©passer
+    }
+    table[index].key = key;
+    table[index].state = OCCUPIED;
+    ```
+\normalsize
+
+* Gestion de l'Ã©tat d'une case *explicite*
+
+    ```C
+    typedef enum {EMPTY, OCCUPIED, DELETED} state;
+    ```
+
+# L'insertion
+
+## Pseudocode?
+
+. . .
+
+```C
+insert(table, key, value) {
+    index = hash de la clÃ©;
+    index = 
+        si "index" est dÃ©jÃ  "occupÃ©"
+        et la clÃ© correspondante n'est pas "key"
+        alors gÃ©rer la collision;
+
+    changer l'Ã©tat de la case "index" Ã  "occupÃ©";
+    changer la valeur de la case "index" Ã  "value";
+}
+```
+
+# La suppression
+
+## Pseudocode?
+
+. . .
+
+```C
+value_t remove(table, key) {
+    index = hash de la clÃ©;
+    tant que l'Ã©tat de la case n'est pas "vide"
+        si "index" est "occupÃ©" et la clÃ© est "key" 
+            changer l'Ã©tat de la case Ã  "supprimÃ©"
+        sinon
+            index = rehash
+}
+```
+
+# La recherche
+
+## Pseudocode?
+
+. . .
+
+```C
+bool search(table, key, value) {
+    index = hash de la clÃ©;
+    tant que l'Ã©tat de la case n'est pas "vide"
+        si "index" est "occupÃ©" et la clÃ© est "key" 
+            retourner vrai
+        sinon
+            index = rehash
+}
+```
+
+# Ã‰crivons le code!
+
+* Mais avant:
+    * Quelles sont les structures de donnÃ©es dont nous avons besoin?
+    * Y a-t-il des fonctions auxiliaires Ã  Ã©crire?
+    * Ã‰crire les signatures des fonctions.
+
+. . .
+
+## Structures de donnÃ©es
+
+\footnotesize
+
+. . .
+
+```C
+typedef enum {empty, deleted, occupied};
+typedef ... key_t;
+typedef ... value_t;
+typedef struct _cell_t {
+    key_t key; 
+    value_t value;
+    state_t state;
+} cell_t;
+typedef struct _hm {
+    cell_t *table;
+    int capacity;
+    int size;
+} hm;
+```
+
+# Ã‰crivons le code!
+
+## Fonctions auxiliaires
+
+. . .
+
+```C
+static int hash(key_t key);
+static int rehash(int index, key_t key);
+static int find_index(hm h, key_t key);
+```
+
+##  Signature de l'API 
+
+. . .
+
+```C
+void hm_init(hm *h, int capacity);
+void hm_destroy(hm *h);
+bool hm_set(hm *h, key_t key, value_t *value);
+bool hm_get(hm h, key_t key, value_t *value);
+bool hm_remove(hm *h, key_t key, value_t *value);
+bool hm_search(hm h, key_t key);
+void hm_print(hm h);
+```
+
+# Live code session! 
+
+0. Offered to you by ProtonVPN[^1]!
+
+. . .
+
+1. Like the video.
+2. Subscribe to the channel.
+3. Use our one time voucher for ProtonVPN: `PAULISAWESOME`.
+4. Consider donating on our patreon.
+
+[^1]: The fastest way to connect to BBB!
\ No newline at end of file
-- 
GitLab