Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- kj:mapreduce [24.08.2017 12:15]
kj vytvořeno
+++ kj:mapreduce [31.08.2017 16:48]
kj
@@ Řádek 15: / Řádek 15: @@
   * Ale často nás klíč vůbec nezajímá! Je to třeba offset souboru
   * Klíč se může libovolně opakovat, hodnota může být různá
-  * Data jsou na konci setříděna podle klíče (zpravidla, ne vždy)
   * Typicky probíhá v mnoha paralelních jobech
       * Každý soubor, resp. split je zpracován samostatným mapperem
@@ Řádek 27: / Řádek 26: @@
       * A pak musí data přenést (síť)
   * Setřídí data podle klíče (merge)
-  * Optimalizace – malá data pošle rovnou do reduceru, velká merguje
+  * Optimalizace – malá data pošle rovnou do reduceru, velká merguje na lokálním disku
-na lokálním disku
   * Typicky nejnáročnější operace
 Reduce
-  * Čte produkovaná pomocí Shuffle & Sort
+  * Čte produkovaná data pomocí Shuffle & Sort
+  * všechny dvojice klíč/hodnota se stejným klíčem jdou do stejného reduceru
   * „Redukuje“ list hodnot čtených z výstupy Shuffle & Sort
   * Zpravidla je reducerů (řádově) méně než mapperů