Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze Obě strany příští revize
kj:hadoop-a-hdfs [18.08.2017 15:15]
kj vytvořeno
kj:hadoop-a-hdfs [18.08.2017 15:16]
kj
Řádek 2: Řádek 2:
  
  
-  * vhodné pro: velké soubory (čtení na disku až 100 MB/s, výhody sekvenčního čtení), streamovací přístup+  * vhodné pro: **velké soubory** (čtení na disku až 100 MB/s, výhody sekvenčního čtení), ​**streamovací přístup**
   * nevhodné pro: spoustu malých souborů (hodně zpomalí rychlost disku, až na třeba 1 MB/s), náhodný přístup   * nevhodné pro: spoustu malých souborů (hodně zpomalí rychlost disku, až na třeba 1 MB/s), náhodný přístup
  
-Důvody pro Hadoop+**Důvody pro Hadoop**
   * distribuovatelnost - 1 soubor nemusí být celý v jednom nodu   * distribuovatelnost - 1 soubor nemusí být celý v jednom nodu
   * replikace   * replikace
Řádek 11: Řádek 11:
   * append only FS   * append only FS
  
-=== Architektura Hadoopu ===+==== Architektura Hadoopu ​====
   * HDFS: distribuovaný FS   * HDFS: distribuovaný FS
   * YARN: plánovač úloh a alokátor zdrojů   * YARN: plánovač úloh a alokátor zdrojů
Řádek 22: Řádek 22:
 {{ :​kj:​arch_hadoop.png?​400| }} {{ :​kj:​arch_hadoop.png?​400| }}
  
-  * Name Node - ukládá metadata +  ​* **Name Node** - ukládá metadata 
-  * Data Node+  ​* **Data Node**
       * Ukládá Databloky       * Ukládá Databloky
       * Získává bloky od klientů       * Získává bloky od klientů
       * Získává bloky od ostatních DataNodů ​       * Získává bloky od ostatních DataNodů ​
-      * Replikace 
       * Dostává příkaz delete od NameNode       * Dostává příkaz delete od NameNode
-  * replikační faktor většinou 3 - 2 repliky ve stejném racku, třetí replika mimo+  ​* **replikační faktor** většinou 3 - 2 repliky ve stejném racku, třetí replika mimo
  
 {{ :​kj:​arch_hadoop2.png?​400| }} {{ :​kj:​arch_hadoop2.png?​400| }}
Řádek 37: Řádek 36:
  
  
-=== Typy souborů ===+==== Typy souborů ​====
  
-  * řádkové - CSV, TSV, Avro+  ​* **řádkové** - CSV, TSV, Avro
       * vhodné, pokud se ptám často na většinu sloupců       * vhodné, pokud se ptám často na většinu sloupců
-  * sloupcové - ORC, Parquet ​+  ​* **sloupcové** - ORC, Parquet ​
       * vhodné, pokud se ptám jen na část sloupců       * vhodné, pokud se ptám jen na část sloupců
       * nevhodné pro modifikaci (v Hadoopu netřeba), náročné pro zápis       * nevhodné pro modifikaci (v Hadoopu netřeba), náročné pro zápis
   * SequenceFile - vhodný formát pro hodně malých souborů   * SequenceFile - vhodný formát pro hodně malých souborů
  
-=== Komprese ===+==== Komprese ​====
  
 ^            ^Rychlost ​ ^Účinnost ​ ^Splitovatelnost ​ ^ ^            ^Rychlost ​ ^Účinnost ​ ^Splitovatelnost ​ ^
Řádek 54: Řádek 53:
 | Snappy ​    ​| ​    ​✔ ​   |           ​| ​                  | | Snappy ​    ​| ​    ​✔ ​   |           ​| ​                  |
  
-Splitovatelnost+**Splitovatelnost**
 – kompresní algoritmus vytváří bloky, které lze samostatně dekomprimovat – kompresní algoritmus vytváří bloky, které lze samostatně dekomprimovat
 – nutnost pro paralelní zpracování – nutnost pro paralelní zpracování
kj/hadoop-a-hdfs.txt · Poslední úprava: 18.09.2017 16:16 autor: kj