Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Následující verze | Předchozí verze Následující verze Obě strany příští revize | ||
kj:hadoop-a-hdfs [18.08.2017 15:15] kj vytvořeno |
kj:hadoop-a-hdfs [18.08.2017 15:17] kj |
||
---|---|---|---|
Řádek 2: | Řádek 2: | ||
- | * vhodné pro: velké soubory (čtení na disku až 100 MB/s, výhody sekvenčního čtení), streamovací přístup | + | * vhodné pro: **velké soubory** (čtení na disku až 100 MB/s, výhody sekvenčního čtení), **streamovací přístup** |
* nevhodné pro: spoustu malých souborů (hodně zpomalí rychlost disku, až na třeba 1 MB/s), náhodný přístup | * nevhodné pro: spoustu malých souborů (hodně zpomalí rychlost disku, až na třeba 1 MB/s), náhodný přístup | ||
- | Důvody pro Hadoop | + | **Důvody pro Hadoop** |
* distribuovatelnost - 1 soubor nemusí být celý v jednom nodu | * distribuovatelnost - 1 soubor nemusí být celý v jednom nodu | ||
* replikace | * replikace | ||
Řádek 11: | Řádek 11: | ||
* append only FS | * append only FS | ||
- | === Architektura Hadoopu === | + | ==== Architektura Hadoopu ==== |
* HDFS: distribuovaný FS | * HDFS: distribuovaný FS | ||
* YARN: plánovač úloh a alokátor zdrojů | * YARN: plánovač úloh a alokátor zdrojů | ||
Řádek 22: | Řádek 22: | ||
{{ :kj:arch_hadoop.png?400| }} | {{ :kj:arch_hadoop.png?400| }} | ||
- | * Name Node - ukládá metadata | + | * **Name Node** - ukládá metadata |
- | * Data Node | + | * **Data Node** |
* Ukládá Databloky | * Ukládá Databloky | ||
* Získává bloky od klientů | * Získává bloky od klientů | ||
* Získává bloky od ostatních DataNodů | * Získává bloky od ostatních DataNodů | ||
- | * Replikace | ||
* Dostává příkaz delete od NameNode | * Dostává příkaz delete od NameNode | ||
- | * replikační faktor většinou 3 - 2 repliky ve stejném racku, třetí replika mimo | + | * **replikační faktor** většinou 3 - 2 repliky ve stejném racku, třetí replika mimo |
{{ :kj:arch_hadoop2.png?400| }} | {{ :kj:arch_hadoop2.png?400| }} | ||
Řádek 37: | Řádek 36: | ||
- | === Typy souborů === | + | ==== Typy souborů ==== |
- | * řádkové - CSV, TSV, Avro | + | * **řádkové** - CSV, TSV, Avro |
* vhodné, pokud se ptám často na většinu sloupců | * vhodné, pokud se ptám často na většinu sloupců | ||
- | * sloupcové - ORC, Parquet | + | * **sloupcové** - ORC, Parquet |
* vhodné, pokud se ptám jen na část sloupců | * vhodné, pokud se ptám jen na část sloupců | ||
* nevhodné pro modifikaci (v Hadoopu netřeba), náročné pro zápis | * nevhodné pro modifikaci (v Hadoopu netřeba), náročné pro zápis | ||
* SequenceFile - vhodný formát pro hodně malých souborů | * SequenceFile - vhodný formát pro hodně malých souborů | ||
- | === Komprese === | + | ==== Komprese ==== |
^ ^Rychlost ^Účinnost ^Splitovatelnost ^ | ^ ^Rychlost ^Účinnost ^Splitovatelnost ^ | ||
Řádek 54: | Řádek 53: | ||
| Snappy | ✔ | | | | | Snappy | ✔ | | | | ||
- | Splitovatelnost | + | **Splitovatelnost** |
– kompresní algoritmus vytváří bloky, které lze samostatně dekomprimovat | – kompresní algoritmus vytváří bloky, které lze samostatně dekomprimovat | ||
– nutnost pro paralelní zpracování | – nutnost pro paralelní zpracování | ||
- | |||
* kdy použít jaký | * kdy použít jaký | ||
* archivace - Gzip | * archivace - Gzip |
kj/hadoop-a-hdfs.txt · Poslední úprava: 18.09.2017 16:16 autor: kj