Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revize Předchozí verze Následující verze | Předchozí verze Následující verze Obě strany příští revize | ||
kj:hadoop-a-hdfs [18.08.2017 15:16] kj |
kj:hadoop-a-hdfs [31.08.2017 16:49] kj |
||
---|---|---|---|
Řádek 13: | Řádek 13: | ||
==== Architektura Hadoopu ==== | ==== Architektura Hadoopu ==== | ||
* HDFS: distribuovaný FS | * HDFS: distribuovaný FS | ||
+ | * velký soubor je rozdělen na 64 MB chunky a třikrát replikován | ||
+ | |||
+ | |||
* YARN: plánovač úloh a alokátor zdrojů | * YARN: plánovač úloh a alokátor zdrojů | ||
* Application – alokuje zdroje | * Application – alokuje zdroje | ||
Řádek 28: | Řádek 31: | ||
* Získává bloky od ostatních DataNodů | * Získává bloky od ostatních DataNodů | ||
* Dostává příkaz delete od NameNode | * Dostává příkaz delete od NameNode | ||
+ | * **Secondary NameNode** | ||
+ | * pomocník pro NameNode, NE jeho záloha | ||
+ | * dva soubory | ||
+ | * **fsimage** - snapshot FS poté, co NameNode začal | ||
+ | * **edit logs** - posloupnost změn na FS poté, co NameNode začal | ||
+ | * po restartu NN jsou editlogs aplikopvány na fsimage, abychom dostali poslední verzi snapshotu FS | ||
+ | * ale restarty NN jsou vzácné, takže edit logy můžou být hodně velké a merge může dlouho trvat | ||
+ | * je třeba nějak zmenšit velikost edit logů | ||
* **replikační faktor** většinou 3 - 2 repliky ve stejném racku, třetí replika mimo | * **replikační faktor** většinou 3 - 2 repliky ve stejném racku, třetí replika mimo | ||
Řádek 43: | Řádek 54: | ||
* vhodné, pokud se ptám jen na část sloupců | * vhodné, pokud se ptám jen na část sloupců | ||
* nevhodné pro modifikaci (v Hadoopu netřeba), náročné pro zápis | * nevhodné pro modifikaci (v Hadoopu netřeba), náročné pro zápis | ||
+ | * má metadata až na konci - předtím je ještě nezná, dává smysl | ||
* SequenceFile - vhodný formát pro hodně malých souborů | * SequenceFile - vhodný formát pro hodně malých souborů | ||
Řádek 56: | Řádek 68: | ||
– kompresní algoritmus vytváří bloky, které lze samostatně dekomprimovat | – kompresní algoritmus vytváří bloky, které lze samostatně dekomprimovat | ||
– nutnost pro paralelní zpracování | – nutnost pro paralelní zpracování | ||
- | |||
* kdy použít jaký | * kdy použít jaký | ||
* archivace - Gzip | * archivace - Gzip |
kj/hadoop-a-hdfs.txt · Poslední úprava: 18.09.2017 16:16 autor: kj