Obsah

Spark

Vhodné úlohy

Nevhodné úlohy

RDD

Akce a transformace

:!: Akce spustí celý řetězec od začátku!

Úkol: spočítat četnosti slov v dokumentu

Vstup: textový soubor rozdělený do řádků (RDD)

Postup:

Data Frame

Datová struktura DataFrame = RDD + sloupcové operace

Úkol: který stát USA má na meteostanicích nejvyšší průměrný normál v létě?

Vstup: tabulka Hive

Postup:

df=sqlContext.sql('select * from sstamenov.pocasi')
df2=df.filter((df.mesic>5) & (df.mesic<9))
df3=df2.select('stat','teplota').na.drop()
df4=df3.groupBy('stat').avg().toDF('stat','prum')
df5=df4.sort(df4.prum.desc())
df5.limit(1)