Termín:
12.02.2020, 9:00 (Europe/Prague)
Trvání:
2 dny
Začátek za:
Cena:
21 900 Kč
Cena je bez DPH
Místo konání:
Praha
Vyzkoušejte si pokročilou a prediktivní analytiku v Big Data prostředí se zaměřením na Data Science
Data Science je disciplínou, která se zaměřuje na porozumění datům. Přesněji poodkrývá, co se skrývá v obrovském množství dat. Jedná se o obor kombinující statistiku, umělou inteligenci, datové inženýrství a byznys analýzu.
Datoví vědci používají při své práci statické metody pokročilé analýzy, techniky strojového učení (machine learning), hloubkové učení (deep learning) a umělé inteligence (artificial intellegence).
V rámci dvoudenního workshopu se o Data Science dovíte vše podstatné, např. jak v prostředí Big Dat používat známé techniky jako jsou logistická regrese a rozhodovací stromy. vyzkoušíte si modelování náhodných lesů nebo shlukovou analýzu.
Pro koho je workshop určen
Pro všechny, kteří se chtějí dozvědět více a proniknout do problematiky Big Data se zaměřením na Data Science.
- Analytici
- Byznys konzultanti
- Data Scientisti
- Data Stewardi
O programu
Co se naučíte
- Co je to Spark
- Koncept Big Data modelování
- Nahrávat data různých formátů
- Základní manipulace s daty
- Zkoumat a vizualizovat data
- Transformovat data pomocí funkcí zabudovaných ve Sparku
- Vytvořit sestavu transformací pro úpravu dat v jednom kroku
- Použít logistickou regresi jako příklad modelování ve Sparku
- Prozkoumat výstupy modelu a vybrat ten nejlepší
Co se naučíte 1. den
Program 1. dne
Představení, agenda
- Rychlé představení účastníků a seznámení s agendou workshopu
- Ověření přístupů
- Distribuce a instalace nástrojů a dat, které budeme v průběhu workshopu používat
Cloudera Data Science Workbench (CDSW)
- Představení analytického nástroje CDSW
- Principy práce v CDSW – založení projektu, správa týmu, nastavení jobů a dependencies
Průzkum a vizualizace dat
- Načtení dat z různých datových zdrojů
- Základní práce s daty
- Zjištění popisných statistik jednotlivých proměnných
- Vizualizace dat pomocí balíčků v Pythonu
Přehled nástrojů ve Sparku určených na transformaci dat
- Demonstrace algoritmů určených na transformaci proměnných
- Spojitých
- Kategorických
- Textových
- Ukázka funkcí pro výběr proměnných do modelu a redukci dimenzionality
Tvorba jednotné pipeline pro transformaci dat
- Skládání jednotlivých transformací do jedné funkce
Trénink modelu a zkoumání výstupů modelu
- Nastavení parametrů modelu logistické regrese
- Výběr vyhodnocovacího kritéria
- Trénink modelu
- Výběr nejlepšího modelu
- Zkoumání vlastností modelu
- Aplikace modelu na testovací data pro zjištění skutečné předpovídací schopnosti modelu
Samostatná práce
- Za každou z výše zmíněných kapitol bude následovat blok věnovaný samostatné práci, kde si budete moci procvičit získané teoretické znalosti
Co se naučíte
- Jaké algoritmy pro řešení analytických úloh ve Sparku existují
- Jak používat jednotlivé techniky pro pokročilou analytiku a machine learning
- Jak nasadit a aplikovat výsledný model na nově generovaná data
- Jak vytvořit kompletní distribuovanou Data Science Pipeline
- Osvojíte si práci s notebookovým nástrojem a jak využít jeho možností pro týmovou práci
Co se naučíte 2. den
Program 2. dne
Řešení klasifikačních úloh
- Specifika klasifikačních úloh
- Přehled technik, které nabízí Spark pro řešení klasifikačních úloh
- Úlohy zaměřené na klasifikační stromy a náhodné lesy, Multilayer Perceptron
- Demonstrace použití jednotlivých technik
Řešení regresních úloh
- Specifika regresních úloh
- Přehled technik, které nabízí Spark pro řešení regresních úloh
- Úlohy zaměřené na regresní stromy a náhodné lesy
- Úlohy zaměřené na gradient boosting a další techniky
- Demonstrace použití jednotlivých technik
Aplikace modelu na nová data
- Nasazení modelu na nový datový soubor
- Posouzení kritérií a vyhodnocení testování
Řešení segmentačních úloh
- Přehled technik, které nabízí Spark pro řešení segmentačních úloh
- Demonstrace použití jednotlivých technik
Nasazení modelu na toková data (streaming data)
- Specifika modelování na tokových datech
- Jak nasadit vybraný model na nová toková produkční data a exportovat výsledky
Samostatná práce
- Za každou z výše zmíněných kapitol bude následovat blok věnovaný samostatné práci, kde si budete moci procvičit získané teoretické znalosti
Náš přístup a organizace
PRAKTICKÉ INFORMACE
Organizační informace k workshopu
- Základní formát je dvoudenní
- Minimální počet zájemců pro konání workshopu je 5, maximální počet je 10 účastníků
- Workshop se koná v prostorech společnosti Adastra
Předpokladem jsou znalosti v oblasti:
- Datové analýzy
- Programování či SQL
- Základní zkušenost s Pythonem
- Základy statistiky
Praktická cvičení
- Součástí workshopu je sada praktických cvičení, při kterých si nabyté teoretické znalosti prověříte na reálných datech.
- Budete řešit skutečné byznysové problémy.
Diskuse
- Interaktivní forma workshopu vám umožní diskutovat o obecných i konkrétních problémech se zkušenými lektory i dalšími účastníky workshopu.
- Počet účastníků je omezen tak, aby měl každý dostatek prostoru k diskusi a samostatné práci.
Hardware pro praktické ukázky
- Adastra zajišťuje technické vybavení v podobě Hadoop laboratoře (vlastní cluster) včetně možnosti připojení na přístupový bod (WiFi nebo LAN)
- Pro praktickou část workshopu je nutný vlastní notebook
Software pro procvičování
- Adastra je stříbrným partnerem společnosti Cloudera, světového lídra v distribuci Hadoop technologii.
- Vyzkoušíte si práci se špičkovým analytickým nástrojem Cloudera Data Science Workbench, který poskytuje přenositelnost kódů do některého z prostředí Python, Scala nebo R.
Školitelé z týmu Data Science
- Výukou vás budou provázet zkušení lektoři, kteří se s vámi rádi podělí o své know-how a poskytnou vám podporu při řešení samostatných úloh.
- Kromě teoretických znalostí vás lektoři seznámí i se zkušenostmi z praxe.
- Zaměří se především na problémy, které se mohou vyskytnout při řešení datových analýz, a vysvětlí, jak je řešit.