Jeden testovací projekt samořídících vozů může vygenerovat petabajty dat (Jan Zahradník, Valeo) 

Ve světě, kde se objem dat měří v exabajtech, se Valeo snaží stát předním hráčem v oblasti samořídících vozidel. "Sběr a analýza dat je klíčová pro naše testovací procesy. Musíme zvládat obrovské objemy a zároveň zaručit jejich bezpečnost," říká Jan Zahradník, ADAS/AD SysVal Toolchain & Big Data Manager ze společnosti Valeo, která vyvíjí systémy pro samořídící auta a v České republice má své výzkumné centrum.


  • Jaké technologie a metody Valeo používá pro sběr a analýzu dat z testovacích jízd?
  • Jaké výzvy přináší sdílení a zpracování obrovských objemů dat v praxi?
  • Jak firma zajišťuje bezpečnost a ochranu shromážděných dat?
  • Co Jan Zahradník předpovídá pro budoucnost samořídících vozidel?

Poslechněte si podcast

Přečtěte si podcast jako rozhovor

(text byl přepsán a zkrácen pomocí ChatGPT)

Ivana Karhanová: Testovací jízdy samořídících aut generují gigabajty dat za sekundu. Jeden projekt běžně vygeneruje petabajty dat, a ty je třeba dostat do Prahy, aby se na ně ve Valeu mohli nejen dívat, ale také záznamy jednotlivých jízd včetně dat z desítek senzorů a LiDARů opakovat a simulovat jízdy znovu. Jak se buduje datová platforma, když vám hrozí, že budete mít exabajty dat (10^18 bajtů)? Hostem ve studiu je Jan Zahradník, ADAS/AD SysVal Toolchain & Big Data Manager ze společnosti Valeo, která vyvíjí systémy pro samořídící auta a v České republice má své výzkumné centrum. Dobrý den.

Jan Zahradník: Dobrý den.

Ivana Karhanová: Pojďme na začátek vysvětlit, jak funguje sběr dat u samořídících aut na testovacím polygonu.

Jan Zahradník: Pro sběr dat používáme upravené verze senzorů. Tyto senzory jsou na bázi mikrovlnných radarů 24, 77, 79 GHz. LiDARy a různé kamery jsou umístěné jak pod předním sklem, tak coby 360stupňové kamery kolem vozidla. Z těchto senzorů sbíráme tu nejnižší digitální úroveň dat. U kamer jsou to vyloženě obrazy, z nichž nahráváme hodnotu každého pixelu synchronně s časem. K tomu přidáváme další informace, třeba z dodatečných senzorů, které jsou dražší a přesnější než ty, které jsou potřeba ve vozidle pro určité funkce. My je používáme jako tzv. ground truth a jsme schopni s jejich pomocí změřit přesněji realitu a porovnávat s nimi naše senzory.

Ivana Karhanová: Ty pak už ale nejsou v autech, která prodáváte ven, že?

Jan Zahradník: Přesně tak, protože to by zase ten systém velmi prodražovalo.

Ivana Karhanová: Když auto objede testovací polygon, zažije různé situace. Kolik dat z toho je?

Jan Zahradník: Testujeme v různých podmínkách. Jednak je to asi deset různých uzavřených testovacích ploch, které má Valeo po světě. Jedna z těch vůbec největších je v ČR v Milovicích. Tam jsme schopni na prostoru bývalého vojenského letiště testovat na tří kilometrové dráze do rychlosti až téměř 200 kilometrů za hodinu. Testujeme zde různé scénáře, na což používáme mimochodem také řídicí roboty, abychom tam dokázali simulovat různé nebezpečné situace. Většina dat potom jako takových se sbírá přímo v reálném světě, přímo v těch podmínkách, ve kterých budou systémy používat finální zákazníci. V různých zemích např. dopravní infrastruktura nebo chování řidičů vypadá jinak. Tam sbíráme statistická data, abychom objevili situace, které jsou, řekněme, neplánované.

Ivana Karhanová: A z jedné takovéto testovací jízdy máte petabajty dat?

Jan Zahradník: Ano. A když nabereme všechna potřebná data, vytvoříme statistický model, což je kombinace podmínek, ve kterých je potřeba ta data nahrát. Jsou to zimní/letní podmínky, počasí, město/venkov a do každé z kombinací kategorií je potřeba dát určité množství dat, které se nahrává v upravených autech, kterých jsou jednotky až nižší desítky. Ta auta pak jezdí v daných podmínkách a každý den nahrají data na, řekněme, externí disky o kapacitě vyšších desítek terabajtů. Přičemž jedna karta má kolem zhruba osmdesáti terabajtů a jsme schopni ji zaplnit na některých projektech za den. Pak začínáme řešit, jak data dostat do místa, kde s nimi budeme dále pracovat. Jedno z těch největších míst, kde s tím pracujeme, je právě Praha.

Ivana Karhanová: Jak dostanete data fyzicky do Prahy?

Jan Zahradník: Zatím nejčastěji používanou metodou je, že ty disky fyzicky posíláme poštou. Bohužel je tam zpoždění a věci jako clo, protože posíláme z různých částí světa a v rámci různých obchodních zón.

Ivana Karhanová: Dobře, tak vám do Prahy přijedou či přiletí disky. A co potom s nimi děláte?

Jan Zahradník: Poté data discích vezmeme a začneme je kopírovat do datových úložišť.

Ivana Karhanová: Takže CTRL+C/CTRL+V, vyskočí „kolečko“ a zpráva, že nahrávání potrvá 3 roky? J

Jan Zahradník: Naštěstí to jede relativně rychle. Když je potřeba mít denní kontinuitu dat, máme celou infrastrukturu naddimenzovanou, abychom byli schopni zpracovat novou dávku dat, která denně přijde na discích z aut, která jezdí po světě. Disk jsme schopni vyprázdnit řádově do osmnácti-dvaceti hodin. Zbytek je rezerva, která se pak pošle zpátky do světa.

Ivana Karhanová: Na datech pak simuluje další jízdy, takže je nejen potřebujete dostat na jedno místo, ale potom ještě na nich simulovat další procesy…

Jan Zahradník: Když dostaneme data do datového centra, jednou z prvních věcí je ověřit jejich kvalitu. Musíme zkontrolovat, jestli obsahují všechny senzory, jestli některý nechybí, jestli je vzájemná synchronizace, jestli byly správně nastavené, jestli kamery nesměřovaly do nebe. Potom data začínáme zpracovávat a sledujeme, jak si plníme jednotlivé kombinace statistického modelu. Samozřejmě se stane, že některé situace se nahrávají lépe než jiné. Proto musíme testovací vozidla poslat tam, kde potřebujeme správnou kombinaci dat.

Ivana Karhanová: Takže třeba pošlete na serpentiny, na děravou silnici a do hor?

Jan Zahradník: Ano, pokud je to součástí toho, co daná funkce musí umět, a v těch podmínkách musí fungovat.

Ivana Karhanová: Představuju si to celkem jednoduše, ale ve skutečnosti je to obrovské množství dat. Jak zajistíte, že vám to všechno funguje? Myslím výpočty a všechno, co s daty děláte.

Jan Zahradník: My neřešíme nijak extrémně složité úlohy, jenom to děláme na obrovských objemech dat. To znamená, že máme úzkou návaznost na IT infrastrukturu, na to, kolik různých typů počítačových sítí zvládne přenést data. Musíme optimalizovat architekturu, aby to zvládla.

Ivana Karhanová: Když se posuneme k vývoji dalšího levelu samořídících aut, kam očekáváte, že vzroste datová náročnost?

Jan Zahradník: To je těžká otázka. Jsou dva aspekty, které je potřeba řešit – technologie a cena. Nemůžeme postavit infrastrukturu, která bude milionkrát větší. Musíme inovovat metodiku a kombinovat reálný svět s virtuálním. Jsme schopni ve virtuálním prostředí simulovat extrémní situace a hledat hranice, kde systém selže, bez použití dat z reálného světa.

Ivana Karhanová: To znamená, že znovu spouštíte jízdu v autě?

Jan Zahradník: Ano, a máme k tomu dva způsoby. Ve skutečnosti v datovém centru nemáme žádné fyzické vozidlo. Máme tam kombinaci elektroniky a senzorů z vozidla, pospojovanou dohromady, ale je to upravené jiným způsobem. Například kamery ve skutečnosti nic nevidí, my jim promítáme obraz, který přišel poštou. Jedeme tu stejnou jízdu přesně tak, jak se udála, znovu. Tomu říkáme open loop nebo playback, kde pouštíme nahraná data do senzorů s novější verzí embedded softwaru. A pak máme ještě druhý typ validace, close loop, kde algoritmy ovlivňují, co se stane. Je tam potřeba širší modelování chování senzorů, vozidla a prostředí, ve kterém jsou modely simulované.

Ivana Karhanová: To znamená, že na stejná data software reaguje jinak?

Jan Zahradník: Ano, ve druhém způsobu, co nazýváme closed loop, je svět, ve kterém jezdíme, virtuální, a nabízí téměř nekonečno možností parametrů, které potřebujeme. Nepoužíváme data nahraná v reálném světě.

Ivana Karhanová: Když už mluvíme o tom, že ta data musí cestovat poštou, co vám brání v tom, abyste je nemuseli posílat fyzicky a přenášet je jinak?

Jan Zahradník: To je zajímavá otázka. Momentálně diskutujeme s několika cloudovými poskytovateli a telekomunikačními operátory o možnosti dostat data online do klíčových datových center. Zatím pro to nemáme řešení a důvodů je víc, včetně technologických.

Ivana Karhanová: To znamená propustnost sítí?

Jan Zahradník: Ano, propustnost sítí. Ta by to možná umožnila, ale je tu také otázka ceny, obzvláště při používání cloudových služeb. Většinu dat zpracováváme v Praze fyzicky, protože potřebujeme připojit naši elektroniku. Připojení těchto věcí k cloudu není jednoduché, a navíc jsme v Praze omezeni možnostmi připojení do cloudu.

Ivana Karhanová: Objem dat při simulování dalších jízd by byl obrovský, ne?

Jan Zahradník: Ano, poplatky za přenos dat z cloudu jsou vysoké. Diskutujeme s poskytovateli o různých modelech, protože nejsme jediný zákazník s podobnými potřebami.

Ivana Karhanová: A mají pro vás řešení?

Jan Zahradník: Mají, a je to velmi aktuální téma.

Ivana Karhanová: Vezměme si příklad, že pracuji jako big data manažer v bankovním sektoru s desítkami milionů záznamů denně a jsou to jednotky malých záznamů. Oproti tomu vy pracujete s obrovským množstvím ucelenějších dat. Jak se staví datová architektura pro takové řešení?

Jan Zahradník: Přišel jsem do společnosti v roce 2013. Již v té době jsme vytvářeli různé platformy pro validaci produktů. Vzali jsme původně více nezávisle vyvinutých řešení a začali je integrovat do jednoho. Vytvořili jsme tým, který zahrnoval externí IT odborníky, protože ve Valeu byla primární znalost zaměřena na algoritmy a embedded software. Pro návrh architektury jsme si vybrali právě Adastru.

Ivana Karhanová: Počítáte s budoucí škálovatelností a růstem objemu dat?

Jan Zahradník: Ano, škálovatelnost byla jedním z klíčových požadavků. Mít možnost škálovat jak k další nebo rychlejší infrastruktuře on-premise, tak i k využití veřejných cloudů. Naše cíle jsou integrovat tyto služby do naší platformy, ale zároveň mít všechna data evidovaná u nás, s možností vědět, že v určitém cloudu máme instanci těch dat.

Ivana Karhanová: Takže v podstatě řešíte úložiště a výpočetní výkon odděleně?

Jan Zahradník: Ano, je to tak. Služby, které primárně využíváme, jsou datové úložiště a výpočetní klastr. V některých případech nám stačí procesory, v jiných potřebujeme grafické karty. Ať už se jedná o datové úložiště nebo výpočetní uzly, jsme schopni je využít jak on-prem, tak v různých místech Valea, kde máme existující cloudovou infrastrukturu. Rozhodujeme se na základě toho, kde se nachází data.

Ivana Karhanová: Co vás v datové rovině a při zpracování dat nejvíce brzdí, kromě ceny?

Jan Zahradník: Ještě jedna věc – ochrana a bezpečnost dat. Jsme velmi opatrní ohledně ochrany svých dat a prevence datové ochrany. Musíme být velmi důkladní, než se rozhodneme využít nějaký open source nástroj, a chápat procesy dodavatelů, abychom se vyhnuli riziku škodlivého kódu. Je to o interních procesech a o tom, jak rychle dokážeme adaptovat nové technologie z hlediska bezpečnosti a analýzy rizik.

Ivana Karhanová: Kdy si myslíte, že reálně můžeme poskočit na další level samořídících aut? Během pěti, deseti, dvaceti let?

Jan Zahradník: Mohu říci velmi přesně. Měli jsme dva projekty. Jeden z nich, Mercedes S Class s kombinací senzorů od Valea, umožňoval level 3 autonomního řízení, tedy podmíněnou automatizaci. Funguje to jen na určitých místech v Německu, do šedesáti kilometrů za hodinu, hlavně v dopravních zácpách. Předchozí projekt byl pro Hondu v Japonsku, také obdobný systém do šedesáti kilometrů za hodinu v určitých podmínkách.

Ivana Karhanová: Děkuji za povídání.

Jan Zahradník: Děkuji za pozvání.

Naše případové studie

Inspirujte se na našem blogu

3 rady úspěšných českých manažerů pro zavedení data governance

Prosadit data governance u managementu organizací a stakeholderů bývá pro CIO, CDO nebo data strategistu nadlidský úkol. Vlastní implementace a dlouhodobé dodržování nastavených procesů...

Číst více

Bez funkční data governance to nepůjde. Více než pětina velkých českých firem však neví, jak začít   

Až 72 % velkých českých firem v tuto chvíli prochází počátečními fázemi data governance. Zhruba pětina firem si uvědomuje její důležitost, ale neumí si...

Číst více

Vlastní infrastrukturu nebude mít firmám kdo udržovat, cestou je cloud

Vlastní on-premise infrastruktura se pomalu stává historií jako stará dobrá disketa. Jak zvládnout přechod do cloudu, vysvětluje David Kaláb z Adastry.

Číst více