Jak Big Data pomáhají v bankovnictví a v čem je jejich kouzlo, jsme si povídali s Vladimírem Fiklíkem, odborníkem na Big Data z Raiffeisenbank.
Jak dlouho s Big Daty vaše banka pracuje?
V Raiffeisenbank s Big Daty pracujeme asi tři roky. Zavedení technologií Big Dat souviselo s potřebou řešit problémy, jež nastaly při velkém přenosu mnoha zpráv z různých aplikací a systémů, které banka zpracovává. Počet zpráv, které systémem projdou, se rychle zvyšuje souběžně s růstem banky. S tím je spojeno i stále větší množství chyb. I když technologie pro jejich odhalení existovala, doba nalezení se postupem času prodloužila až na 24 hodin. Což je samozřejmě příliš pomalé. V tu chvíli bylo jasné, že potřebujeme daleko rychlejší detekci chybovosti systému.
Proto jsme začali používat Hadoop technologii, která má schopnost ukládat velké množství dat, rychle je třídit a najít chybu. Ve výsledku technologie Hadoop dokonce několikanásobně předčila požadavky, které jsme si na systém detekce chybovosti stanovili.
V jakých oblastech se Big data v bankovnictví dají využít?
V bankovnictví je zatím využití Big Dat na začátku. Je to tím, že jde o poměrně mladý obor a pro analýzu dat je důležitá také jejich historie. Proto se data dnes hlavně ukládají do velkých úložišť. Jejich využití přijde až po nějaké době.
Přesto však banky mohou využít Big Data v mnoha zajímavých oblastech. Především, stejně jako u nás, pro technickou kontrolu, a také třeba pro detekci podvodů.
Rovněž v oblasti marketingu jsou zatím netušené možnosti, které vlastně ještě ani všechny nedokážeme využít.
Big Data se též dají použít v souvislosti s testováním nových technologií a aplikací a vytváření účinných modelů.
Technologie Big Dat také umí data anonymizovat. Protože se v bance uchovávají velmi osobní data, mohou pomoci právě při testování modelů, kdy je nutné veškerá data odosobnit.
Kouzlo Big Dat není, podle mého názoru, jen ve schopnosti ukládat a třídit neskutečné množství různorodých informací, ale i v jejich velkém výpočetním potenciálu.
Bohužel je stále velmi málo odborníků na IT, kteří by zároveň uměli připravovat modely pro analýzy, a ještě efektivně využili jejich výstupy. Například v marketingu nedostatek takto všestranných odborníků brzdí rozvoj využití Big Dat. Kdybych dnes studoval vysokou školu, šel bych tímto směrem, protože to je profese budoucnosti.
Jakými konkrétními projekty se v souvislosti s Big Daty zabýváte?
Big Data jsou pro nás zajímavá v několika oblastech. Především v už jmenované technické podpoře, která běží a je velmi efektivní. Rychlým odstraněním chyby je náš systém stále funkční, jak pro klienty, tak pro zaměstnance. Naše banka však připravuje i další projekty.
Jedním z nich je projekt na už zmíněnou detekci podvodů. Jde o odhad podvodného jednání, a to jak u klientů banky, tak ze strany zaměstnanců. Když už dojde ke krádeži, je pozdě. Big Data nám mohou pomoci podvodné jednání předvídat a krádeži prostě předejít. Pomocí sběru různorodých dat je možné rozpoznat model specifického chování, které obvykle vede k podvodu. Předcházení podvodů má pro banku samozřejmě významný ekonomický přínos.
Další zajímavý projekt, který připravujeme, je z oblasti marketingu. Díky analýze dat pohybu klientů na webu získáme například model chování těch, kteří si chtějí vzít půjčku. Tedy kam a v jakém pořadí obvykle klikají. Můžeme jim pak cíleně nabídnout služby, které je zajímají. Nabídka služeb i vedení portfolia bude tak daleko cílenější a s lepšími výsledky, jak pro banku, tak pro klienta.
Jaké zdroje pro analýzu Big Dat v Raiffeisenbank využíváte?
Zdroje, které při zpracování Big Dat využíváme, souvisejí s projekty, na kterých pracujeme. Zaměřujeme se tedy hlavně na tyto tři zdroje: velké množství různorodých zpráv, které kolují mezi všemi aplikacemi banky, rozpoznávání klikání klientů i zaměstnanců na webových rozhraních banky a data klientů banky.
Jaké nástroje používáte pro jejich zpracování?
Většina big data projektů u nás směřuje na Hadoop. V současnosti máme Hadoop cluster o šesti serverech a uvažujeme o stavbě druhého clusteru pro testovací účely. Hadoop ekosystém umožňuje provozovat velkou spoustu komponent pro řešení různých úloh, proto bych zmínil jen pár nejdůležitějších. Pro přístup k datům pomocí jazyka používáme Hive. Další zajímavou komponentou je Spark, který umožňuje provádět rychlé výpočty nad velkým množstvím dat. Bezpečnost pak zajišťuje komponenta Ranger, která dovoluje řídit přístupy uživatelů k ostatním komponentám a datům. Druhou big data platformou, kterou využíváme primárně pro online analýzu logů, je Elastic Search v kombinaci s Log Stash a Kibanou.
Jaká jsou podle vás úskalí Big Dat v bankovnictví a jak je řešíte u vás?
Asi největším úskalím a zároveň velkým tématem je v souvislosti s Big Daty bezpečnost a na druhém místě ochrana osobních údajů. Znamená to, že před přípravou jakéhokoli projektu v této oblasti musí proběhnout právní analýza, se kterými daty můžeme pracovat a se kterými ne. Samozřejmě hlavně před projekty, kde se pracuje s osobními daty klientů.
Jak se staráte o bezpečnost Big Dat?
Ochrana dat je velmi důležitá. Data chráníme jak zvenku, tak zevnitř. Zvenku jsou data chráněna síťovými prostředky. Přístup zevnitř je zabezpečen kombinací šifrování a řízení přístupových práv, které může být navázáno například na čipovou kartu. Systém tak rozpozná osoby z řad zaměstnanců a dovolí jim přístup pouze k těm datům, se kterými mají oprávnění nakládat.
Pracovat s Big Daty a využívat informace, které přinášejí, jsme v České republice začali tak před šesti lety. Je to obor, který se velmi rychle rozvíjí, a v souvislosti s ním samozřejmě i podpora bezpečnosti. Dá se říci, že bez zajištění bezpečnosti dat by projekty s Big Daty nemohly ani vzniknout.
Zatím data hlavně ukládáme do data lake (úložiště Big Dat), v podstatě bez ladu a skladu. Jaké informace z nich v budoucnu vytěžíme, si možná dnes ani nedovedeme představit.