Image Image Image Image Image Image Image Image Image Image

it-manager | 20/09/2017

Scroll to top

Top

Brak wypowiedzi

Ograniczenia i potencjał związany z Big Data

Ograniczenia i potencjał związany z Big Data

9 maja 2016

Kamil Folkert, SILMINE

W erze cyfrowej rewolucji, gdy świat produkuje więcej danych w rok niż wynosi dziedzictwo wszystkich poprzednich wieków, określenie Big Data stało się synonimem możliwości szukania przewagi konkurencyjnej dla przedsiębiorstw z niemalże wszystkich sektorów gospodarki. Sukcesy odnoszone przy wykorzystaniu technik przetwarzania dużych zbiorów niejednorodnych danych nie są już dzisiaj niczym szokującym, chociaż wciąż w wielu dziedzinach życia nie dostrzegamy bezpośredniego przełożenia wniosków płynących z wykorzystania analityki na konwersję modeli biznesowych.

Z jednej strony trend związany z Big Data mocno zadomowił się już w biznesowej świadomości oraz realnie wpłynął na sposób funkcjonowania różnorakich przedsięwzięć. Wśród przykładów jednym tchem wymienić można takie obszary jak optymalizacja logistyki w oparciu o prognozowanie sprzedaży, ograniczenie nakładów na reklamę i marketing dzięki ich personalizacji i dopasowaniu do preferencji klientów, wykrywanie nadużyć finansowych w bankach i instytucjach administracji publicznej, czy też badania nad nowymi lekami w oparciu o bazy genomowe, co otwiera pole do indywidualizacji procesu leczenia.

Z drugiej strony, mnogość nowych źródeł danych oraz ich zróżnicowany charakter stanowią technologiczne wyzwanie, które musi zostać zaadresowane w organizacji zanim możliwe będzie wykorzystanie analityki Big Data na poziomie biznesowym. Niejednokrotnie może to być o tyle kłopotliwe, że w wielu organizacjach wykorzystanie klasycznych narzędzi Business Intelligence opartych o tradycyjne źródła danych zorganizowanych w znormalizowanym modelu na stałe wzrosło w kulturę przedsiębiorstwa. Próba zmiany ładu korporacyjnego i przejścia od danych strukturalnych do niestrukturalnych, od batchowo generowanych raportów do analityki real-time, opartej na strumieniach zdarzeń, wymaga tyle samozaparcia i mocy sprawczej po stronie biznesu, co kompetencji po stronie IT wpieranego przez zewnętrznych dostawców. Kompetencji, o które niełatwo ze względu na szybkość z jaką rozwijają się narzędzia takie jak ekosystem Hadoop, ale także z uwagi na mnogość zagadnień jakie należy zaadresować w praktyce, aby w rozsądnym czasie dostarczyć platformę Big Data gotową na realizację celów wyznaczonych w oparciu o potrzeby biznesowe.

Być może z tego powodu w 2014 roku Gartner w swoim corocznym opracowaniu Gartner Hype Cycle for Emerging Technologies, obrazującym stopień dojrzałości nowych technologii, umieścił Big Data na wykresie w miejscu wskazującym na zejście tej technologii ze szczytu nadmiernych oczekiwań do fazy rozczarowań. Interpretacja tego zjawiska nie jest wcale negatywna. Oznacza to jednak, że po czasie, w którym na podstawie nielicznych aczkolwiek spektakularnych sukcesów biznesowych trend Big Data rozpalił umysły wizjonerów nadeszła chwila na weryfikację twardych liczb i efektów pierwszych wdrożeń. Co ciekawe, w opracowaniu na rok 2015 Big Data w ogóle się nie pojawia. Można to interpretować na wiele sposobów, ale nie zmienia to faktu, że jesteśmy w momencie, w którym dojrzałość technologii Big Data będzie poddawana coraz większej ilości prób, co pozwoli na wykrystalizowanie się liderów w tym obszarze i oczyści rynek z graczy o wysokim potencjale marketingowym, ale z deficytem kompetencji technologicznych.

Uruchomienie dowolnego projektu w obszarze Big Data w każdym przedsiębiorstwie powinno wiązać się z analizą ograniczeń tej technologii oraz chłodną oceną możliwości ich przezwyciężenia przez organizację, bez rewolucyjnych zmian w ładzie korporacyjnym. Big Data nierzadko kojarzy się z wyzwaniem typowo technologicznym – a więc z koniecznością znalezienia odpowiedzi na pytanie jak w efektywny kosztowo i czasowo sposób gromadzić i przetwarzać duże zbiory zróżnicowanych danych. Można jednak śmiało postawić tezę, że istnieje także druga strona medalu – konieczność zrozumienia biznesowej natury danych i ich potencjału, niezależnie od ilości i modelu.

Kiedy myślimy o podejmowaniu decyzji optymalizujących procesy biznesowe w oparciu o analitykę Big Data musimy mieć świadomość, że wykorzystujemy dane opisujące przeszłość do prognozowania przyszłości. Oznacza to, że niezmiernie ważna jest jakość i dokładność danych wejściowych, ponieważ wszelkie nieregularności w trendach opisujących przeszłość mogą znaleźć swoje odwzorowanie w prognozie. Dodatkowo zachowanie wysokiej precyzji prognozy wymaga świadomego utrzymywania modelu, ponieważ jego wykorzystanie wpływa na dane wejściowe. Na przestrzeni czasu konieczna jest więc ewaluacja modelu, na przykład pod kątem nowych zmiennych opisujących prognozowane zjawisko. Moment ich wprowadzenia do modelu nie może być przypadkowy, co oznacza, że zadania zidentyfikowania źródeł danych, zaprojektowania i implementacji mechanizmów ich akwizycji i agregacji oraz potwierdzenia i zapewnienia jakości i spójności muszą zostać zrealizowane bezpośrednio po zidentyfikowaniu potrzeby poprawy dokładności modelu predykcyjnego.

Innym potencjalnym ograniczeniem stosowalności technologii Big Data jest oczywiście kwestia ochrony prywatności użytkowników produktu lub klientów przedsiębiorstwa, w tym w szczególności przetwarzania danych osobowych i wrażliwych. Uzyskanie od klientów zgody na przetwarzanie ich danych lub innego prawnego umocowania do wykorzystania danych opisujących np. zachowanie użytkowników w modelach analiz, na ogół może oznaczać konieczność poinformowania ich o tym fakcie. Warto wówczas uwzględnić to także w ewaluacji modelu – jeżeli badamy np. preferencje zakupowe klientów, ich zachowanie może nie być naturalne jeśli są oni świadomi tego, że na podstawie ich zachowań profilowana będzie oferta. Aspekt ten, a także to czy przedsiębiorstwo będzie postrzegane jako ingerujące w prywatność lub wręcz inwigilujące swoich klientów to dwa wymiary, których nie sposób zaadresować w ramach niezbędnych, a w niektórych przypadkach wymaganych prawnie, procedur bezpieczeństwa danych i data governance.

Operacjonalizacja modeli analitycznych także jest wyzwaniem samym w sobie. Mnogość modeli, wielorakość wykorzystywanych w nich źródeł danych i ich heterogeniczność, a także konieczność ewaluacji modeli w szybkozmiennym technologicznie środowisku oznaczają, że procedury przejścia od wykrywania cech definiujących model do jego produkcyjnego wdrożenia i zapewnienia ciągłości ich działania, zwłaszcza przypadku środowisk skonfigurowanych jako tzw. multi-tenant, wymagają nierzadko opracowania indywidualnego planu działania, który na dodatek powinien wpisywać się w możliwie najmniej inwazyjny sposób w zastany ład korporacyjny organizacji. W przypadku ekosystemu Hadoop niezbędna jest przede wszystkim dobra współpraca pomiędzy zespołem odpowiedzialnym za data science i zespołem po stronie IT, odpowiedzialnym za operacjonalizację modeli i utrzymanie klastra, ale także odpowiednie procedury i konfiguracja klastra, pozwalające na zapewnienie bezpieczeństwa danych oraz dostępności zasobów klastra dla produkcyjnie działających procesów przetwarzania danych.

Sama automatyzacja pracy modelu oraz zapewnienie ciągłości jego działania nie będą jednak wystarczające, jeżeli wraz z ewolucją modelu nie będzie on dostarczał odpowiedzi na właściwe pytania lub jeśli interpretacja wyników działania modelu nie będzie prawidłowa. Przykładem takiego postępowania może być nieprawidłowe wnioskowanie oparte o korelację dwóch pozornie niezwiązanych ze sobą zmiennych, wykrytą przez model działający na dużym zbiorze wielowymiarowych danych, co często bywa podnoszone jako wartość dodana stosowania analityki Big Data. Być może wynika to z pewnej niezrozumiałej gloryfikacji samego zjawiska korelacji w materiałach marketingowych wielu firm oferujących usługi analityczne, ale przecież kluczowe jest właściwe zinterpretowanie takiej korelacji jako biznesowo istotnej, nie zaś sam fakt jej wykrycia przez mechanizm statystyczny, ponieważ w wielu przypadkach wcale nie oznacza on wystąpienia istotnych przesłanek biznesowych lub jakiegokolwiek związku przyczynowo-skutkowego. Doskonałym przykładem  ilustrującym takie zjawisko jest szeroko komentowany w  Internecie (m.in. na stronach Forbes’a) ciekawy przypadek niezwykle silnej (na poziomie 99%) korelacji   liczby rozwodów w stanie Maine z ilością konsumowanej w USA margaryny na osobę.

Z pewnością każdy projekt w obszarze Big Data to zagadnienie złożone i wielowymiarowe, wymagające   kompetencji technologicznych i umiejętności ich wykorzystania  w dobrze zdefiniowanych  przypadkach biznesowych. Potencjał  technologii, w tym takich rozwiązań jak ekosystem Apache Hadoop, jest olbrzymi. Skorzystanie z niego z jednej strony jest w zasięgu ręki, z drugiej jednak jego pełna eksploracja wymaga kompleksowego podejścia do budowy platformy danych i platformy analitycznej  w oparciu o właściwie dobrane narzędzia, skonfigurowane w sposób skalowalny tak, aby uwzględniać i umożliwiać rozwój biznesu. Biorąc pod uwagę etap na jakim znajdujemy się teraz jeśli chodzi o adopcję rozwiązań do analityki Big Data w praktyce, można spodziewać się uproszczenia stosu technologicznego (przynajmniej w zakresie obecnie funkcjonujących technologii, framework’ów i narzędzi), co spowoduje że wykrystalizuje się zbiór najbardziej wartościowych narzędzi, dzięki czemu łatwiej ocenić będzie przydatność i aplikowalność danej technologii dla nowych wyzwań i potrzeb biznesowych.

 

Dr inż. Kamil Folkert – członek zespołu SILMINE, ekspert w zakresie architektury systemów informatycznych i danych. Absolwent i Wydziału Automatyki, Elektroniki i Informatyki Politechniki Śląskiej. Wykładowca na Høgskulen i Sogn og Fjordane w Førde w Norwegii,  konsultant w licznych projektach realizowanych w Polsce i za granicą. Posiada praktyczne doświadczenie w projektowaniu, implementacji i wdrażaniu technologii Big Data (ze szczególnym uwzględnieniem Apache Hadoop) zdobyte w projektach realizowanych w branży bankowej, telekomunikacyjnej oraz social media. Autor publikacji naukowych oraz prelegent warsztatów z obszaru Big Data prowadzonych dla pracowników IT jednego z największych banków w Polsce. Wciąż poszukuje nowych możliwości rozwoju i nauki.

 

 

Wypowiedz się

Wszelkie prawa zastrzeżone