Dostęp do właściwych danych we właściwym czasie

Żyjemy w erze eksplozji informacji. Coraz więcej danych, pobieranych z różnych źródeł, zapisywanych w niespójnych formatach… Jak je usystematyzować? Jak na ich podstawie formułować wnioski, podejmować decyzje? Kluczem do optymalnego wykorzystania danych jest możliwość ich analizy, którą zapewniają systemy IT.
Termin Big Data odnosi się do dużych zbiorów danych. Danych pochodzących z różnych źródeł, najczęściej nieuporządkowanych, mających różną strukturę, zapisanych w różnych formatach, które trudno ze sobą zestawić, porównać. Żeby wyciągnąć z nich właściwe wnioski, trzeba je poddać odpowiedniej obróbce, czyli przetworzyć za pomocą specjalistycznego oprogramowania.
W 2001 r. META Group (obecnie Gartner) opisywał Big Data w modelu 3V: duża ilość danych (Volume), duża zmienność danych (Velocity) oraz duża różnorodność danych (Variety). A w 2012 r. Gartner uzupełnił tę definicję: „Big Data to zbiory informacji o dużej objętości, dużej zmienności i/lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”.
Źródła danych
Big Data to nowa generacja technologii i architektur, które zapewniają efektywne kosztowo przechowywanie danych, ich analizowanie oraz wydobywanie z nich wartościowych informacji. Dzięki nim można korelować dane z systemów zajmujących się ich gromadzeniem (ERP, CRM itp.) i przetwarzaniem (BI) z sygnałami płynącymi w czasie rzeczywistym z otoczenia biznesowego, z uwzględnieniem wskaźników makroekonomicznych.
Skąd pochodzą dane? Biorący udział w badaniu Cisco Connected World Technology Report (wyniki opublikowane w maju 2013 r.) polscy menedżerowie IT jako najpopularniejsze źródła danych wymieniali dane: bieżące (84%), historyczne (58%), z systemów monitoringu oraz czujników (46%), przetwarzane w czasie rzeczywistym (25%). Według respondentów 31% przechowywanych danych to informacje nieustrukturyzowane, takie jak materiały wideo.
Każdego dnia smartfony, kamery, czujniki, inteligentne urządzenia pomiarowe oraz inne połączone z siecią urządzenia generują ogromne ilości danych, które w połączeniu z informacjami z tradycyjnych źródeł tworzą lawinę danych. Dane te stanowią źródło kluczowych informacji dla przedsiębiorstw – niosą duży potencjał, ale i ogromne wyzwania.
Dane w ruchu
Ważnym, ale często niewykorzystywanym źródłem informacji są dane generowane w czasie rzeczywistym przez różnego rodzaju urządzenia, czujniki czy kamery wideo. Cisco dane te określa mianem Data in Motion (Dane w ruchu). Sieć może dostarczyć przydatnych informacji kontekstowych dla tego rodzaju danych, dotyczących osób lub urządzeń oraz ich statusu i dostępności.
Komunikacja urządzenie-urządzenie (machine-to-machine) oraz Data in Motion mają szczególne znaczenie we wszelkiego rodzaju systemach automatyki przemysłowej. Według badania Cisco Visual Networking Index Global Mobile Data Traffic Forecast 20122017 liczba połączeń urządzenie-urządzenie w 2017 r. osiągnie poziom 1,7 miliarda. 71% polskich respondentów (73% na świecie) zamierza włączyć dane dostarczane z cyfrowych czujników, urządzeń pomiarowych, kamer wideo oraz innych inteligentnych urządzeń do swoich planów Big Data. Ale tylko 16% badanych w Polsce (33% na świecie) ma skonkretyzowany plan wykorzystania tych nowych źródeł danych. Wiodące branże w tym obszarze to: przemysł, handel, smart grid, służba zdrowia, dostawcy usług.
Internet Wszechrzeczy
Kolejny trend przewidziany na rok 2014 to Internet Wszechrzeczy polegający na włączaniu do globalnej sieci coraz większej liczby urządzeń, przedmiotów i miejsc. Jego efektem jest właśnie zjawisko Big Data, czyli zbieranie danych z kamer, czujników i monitorowanie każdego aspektu działalności biznesowej.
Według prognoz IDC rynek technologii i usług Big Data będzie rósł o 27% w skali roku do 2017 r., w którym powinien osiągnąć wartość 32,4 mld USD (źródło: IDC WW Big Data Technology and Services 20132017 Forecast, grudzień 2013). Głównym czynnikiem napędzającym ten trend jest zmasowany napływ danych ze skomunikowanych ze sobą urządzeń w ramach Internetu Wszechrzeczy, których liczba ma wzrosnąć do 30 mld do roku 2020 (źródło: IDC Market Analysis Perspective: Worldwide Enterprise Servers, 2013 – Technology Market).
Technologia in-memory
Zgodnie z prognozami analityków do 2015 r. wdrożenie technologii Big Data pochłonie 70% wydatków na rozwój i modernizację infrastruktury IT na świecie. Jedną z kluczowych metod zapewniających zarządzanie i analizę dużych ilości danych w bardzo krótkim czasie jest technologia in-memory. Dzięki niej podczas analizowania złożonych zbiorów danych wyniki generowane są w ciągu sekund i minut, a nie godzin i dni.
Dzisiejsze przedsiębiorstwa rzadko mogą sobie pozwolić na luksus przechowywania i analizowania danych całymi dniami czy miesiącami. Analiza danych w trybie in-memory nie polega na przetwarzaniu informacji zgromadzonych na dysku twardym, lecz przeszukiwaniu całych zbiorów znajdujących się w pamięci operacyjnej komputera. Prowadzi to do znacznego skrócenia czasu reakcji, umożliwiając szybsze podejmowanie decyzji w oparciu o narzędzia Business Intelligence i inne aplikacje analityczne.
– Dzięki integracji, zarządzaniu zdarzeniami oraz narzędziom analitycznym można w pełni wykorzystać potencjał Big Data – błyskawicznie dostarczać dane dla lepszego podejmowania decyzji bez utraty celu, jakim może być np. złożenie oferty czy szybka sprzedaż – uważa Maurizio Canton, Tibco CTO dla regionu EMEA. – To dlatego informatyczne rozwiązania automatyzujące marketing wzbogaca się narzędziami, które mają skrócić cykl prognozowania i planowania działań. Tylko że automatyzacja oparta na danych statycznych nigdy nie rozwiąże problemu, ponieważ w działaniach marketingowych wciąż pomijane będą aktualne potrzeby klientów – a tecoraz szybciej ewoluują. W Big Data chodzi o analizowanie tego, co dzieje się teraz i sygnalizowanie, co może się za chwilę wydarzyć.
Big Data w produkcji
W związku z coraz szybszym postępem technicznym wzrasta liczba informacji pochodzących z procesów produkcyjnych. Rośnie liczba systemów i urządzeń, w dodatku coraz bardziej zaawansowanych, co skutkuje wzrostem liczby rejestrowanych parametrów, wymagana jest też coraz większa dokładność danych na potrzeby raportowania.
Ogromne ilości danych operacyjnych pobieranych w trybie online ze stale rosnącej liczby urządzeń i sprzętu oraz wymiana danych między nimi określane są jako „przemysłowy Internet” (a nawet „maszynowy facebook”). Pojedyncze zbiory danych mają rozmiary od kilkunastu terabajtów do setek petabajtów. W takich przypadkach tradycyjne archiwizatory nie są wystarczająco wydajne. Do takiego poziomu analizy potrzebne są precyzyjne narzędzia, zwane zaawansowanymi archiwizatorami danych, np. Proficy Historian GE Intelligent Platforms.
Podczas gdy zbiory danych rosną i przybierają coraz bardziej złożone formy, istotne informacje potrzebne do efektywnego zarządzania przedsiębiorstwem pozostają głęboko ukryte. Nowoczesne archiwizatory danych – historiany – zapewniają dokładność rzędu mikrosekund podczas odczytu i zapisu danych zbieranych z procesu w czasie rzeczywistym. Badania wykazują, że historiany mogą zredukować potrzebną dla próbki ilość miejsca dyskowego o 85% w porównaniu do tradycyjnych rozwiązań bazodanowych.
Platformy Big Data
Na polskim rynku oferowanych jest wiele rozwiązań do obsługi Big Data. Na przykład Intel Data Platform (premiera 14 lutego 2014 r.) to pakiet oprogramowania open source, który przyspiesza optymalizację przetwarzania zbiorów Big Data, a nowy zestaw narzędzi Analytics Toolkit umożliwia tworzenie kompletnych analiz graficznych i prognoz, co pozwala uzyskać cenne informacje na temat ukrytych relacji pomiędzy analizowanymi danymi. Platforma oferuje przetwarzanie strumieni danych, interaktywne i iteracyjne funkcje analityczne oraz przetwarzanie grafów.
Z kolei Oracle Big Data Appliance X4-2 (wprowadzona na rynek w listopadzie 2013 r.) to kompleksowa platforma do obsługi wielkich zbiorów danych, zoptymalizowana pod kątem zarówno przetwarzania wsadowego, jak i przetwarzania w czasie rzeczywistym. Można ją wykorzystywać w połączeniu z maszyną bazodanową Oracle Exadata i rozwiązaniem Oracle Exalytics.
– Decydując się na wdrożenie systemu Big Data, warto zwrócić uwagę na konkretne funkcje. Bardzo przydatna okazuje się możliwość dokonywania analizy wybranych danych w locie (streaming – np. dane z parków maszynowych) i szukania tych, które spełniają określone reguły. Na tej podstawie z informacyjnego szumu firmy mogą wybierać tylko te dane, które z ich punktu widzenia będą w przyszłości przydatne do głębszych analiz. Pozostałych nie muszą natomiast zapisywać. Cały proces odbywa się automatycznie i online – wyjaśnia Daniel Mordarski, Business Solution Manager, Qumak SA.
Przyszłość Big Data
Rosnące zapotrzebowanie na złożone operacje analityczne oznacza coraz większą popularność narzędzi BA (Business Analytics). Gartner przewiduje że do 2015 r. 35% firm z sektora MSP wdroży rozwiązania in-memory, przy 10-procentowym wzroście w 2013 r. w stosunku do 2012 r. (źródło: Gartner „Top Technology Trends, 2013: In-Memory Computing Aims at Mainstream Adoption”).
Chociaż wzrost liczby, dynamiki i różnorodności danych jest wielkim wyzwaniem dla firm, ale jednocześnie jest to szansa rozwoju. Aby ją wykorzystać, liderzy IT i działów biznesowych muszą zastosować nowe technologie i najlepsze praktyki, aby umożliwić zdobycie informacji wspierających działanie przedsiębiorstwa z dostępnej masy danych. Firmy, które wzmocnią swoje środowiska analityczne nowymi technologiami BI i Big Data, będą mogły liczyć na przewagę rynkową. W dzisiejszej gospodarce podstawą sukcesu jest bowiem dostęp do właściwych danych we właściwym czasie.
CE