Analityka Big Data ? zamiana dużych zbiorów różnorodnych danych w użyteczne informacje

big data network sieć
Źródło: Pexels

Aby przynosiła efekty, analiza dużych zbiorów danych Big Data musi dostarczać użytecznych informacji, opartych na doświadczeniu użytkownika końcowego, a nie być tylko szumem medialnym kojarzonym z technologiami sztucznej inteligencji i uczenia maszynowego.

Niektóre osoby mogą być przekonane, że analiza dużych zbiorów różnorodnych danych (Big Data) jest synonimem uczenia maszynowego (machine learning ? ML) lub sztucznej inteligencji (artificial intelligence ? AI), jednak nie jest to prawdą. Chociaż niektóre aspekty tych dwóch technologii mogą być wykorzystane w aplikacjach analityki Big Data, to skupianie się tylko na nich na pewno spowoduje zamieszanie i zwiększy oczekiwania. Szum medialny wokół technologii AI sugeruje w zasadzie automatyczne generowanie praktycznych informacji po zastosowaniu jej do analityki Big Data. AI daje wyniki, które nie wymagają żadnego lub niewielkiego wysiłku od użytkownika końcowego. Jednak doświadczenie użytkownika w analizie danych jest zupełnie inne.

CB Insights, firma analityczna skupiająca się na firmach typu start-up, stwierdziła, że na rynku można zaobserwować wręcz irracjonalną mnogość i nadmiar różnorodnych technologii i narzędzi w obszarze AI. Ten pogląd sugeruje, że faktyczne wykorzystanie różnych technologii AI jest skorelowane negatywnie z marketingowym szumem, który tworzy zamieszanie i dezorientację wśród użytkowników.

Na przykład jeden z producentów udostępnił studium przypadku, w którym twierdzi, że wykorzystał pewne rozwiązanie analizy danych skoncentrowane na technologii AI do rozwiązania problemu związanego z produkcją. W swojej prezentacji firma ta zawarła formułę, którą zastosowała do znalezienia korelacji między procesem a wynikami produkcji. Formułą tą była regresja, która jest świetnym narzędziem, ale twierdzenie, że jest ona równoważna z AI, wprowadza w błąd. Użyta formuła nie była nawet odmianą regresji, tylko najbardziej podstawową formą algorytmu ML oraz cechą programu Microsoft Excel, od czasu jej wprowadzenia do pakietu oprogramowania do analizy danych w 2007 roku.

Biorąc pod uwagę, że licząca sobie 10 lat funkcja została przepakowana, ponownie oznakowana i reklamowana jako AI, wskazuje na zamieszanie panujące w klimatach technologii CC (cognitive computing ? przetwarzania kognitywnego). Częściowo winić należy tu zarówno brak zrozumienia tego, co stanowi podstawy technologii AI, MI, głębokiego uczenia (deep learning) oraz innych odmian przetwarzania kognitywnego, jak i argumenty dotyczące ich odmian nadzorowanych i nienadzorowanych.

Ten rodzaj szumu medialnego jest sprzeczny z gorzką rzeczywistością, w której duży procent zbieranych danych nie jest nawet analizowany lub wykorzystywany w praktyce przez inżynierów/technologów i analityków, którzy mogliby wykorzystać takie dane do opracowania i wygenerowania użytecznych informacji.

Analiza danych procesowych

Owszem, wiele technologii, w tym AI, może być użytych w aplikacjach analizy danych, jednak nie należy koncentrować się na tych technologiach, ale na doświadczeniu użytkownika i przyspieszeniu zamiany praktycznych informacji w dane procesowe.

Konieczne jest skupienie się na ekspertach dziedzinowych (subject matter expert ? SME) ? inżynierach procesu, ekspertach od analizy danych i innych oraz ich zdolności do znajdowania praktycznych informacji w gromadzonych dla nich danych. Niezależnie od technologii użytych w aplikacjach analizy danych, celem jest zawsze opracowanie takiego rozwiązania, które jest dostępne dla użytkownika nieposiadającego dużego doświadczenia w badaniu danych (data science).

Dobrze zaprojektowane aplikacje do analizy danych umożliwiają ekspertom SME otrzymywanie odpowiednich wyników. Ponieważ aplikacje do analizy danych wykorzystują dodatkową funkcjonalność, to powinny wdrażać te innowacje w kontekście cech łatwego użytkowania, dostępnych dla inżynierów procesu i technologów.

Aplikacje do analizy danych powinny wykorzystywać dostępne technologie, aby pomagać użytkownikom końcowym w uzyskaniu pożądanych i użytecznych wyników. Świetnie, jeśli aplikacje te cechuje funkcjonalność ML lub AI, jednak z powodów marketingowych nie powinny one być ograniczone tylko do tych funkcjonalności lub innych. Dostępnych jest wiele algorytmów oraz innowacji, które pomagają użytkownikom potrzebującym odnaleźć praktyczne informacje w otrzymywanych danych.

Funkcje algorytmów mogą obejmować cyfrowe przetwarzanie sygnałów w celu czyszczenia danych, wykrywania kształtu w sygnałach procesowych oraz modele obliczeń MapReduce do rozproszonego przetwarzania danych. Celem nie jest wywoływanie algorytmów ML, AI lub innych. Jest nim pomaganie użytkownikom końcowym w szybszym osiągnięciu sukcesu.

Poza algorytmem

Algorytmy technologii CC są ważną częścią rozwiązania do analizy danych w produkcji procesowej oraz rozwiązaniach Przemysłowego Internetu Rzeczy, ale tylko częścią. Inne aspekty obejmują proces transformowania i mapowania danych (data wrangling), który polega na pobieraniu wymaganych danych z sieci, ich oczyszczeniu i kontekstualizacji w celu przygotowania ich do użycia. Aplikacje do analizy danych muszą koncentrować się m.in. na tych etapach przygotowawczych, aby przyśpieszyć przetworzenie otrzymywanych z sieci danych na praktyczne informacje do dystrybucji wśród użytkowników.

Na koniec aplikacje do analizy danych powinny umożliwiać użytkownikom rozbudowę i rozszerzanie analizy do każdego wymaganego poziomu. Użytkownicy końcowi będą rozszerzali używanie aplikacji do analizy danych oraz w większym stopniu potrzebowali specyficznych algorytmów. A zatem aplikacje do analizy danych powinny obejmować rozszerzalność na dodatkowe algorytmy poprzez takie funkcje, jak REST API, OData oraz integrację algorytmów z doświadczeniem użytkownika.

Gdy aplikacje do analizy danych umożliwiają użytkownikom skupienie się raczej na problemie, a nie na technologii, to pożądane wyniki mogą być uzyskane szybko, jak pokazano w przedstawionych dalej kilku przypadkach użycia.

Analiza dużych cząsteczek w laboratorium firmy farmaceutycznej

Problem: Podczas przechodzenia od fazy eksperymentów do produkcji na pełną skalę okazało się, że wydajność reaktora uzyskana w laboratorium pewnej firmy farmaceutycznej nie może być odtworzona podczas produkcji na pełną skalę. Przyczyny tego były trudne do zidentyfikowania przy użyciu metod ręcznych oraz istniejących narzędzi do zarządzania danymi, takich jak arkusze kalkulacyjne.

Rozwiązanie: Wykorzystano analizę danych do zebrania i połączenia danych z różnych i odmiennych źródeł, związanych z laboratorium i linią produkcyjną. Umożliwiło to firmie szybkie porównanie tych dwóch procesów i ustalenie kluczowych różnic, jak pokazano na schemacie blokowym pokrywy zbiornika. Parametry produkcji na pełną skalę zostały tak dostrojone, aby zwiększyć wydajność.

Kontrola zanieczyszczeń emitowanych przez elektrownię

Problem: Operatorzy w pewnej elektrowni nie mogli wystarczająco szybko otrzymywać informacji z zakładowego systemu automatyki, aby sterować w czasie rzeczywistym urządzeniami zmniejszającymi emisję zanieczyszczeń. W wyniku tego często przedawkowywano chemikalia neutralizujące zanieczyszczenia, co powodowało wzrost kosztów generowanych przez zakład.

Rozwiązanie: Aplikacje do analizy danych umożliwiają szybkie przetwarzanie informacji, co pozwala na skuteczne sterowanie systemem zmniejszania zanieczyszczeń w bardzo łatwy sposób, podobnie jak w przypadku każdej innej zmiennej procesowej. Dzięki temu można tak zoptymalizować zużycie chemikaliów, aby osiągnąć maksymalną redukcję emisji tlenków azotu (NOx), tlenków siarki (SOx) oraz związków rtęci. Powoduje to maksymalne obniżenie kosztów zużywanych chemikaliów oraz jednoczesne wydłużanie czasu eksploatacji sprzętu.

Operacje wytapiania rud metali

Problem: W pewnej hucie niełatwe do sterowania i zużywające duże ilości energii etapy produkcji metali, takie jak wytapianie rud, były trudne do scharakteryzowania przy użyciu konwencjonalnych arkuszy kalkulacyjnych. W wyniku tego równoważenie wielu czynników i dokonywanie optymalnych kompromisów między kosztami, czynnikami środowiskowymi a efektywnością energetyczną było niemal niemożliwe.

Rozwiązanie: Zastosowano analizę danych do analizowania możliwych kompromisów między wieloma zmiennymi, co ułatwiło sterowanie procesem wytopu na podstawie tego, która ze zmiennych jest najbardziej kluczowa w danej chwili. Dostrajanie tej ?mieszanki? pod kątem ewoluujących kosztów lub nowych regulacji prawnych zostało uproszczone przez wypróbowanie różnych scenariuszy typu ?co jeżeli? (what-if).

Łoża reaktorów w rafineriach

Problem: W rafineriach były trudności z przewidywaniem wielkości zanieczyszczeń gromadzących się w łożach osłon reaktorów z powodu różnych warunków i czynników mogących powodować problemy. Dane z różnych czujników miały tendencję do gromadzenia zakłóceń, co sprawiało, że identyfikacja aktualnych trendów i podejmowanie działań korygujących były trudne do wykonania.

Rozwiązanie: Wykorzystując swoje technologie czyszczenia danych i pakietów danych, rozwiązanie do analizy danych wyeliminowało w locie zakłócenia z danych oraz zidentyfikowało kluczowe warunki operacyjne, które powodowały przyśpieszanie gromadzenia się zanieczyszczeń. Dzięki testom wzorcowym (benchmarks), stworzonym w warunkach panujących w stanie ustalonym, identyfikowanie powstawania problemowych sytuacji, a następnie wykonywanie konserwacji prognozowanej (predictive maintenance ? PdM) stało się łatwe.

Ocena jakości pulpy i papieru

Problem: W pewnej papierni w procesie przygotowania pulpy mieszano różne gatunki drewna ? według ich aktualnej dostępności. Sprawdzanie, czy te zmiany surowca nie wpłyną negatywnie na produkt końcowy, było trudne, biorąc pod uwagę długi czas, jaki upływał między przygotowaniem pulpy a wyprodukowaniem gotowego wyrobu.

Rozwiązanie: Aplikacja do analizy danych wykonała charakterystykę jakości produktu końcowego na podstawie charakterystyki pulpy, przygotowanej na podstawie danych historycznych. Wówczas firma wdrożyła testowanie pulpy przed jej dostarczaniem do maszyny produkującej papier i wykorzystała te informacje do dokładnego przewidywania kluczowych parametrów produktu końcowego.

Dzięki tym poprawnie opracowanym i zrealizowanym aplikacjom do analizy danych nie będzie już żadnych problemów dla użytkowników końcowych, niezależnie od ich wymagań badawczo-rozwojowych. Trzeba też podkreślić, że obecny szum medialny i obietnice dojrzeją w miarę upływu czasu, natomiast analiza danych stanie się oczekiwanym i stabilnym komponentem środowiska roboczego. Jednak kontekst i doświadczenie użytkownika końcowego muszą być priorytetem.

Włączenie technologii AI, MI oraz innych pozwoli aplikacjom do analizy danych szybciej generować praktyczne informacje na podstawie danych Big Data.


Michael Rise jest wiceprezesem firmy Seeq Corp.