Duże zbiory danych analogowych

Każdego dnia, korzystając z aplikacji testujących i pomiarowych, inżynierowie i naukowcy zbierają ogromne ilości danych. W jednej sekundzie eksperymentu przeprowadzanego w Wielkim Zderzaczu Hadronów w Europejskim Ośrodku Badań Jądrowych CERN może zostać wygenerowane 40 terabajtów (1012 bajtów) danych. W ciągu 30 minut pracy silnika odrzutowego Boeinga system rejestruje 10 terabajtów danych eksploatacyjnych. W trakcie jednej podróży przez Atlantyk czterosilnikowy samolot odrzutowy wytwarza 640 terabajtów danych. Wystarczy pomnożyć tę ilość przez ponad 25 000 lotów każdego dnia, aby uświadomić sobie ogrom generowanych informacji. Zwrócił na to uwagę John Gantz i David Reinsel w artykule Extracting Value from Chaos z listopada 2011 roku.

Podsumowując, trzywarstwowe rozwiązania związane z Big Data obejmują czujniki lub aktuatory, rozproszone węzły testowe oraz infrastrukturę IT albo dedykowane stacje do analizy i data miningu.
Formułowanie konkretnych, użytecznych wniosków na podstawie takich ilości danych stanowi coraz większy problem, a określenie ?duże zbiory danych? (big data) odnosi się właśnie do tego zjawiska. Stanowi ono nowe wyzwanie w zakresie analizy, przeszukiwania i integracji danych oraz raportowania, a także utrzymania systemów, które muszą być przygotowane na gwałtowny wzrost ilości danych.
Firma badawcza IDC (International Data Corporation) przeprowadziła niedawno badania danych cyfrowych, które obejmowały pliki danych pomiarowych, pliki wideo, pliki muzyczne i inne. W badaniach tych szacuje się, że ilość dostępnych danych podwaja się co dwa lata. Tylko w 2011 roku stworzono 1,8 zettabajtów (1021 bajtów) danych, zgodnie z tym, co przewidywał Adam Hadhazy w swoim artykule Zettabytes Now Needed to Describe Global Data Overload z maja 2010 roku na portalu Live Science. Aby wyobrazić sobie wielkość tej liczby, rozważmy taki scenariusz: jeśli wszyscy z 7 miliardów ludzi na ziemi dołączą do Twittera i będą regularnie publikować wpisy przez jedno stulecie, to wygenerują 1 zettabajt danych. Tylko w 2011 roku powstała prawie dwukrotnie większa ilość danych, jak podaje Shawn Rogers w artykule Big Data is scaling Bi and Analytics z września 2011 roku na portalu Information Management.
Fakt, że ilość dostępnych danych podwaja się co dwa lata, przypomina jedno z najbardziej znanych praw w elektronice ? prawo Moo-re’a. W 1965 roku Gordon Moore stwierdził, że liczba tranzystorów w układzie scalonym podwaja się w przybliżeniu co dwa lata. Oczekiwał on, że tendencja ta utrzyma się przez co najmniej 10 lat. Czterdzieści pięć lat później prawo Moore’a nadal ma zastosowanie w odniesieniu do wielu aspektów technologii informacyjnej (IT) i elektroniki. W jego konsekwencji najnowsze technologie są bardziej dostępne, a ostatnie innowacje pomagają inżynierom i naukowcom zbierać, analizować i przechowywać dane szybciej niż kiedykolwiek wcześniej. W dzisiejszych czasach internetowy potentat Google przetwarza ponad 24 petabajty informacji każdego dnia.
Dla porównania, w 1995 roku wypodukowano dyski twarde o łącznej pojemności 20 petabajtów (1015 bajtów). Podobnie koszty przechowywania tych danych spadły gwałtownie z 228 USD za 1 gigabajt (109 bajtów) w 1998 roku do 0,06 USD za 1 gigabajt w 2010 roku. Zmiany takie jak te, w połączeniu z rozwojem technologicznym, zgodnie z prawem Moore’a przyczyniają się do powstawania dużych zbiorów danych i związanych z tym problemów.
Wartości dużych zbiorów danych
Małe zbiory danych często ograniczają dokładność wniosków i przewidywań. Dla porównania rozważmy kopalnię złota, w której widoczne jest tylko 20 procent złota. Pozostałe 80 procent jest zmieszane z błotem. Do określenia pełnej wartości kruszcu znajdującego się w kopalni potrzebne jest jego wydobycie. Ta analogia prowadzi do zdefiniowania pojęcia ?szumu cyfrowego? (digital dirt), czyli faktu, że dane cyfrowe mogą mieć ukryte wartości. Stąd, w celu dojścia do nowych wniosków, potrzebna jest eksploracja i analiza dużych zbiorów danych.
Duże zbiory danych analogowych a inżynierowie i naukowcy
Źródeł dużych zbiorów danych jest wiele, jednak najciekawsze dla inżyniera i naukowca są te, które pochodzą ze świata fizycznego. Dane analogowe, które są zbierane i przekształcane na postać cyfrową, można nazwać dużymi zbiorami danych analogowych (Big Analog Data) ? pochodzą z pomiarów drgań, sygnałów radiowych, temperatury, ciśnienia, dźwięku, obrazu, światła, magnetyzmu, napięcia itp.
W wyniku dziennych badań i pomiarów można uzyskać dane na poziomie wielu terabajtów. Problemy z dużymi zbiorami danych analogowych stają się wyzwaniem dla systemów zautomatyzowanych testów i analiz. W przypadku, gdy testowanych jest wiele urządzeń, potrzeba też wielu rozproszonych zautomatyzowanych węzłów testowych (DATNs ? distributed automated test nodes), które są często równolegle połączone z sieciami komputerowymi. Ponieważ węzły DATNs są tak naprawdę systemami komputerowymi z zainstalowanym odpowiednim oprogramowaniem, pojawia się potrzeba zastosowania narzędzi zdalnego zarządzania w celu zautomatyzowania procesów ich konfiguracji, konserwacji i utrzymania oraz aktualizacji.
Ilość danych testowych i pomiarowych zwiększa potrzeby firm o zasięgu globalnym, w zakresie udostępniania tych danych dużo większej niż w przeszłości liczbie inżynierów. Wymaga to sprzętu sieciowego i systemów zarządzania danymi, które mogą zapewnić dostęp wielu użytkownikom, co z kolei zwiększa potrzebę rozprowadzania danych i ich udostępniania, uwzględniając kryteria geograficzne. Popularnym podejściem do zapewnienia tego rozproszonego dostępu do danych jest technologia chmury (cloud technology).
Rozwiązania do obsługi dużych zbiorów danych analogowych narzucają spore wymagania w odniesieniu do sprzętu IT, takiego jak serwery, pamięci masowe oraz infrastruktura sieciowa. Ponadto do zarządzania, organizowania i analizowania danych potrzebne jest oprogramowanie. Tak więc, do zapewnienia sprawnego przepływu danych, ich archiwizacji, analizy i wizualizacji wymagane jest zastosowanie tradycyjnych technologii IT. Dostawcy, tacy jak Averna, National Instruments, OptimalTest i Virinco oferują już produkty, które pomagają znaleźć rozwiązania problemów związanych z dużymi zbiorami danych analogowych.
Do analizy i zarządzania miliardami próbek pomiarowych z milionów plików inżynierowie i naukowcy mogą używać oprogramowania DIAdem firmy National Instruments, umożliwiającego wyszukiwanie danych pomiarowych, ich sprawdzanie i generowanie raportów na ich podstawie. Program DIAdem można również wykorzystywać do współpracy z istniejącymi rozwiązaniami IT lub do tworzenia serwerów dostępnych globalnie, umożliwiających szybkie podejmowanie decyzji na podstawie danych na nich zgromadzonych.
Dla celów produkcyjnych oprogramowanie Proligent firmy Averna oraz Wats firmy Virinco dostarcza rozwiązań, które zapewniają odpowiednią kontrolę jakości produktów i stanu przyrządów pomiarowych oraz przejrzystość procesów i operacji. Firma Qualcomm z powodzeniem wykorzystała narzędzia firmy OptimalTest do optymalizacji swojego procesu testowania, który obejmuje gromadzenie 4 terabajtów danych na kwartał (artykuł z 24 października 2011 roku na portalu Evaluation Engineering). Przejrzystość danych testowych wskazujących na wykonanie konkretnych kroków może pomóc inżynierom identyfikować pojawiające się trendy i aktywnie podejmować decyzje.
W miarę jak szybkie zbieranie dużych ilości danych staje się zarówno konieczne, jak i łatwiejsze, inżynierowie będą napotykać trudności związane z tworzeniem końcowych rozwiązań, które wymagają ścisłej integracji urządzeń wykorzystywanych w zautomatyzowanych testach oraz sprzętu IT. Stwarza to nowe wyzwania dla dostawców systemów testowania i pomiarowych, którzy współpracują z dostawcami technologii IT, aby oferować zintegrowane i kompleksowe rozwiązania.

National Instruments Poland Sp. z o.o.
Salzburg Center
ul. Grójecka 5
02-025 Warszawa
Tel: +48 22 328 90 10
Fax: +48 22 331 96 40
E-mail: ni.poland@ni.com http://poland.ni.com

Infolinia: 800 889 897