Marek Zielinski on Linkedin
Marek Zielinski
Co-founder at 10 Senses
Helping you with Process mining, IoT and data
Łukasz Borowiecki on Linkedin
Łukasz Borowiecki
Co-founder and CEO at 10 Senses | AI Sector Expert at Digital Poland Foundation
Delivering value with data & AI

 

Jedną z charakterystycznych cech process mining jest fakt, że opiera się on o faktycznie zebrane dane. Nie polegamy tutaj na wyobrażeniach o procesie, ani jedynie na wiedzy eksperckiej. Przy automatycznym odkrywaniu procesu, nie musimy modelować i rysować wszystkiego ręcznie. Te czynności odkrywania i budowania modelu wykonuje za nas algorytm, a my ustawiamy tylko jego parametry. Ale skoro w budowie modelu zastępuje nas algorytm, to głównym wąskim gardłem w toku analiz process mining staje się dostępność i jakość danych – w skrócie ich dojrzałość. Oczywiście, zbieranie danych zawsze było żmudnym zadaniem. W przypadku process mining znaczenie danych jeszcze wzrasta. Niska dojrzałość danych staje się istotną przeszkodą na drodze budowy modeli procesu i ich późniejszej analizy. Z tego właśnie powodu, podczas projektów analitycznych wykorzystujących process mining, dojrzałość danych ma kluczowe znaczenie.

5 poziomów dojrzałości danych

Dostrzegając rosnące znaczenie tego zagadnienia osoby odpowiedzialne za rozwój metodologii process mining postanowiły usystematyzować rozumienie dojrzałości danych. Grupą, która przygotowała i opublikowała taki materiał jest IEEE Task Force on Process Mining. Możemy znaleźć go w Process Mining Manifesto.

Typologia dojrzałości danych oparta jest o pięć poziomów i zawiera szczegółowe informacje o tym, jakie formalne wymogi muszą zostać spełnione dla każdego z poziomów. W praktyce, o dojrzałości decyduje kilka cech i zależy nam, aby dane spełniały je w jak największym stopniu:

  • Automatyczne gromadzenie danych: trudnością w realizacji process mining jest fakt, że wiele organizacji nie zbiera informacji o czynnościach realizowanych w procesie, bądź też informacje są gromadzone w formie papierowej (np. notatki, książka przeglądowa). Docelowo chcemy, aby dane o zdarzeniach były zapisywane w sposób automatyczny przez systemy IT.
  • Kompletność: aby można było zbudować model procesu, który poprawnie odzwierciedla rzeczywistość, dane powinny w wysokim stopniu uwzględniać różne czynności realizowane w toku procesu oraz posiadać niski stopień braków danych.
  • Spójne definicje dla czynności procesu: nie możemy pozwolić na zbyt dużą dowolność i wieloznaczność definicji czynności. Idealnie, jeśli mamy zamkniętą listę pojęć dla elementów procesu.
  • Wiarygodność: dane muszą odzwierciedlać rzeczywistość i faktyczne czynności wykonywane w firmie aby modele procesu i ich analizy były poprawne.
  • Spójne ontologie na poziomie organizacji: jeżeli wszystkie systemy IT korzystają z takich samych pojęć do opisu rzeczywistości, wtedy możemy w łatwy sposób integrować dane z różnych źródeł i budować bardziej kompletne modelu procesu.
Poziom Charakterystyka Przykłady
Poziom 5 Najwyższy poziom: dziennik zdarzeń jest doskonałej jakości (kompletny i wiarygodny), a zdarzenia dobrze zdefiniowane. Zdarzenia są zapisywane w sposób automatyczny, systematyczny, wiarygodny i bezpieczny. Zapewniona jest ochrona prywatności i bezpieczeństwo zapisów. Co więcej, zapisane zdarzenia (i wszystkie ich atrybuty) mają czytelną semantykę. Istnieją zdefiniowane ontologie (jedna lub wiele). Zdarzenia i ich atrybuty odnoszą się do tych ontologii. Dzienniki zdarzeń systemów BPM z opisem semantyki zdarzeń.
Poziom 4 Zdarzenia są zapisywane w sposób automatyczny, systematyczny, wiarygodny, tzn. dane o zdarzeniach są kompletne i wiarygodne. Pojęcia takie jak instancja procesu (przykład) i czynność są jednoznacznie interpretowane. Dzienniki zdarzeń tradycyjnego BPM/system przepływu pracy
Poziom 3 Zdarzenia są zapisywane w sposób automatyczny, nie jest jeszcze stosowane podejście systematyczne do zapisywania zdarzeń. Istnieje pewien poziom gwarancji, że zapisywane zdarzenia odpowiadają rzeczywistości (dziennik zdarzeń jest wiarygodny, ale niekoniecznie kompletny). Tabele baz danych systemów ERP, dzienniki zdarzeń systemów CRM, logi transakcyjne pochodzące z systemów do wysyłania i odbierania wiadomości, dzienniki zdarzeń systemów hightech, itd.
Poziom 2 Zdarzenia są zapisywane w sposób automatyczny w systemach informatycznych. Zakres danych o zdarzeniach nie jest zdefiniowany, tj. nie jest stosowane podejście systematyczne i nie wszystkie zdarzenia są zapisywane. Co więcej, możliwe jest obejście systemu informatycznego (nie zapisanie danych o zdarzeniu). Tym samym, może brakować zdarzeń w dzienniku lub zapis może być błędny. Dzienniki zdarzeń systemów zarządzania produktem, dane o błędnych logowaniach systemów wbudowanych, inżynierskie arkusze kalkulacyjne, itd.
Poziom 1 Najniższy poziom: dzienniki zdarzeń są słabej jakości. Dzienniki zdarzeń zapisywane ręcznie. Dokumenty papierowe, notatki, itd.

Można spotkać się z opinią, że process mining można wykonywać począwszy od danych dojrzałych na poziomie 3. Taka sugestia jest zawarta przykładowo w Process Mining Manifesto. Generalnie jest to prawda, aczkolwiek można pokusić się również o analizy process mining posiadając dane o niższym poziomie dojrzałości. Dane z poziomów 1 oraz 2 mogą zostać przetworzone tak, aby mogły być skutecznie wykorzystane w analizie. Można znaleźć również przykłady process mining realizowanego na całkowicie nieustrukturyzowanych danych np. nagraniach wideo. Jednak należy pamiętać że wykorzystanie danych o niskim stopniu dojrzałości wymaga starannej obróbki, jest czasochłonne i wiąże się z wyższym ryzykiem błędów.

Dojrzałość danych ma kluczowe znaczenie dla process mining

Tak jak pisaliśmy powyżej, podczas analiz procesowych jakość i dostępność danych ma kluczowe znaczenie, niestety jednak istnieje tendencja aby ignorować tę kwestię. Często odbiorcy analiz process mining oczekują przede wszystkim wyników – wizualizacji procesu, zestawień wyników, możliwości filtrowania itd. Zdarza im się patrzeć na dojrzałość danych jak na zagadnienie abstrakcyjne, które ma niewielkie praktyczne znaczenie. Dlatego właśnie tak ważne jest, aby od początku edukować odbiorców analiz w kwestii znaczenia dojrzałości danych. Owszem, ostatecznym celem są wyniki analiz, jednak fundamentem tych wyników są dobre jakościowo i dostępne dane i wszystkie strony zaangażowane w projekt powinny mieć tego świadomość.

Należy też mieć na uwadze, że osiągnięcie dojrzałość danych to nie jest jednorazowe wydarzenie. W toku rosnącej adopcji narzędzi process mining, należy oczekiwać, że prace analityczne związane z tworzeniem modeli procesu będą się przeplatać z inicjatywami mającymi na celu zwiększenie dojrzałości danych.

Jak mogą wyglądać takie inicjatywy mające na celu zwiększenie dojrzałości danych? Bardzo istotne jest już samo gromadzenie potrzebnych informacji. Wydaje się to trywialne, ale w praktyce nie jest już takie oczywiste. Obecnie wiele informacji w formie logów jest na bieżąco kasowane z systemów IT, więc warto się zastanowić, czy nie kasujemy wartościowych danych, które mogłyby nam pomóc w analizie i optymalizacji procesów. Pomocne może być również wprowadzenie spójnych kategorii. Z początku mogą to być bardzo proste zmiany jak modyfikacja formularzy do wprowadzania danych (np. pracownik, który musi wybrać informację z listy i nie może jej wpisać ręcznie). Finalnie powinno to być uwspólnienie ontologii, czyli zakresu pojęć stosowanych przez wszystkie systemy IT w firmie. Nie zawsze ingerencja w oprogramowanie jest możliwa, więc wtedy rozwiązaniem byłaby budowa systemu ETL, który integrowałby dane z różnych systemów do jednej wspólnej bazy, lub wielu baz, ale korzystających z tego samego zestawu nazw dla zdarzeń i ich parametrów. Istotne byłoby również wykorzystanie miar jakości danych (więcej o miarach jakości pisaliśmy m.in. tutaj: Jak działa automatyczne odkrywanie procesu w process mining?)

Inicjatywy data governance

W tym momencie można zauważyć, że dojrzałość danych na potrzeby process mining ma wiele wspólnego z obszarem data governance. Właściwie jest to pewien wycinek data governance skoncentrowany na szczególnym rodzaju danych oraz ich specyficznym zastosowaniu.

Mając na uwadze znaczenie data governance my jako 10 Senses zaangażowaliśmy się w działania polskiego oddziału Data Managers Association (DAMA). Jednym z kluczowych celów DAMA jest wzrost świadomości oraz podnoszenie standardów pracy z danymi. Działanie takie ma bezpośrednie przełożenie na obszar dojrzałości danych na potrzeby process mining.

Również w podobnym celu byliśmy współautorami publikacji Big Data w Polsce wydanej w marcu 2020 roku wspólnie z Fundacją Digital Poland oraz Platformą Przemysłu Przyszłości. Raport ten zawiera m.in. użyteczne informacje o tym jak mądrze pracować z danymi tak, aby móc je sprawnie wykorzystać w firmie. Zawiera również informacje o stopniu wykorzystania danych w polskich firmach na tle innych krajów Unii Europejskiej.

 

Jeżeli chcesz poprawić dojrzałość danych w swojej firmie na potrzeby analiz i optymalizacji procesów to zapraszamy do kontaktu.

 

Marek Zielinski on Linkedin
Marek Zielinski
Co-founder at 10 Senses
Helping you with Process mining, IoT and data
Łukasz Borowiecki on Linkedin
Łukasz Borowiecki
Co-founder and CEO at 10 Senses | AI Sector Expert at Digital Poland Foundation
Delivering value with data & AI

 


Bardzo możliwe, że ten artykuł podsunął pytania odnośnie narzędzi i analiz process mining. Jeżeli chciałbyś dowiedzieć się więcej skontaktuj się z nami lub przeczytaj inne nasze artykuły:
Dlaczego warto korzystać z process mining?
Czemu wiedza co to process pining okazuje się kluczowa dla biznesu?
Co to jest process mining?
Przykłady zastosowania process mining