exploracja, WYKŁADY INFORMATYKA BIZNES UCZELNIA WARSZAWSKA WSDG, Eksploracja danych - modele eksploracji danych

[ Pobierz całość w formacie PDF ]
V Konferencja PLOUG
Zakopane
Październik 1999
Eksploracja danych: problemy i rozwiązania
Tadeusz Morzy
morzy@put.poznan.pl
Instytut Informatyki
Politechnika Poznańska
Streszczenie
Artykuł zawiera krótką genezę i opis aktualnego stanu rozwoju ważnej i bardzo intensywnie rozwijanej
w ostatnim czasie dziedziny eksploracji danych. Artykuł zawiera krótki przegląd metod eksploracji danych,
związków eksploracji danych z magazynami i systemami baz danych, oraz prezentuje możliwe dziedziny
zastosowań technik eksploracji danych.
1. Wstęp
Eksploracja danych
(ang. data mining), nazywana często potocznie
odkrywaniem wiedzy w bazach
danych
(ang. knowledge discovery in databases), jest jedną z najdynamiczniej i najintensywniej
rozwijanych dziedzin informatyki w ostatnim czasie. Integruje wiele dyscyplin takich jak:
statystyka, systemy baz danych, sztuczna inteligencja, optymalizacja, obliczenia równoległe.
Olbrzymie zainteresowanie eksploracją danych wynika z faktu, że szereg przedsiębiorstw,
instytucji administracji publicznej czy wreszcie ośrodków naukowych nagromadziło w ostatnim
czasie bardzo wiele danych przechowywanych w zakładowych bazach danych i stanęło przed
problemem, w jaki sposób efektywnie i racjonalnie wykorzystać nagromadzoną w tych bazach
wiedzę dla celów wspomagania swojej działalności biznesowej.
Tradycyjny sposób korzystania z baz danych sprowadza się, najczęściej, do realizacji zapytań
poprzez aplikacje lub raporty. Sposób w jaki użytkownik korzysta z bazy danych (w jaki realizuje
do niej dostęp) nazywamy
modelem przetwarzania
. Tradycyjny model przetwarzania –
„przetwarzanie transakcji w trybie on-line
” (ang. on line transaction processing OLTP) jest w pełni
satysfakcjonujący w przypadku bieżącej obsługi działalności danej firmy, dla dobrze
zdefiniowanych procesów (obsługa klienta w banku, rejestracja zamówień, obsługa sprzedaży,
itp.). Niestety, ten klasyczny model przetwarzania danych nie wspomaga procesów analizy danych
oraz aplikacji wspomagających podejmowanie decyzji.
Szereg przedsiębiorstw dysponuje olbrzymimi bazami danych.
Dysponując danymi w bazie danych
opisującymi działalność dużego supermarketu w dłuższym przedziale czasu (sprzedaż produktów,
zamówienia, stan rezerw) możemy postawić szereg pytań:
W jaki sposób wykorzystać przechowywane dane do usprawnienia funkcjonowania firmy? Jakie
czynniki kształtują taki a nie inny popyt na produkty? Czym różnią się klienci supermarketu w
Poznaniu i Warszawie? Jakie produkty kupują klienci supermarketu najczęściej wraz z winem?
Jakie oddziały supermarketu miały „anormalną” sprzedaż w pierwszym kwartale 1999 r? Czy
można przewidzieć przyszłe zachowania klientów? Dane przechowywane w bazie danych
zawierają w sobie potencjalnie olbrzymią wiedzę o otaczającym świecie.
Niestety, ciągle jeszcze niedostatecznie umiemy dokonać analizy tych danych i uzyskać dostęp do
zawartej w nich wiedzy. Istniejące interfejsy pomiędzy użytkownikami baz danych a bazami
danych ciągle jeszcze nie wspomagają w dostatecznym stopniu nawigowania, podsumowywania,
analizy czy modelowania bardzo dużych baz danych. Opracowanie i dostarczenie użytkownikom
nowych interfejsów wspomagających wymienione wyżej funkcje jest zadaniem i celem badań
prowadzonych w zakresie systemów magazynów i eksploracji danych.
2. OLAP – weryfikacja hipotez
Komercyjnie dostępne systemy transakcyjne (systemy zarządzania bazami danych SZBD)
dostarczają efektywnych rozwiązań dla takich problemów jak: efektywne i bezpieczne
przechowywanie danych, transakcyjne odtwarzanie danych, dostępność danych, optymalizacja
dostępu do danych, zarządzanie współbieżnością. W znacznie mniejszym stopniu systemy te
wspomagają operacje agregacji danych, wykonywania pewnych podsumowań czy też
optymalizacji złożonych zapytań formułowanych ad hoc. W ostatnim czasie prace badawcze i
rozwojowe prowadzone nad rozszerzeniem funkcjonalności systemów baz danych doprowadziły
do opracowania nowego modelu przetwarzania danych, którego podstawowym celem jest
wspomaganie procesów podejmowania decyzji, oraz opracowania nowego typu relacyjnej bazy
danych nazwanego
magazynem
danych
(ang. data warehouse).
2
Nowy model przetwarzania danych, nazwany „
przetwarzaniem analitycznym on-line
” (ang. On
Line Analytical Processing OLAP), ma za zadanie wspieranie procesów analizy magazynów
danych dostarczając narzędzi umożliwiających analizę magazynu w wielu „wymiarach”
definiowanych przez użytkowników (czas, miejsce, klasyfikacja produktów, itp.). Analiza
magazynu polega na obliczaniu agregatów dla zadanych „wymiarów” magazynu. Należy
podkreślić, że proces analizy jest całkowicie sterowany przez użytkownika. Mówimy czasami o
analizie danych sterowanej zapytaniami
(ang. query-driven exploration). Typowym przykładem
takiej analizy jest zapytanie o sprzedaż produktów w supermarkecie w kolejnych kwartałach,
miesiącach, tygodniach, itp., zapytanie o sprzedaż produktów z podziałem na rodzaje produktów
(AGD, produkty spożywcze, kosmetyki, itp.), czy wreszcie zapytanie o sprzedaż produktów z
podziałem na oddziały supermarketu. Odpowiedzi na powyższe zapytania umożliwiają decydentom
określenie wąskich gardeł sprzedaży, produktów przynoszących deficyt, itp., oraz podjęcie
odpowiednich działań poprawiających sytuację.
3. Eksploracja danych – odkrywanie hipotez
Analiza danych w magazynie danych, zgodnie z modelem OLAP, jest sterowana całkowicie przez
analityka. Analityk formułuje zapytania i dokonuje analizy danych zawartych w magazynie. Z tego
punktu widzenia, OLAP można interpretować jako rozszerzenie standardu SQL o możliwości
efektywnego przetwarzania złożonych zapytań zawierających agregaty.
W przeciwieństwie do technologii OLAP, technologia eksploracji danych umożliwia automatyczną
analizę i eksploracje danych.
Problem eksploracji danych polega na efektywnym znajdowaniu
nieznanych dotychczas zależności i związków pomiędzy danymi
. Automatyczna eksploracja
danych otwiera nowe możliwości w zakresie interakcji użytkownika z systemem bazy danych (lub
magazynem danych). Przede wszystkim umożliwia formułowanie zapytań na znacznie wyższym
poziomie abstrakcji aniżeli pozwala na to standard SQL. Analiza danych sterowana zapytaniami,
charakterystyczna dla technologii OLAP, zakłada, że użytkownik, po pierwsze, posiada pełną
wiedzę o przedmiocie analizy, i, po drugie, potrafi sterować tym procesem. Eksploracja danych
umożliwia analizę danych dla problemów, które ze względu na swój rozmiar są trudne do
przeprowadzenia przez człowieka oraz tych problemów, dla których nie dysponujemy pełną wiedzą
– tę wiedzę chcemy wydobyć z danych.
To drugie zagadnienie wiąże się bezpośrednio z
problemem formułowania zapytań
: w jaki sposób
uzyskać dostęp do danych w przypadku kiedy nie potrafimy sformułować zapytania w terminach
języka dostępu do bazy danych? Jest to typowa sytuacja w systemach wspomagania podejmowania
decyzji. Przykładowo, w jaki sposób zidentyfikować rekordy w bazie danych firmy
telekomunikacyjnej, które odpowiadają „fałszywym” połączeniom? Podobnie, w przypadku kart
kredytowych interesuje nas wykrycie kradzieży tych kart i ich niestandardowe wykorzystanie. W
przypadku analizy danych naukowych uzyskanych z dużej liczby eksperymentów interesuje nas
wykrycie ciekawych przypadków. Oczywiście, można analizować rekord po rekordzie w bazie
danych rozpatrując oddzielnie każdy przypadek; podejście takie jest jednak mało realistyczne w
przypadku giga i tera bajtowych baz danych. Z drugiej strony, bardzo trudno sformułować
zapytanie w języku SQL, lub nawet zdefiniować procedurę składowaną, które umożliwiłoby
przeprowadzenie takiej analizy.
4. Metody eksploracji danych
Jak już wspomnieliśmy na wstępie termin eksploracja danych jest często używany jako synonim
procesu odkrywania wiedzy w bazach danych. W literaturze czasami jednak rozróżnia się te dwa
pojęcia. Zgodnie z definicją [2] termin odkrywanie wiedzy odnosi się do całego procesu, natomiast
eksploracja danych stanowi tylko jeden z etapów tego procesu odnoszący się do generowania reguł.
3
Pozostałe etapy procesu odnoszą się do przygotowania danych, wyboru danych do eksploracji,
czyszczenia danych, definiowania dodatkowej wiedzy przedmiotowej, interpretacji wyników
eksploracji i ich wizualizacji.
Metody eksploracji danych można podzielić, bardzo ogólnie, na 6 zasadniczych klas.

Odkrywanie asocjacji
Najszersza klasa metod obejmująca, najogólniej, odkrywanie różnego rodzaju nieznanych
zależności w bazie danych. Metody te obejmują głównie odkrywanie asocjacji pomiędzy
obiektami. Generalnie, odkrywane zależności posiadają pewne miary statystyczne określające
ich wsparcie i ufność.

Klastrowanie
Celem tych metod jest znajdowanie skończonego zbioru klas obiektów (klastrów) w bazie
danych posiadających podobne cechy. Liczba klastrów jest nieznana, stąd, proces klastrowania
przebiega, najczęściej, w dwóch cyklach: cykl zewnętrzny przebiega po liczbie możliwych
klastrów, cykl wewnętrzny próbuje znaleźć optymalny podział obiektów pomiędzy klastry.

Odkrywanie wzorców sekwencji
Odkrywanie czasowych wzorców zachowań, np. znajdowanie sekwencji notowań giełdowych,
zachowań klientów ubezpieczalni, klientów supermarketów.

Odkrywanie klasyfikacji
Celem tych metod jest znajdowanie zależności pomiędzy klasyfikacją obiektów (klasyfikacja
naturalna bądź wprowadzona przez eksperta) a ich charakterystyką. Zastosowanie:
charakterystyka pacjentów, klientów kart kredytowych, pożyczkobiorców.

Odkrywanie podobieństw w przebiegach czasowych
Znajdowanie podobieństw w przebiegach czasowych opisujących określone procesy.

Wykrywanie zmian i odchyleń
Znajdowanie różnic pomiędzy aktualnymi a oczekiwanymi wartościami danych: znajdowanie
anomalnych zachowań klientów ubezpieczalni, klientów kart kredytowych, klientów firm
telekomunikacyjnych.
5. Odkrywanie asocjacji
Dane:

I={i1, i2, ..., in} – zbiór obiektów

Transakcja T: zbiór obiektów takich, że T

I

Baza danych D: zbiór transakcji

Transakcja T zawiera X, gdzie X

I, jeżeli X

T

Reguła asocjacyjna: implikacja postaci X

Y, gdzie X, Y

I

Y posiada zaufanie c% w bazie danych D jeżeli c% transakcji, należących do D i
zawierających X zawiera również Y.


Reguła X

Y posiada wsparcie s w bazie danych D jeżeli s% transakcji należących do D
zawiera X

Y.
Sformułowanie problemu:
Znajdź wszystkie reguły asocjacyjne w D, których wsparcie s > minsup, i
zaufanie c > minconf, gdzie minsup i minconf wartości zadane przez
użytkownika.
4
Reguła X
Przykład:
Transakcja
Obiekty
100
A, B, C
200
A, C
300
A, D
400
B, E, F
Dla minsup=50% i minconf=50% następujące reguły asocjacyjne są prawdziwe:
A

C, reguła posiada 50% wsparcie i 66.6% zaufanie
C

A, reguła posiada 50% wsparcie i 100% zaufanie
Zastosowania
: analiza koszyka zakupów, bezpośredni marketing,
Obiekty mogą tworzyć hierarchie:
produkty
AGD
Produkty spoż Odzież
spodnie
buty
Reguły asocjacyjne uwzględniające hierarchie obiektów nazywamy
uogólnionymi regułami
asocjacyjnymi:
spodnie

AGD
Reguły asocjacyjne odkrywane z danych zarówno numerycznych jak i symbolicznych nazywamy
ilościowymi regułami asocjacyjnymi.
ID
Wiek
Zarobek
Status małż.
Ilość samoch.
100
44
1000 Żonaty
2
101
55
2000 Żonaty
3
Przykład ilościowej reguły asocjacyjnej:
10% żonatych mężczyzn w wieku 40 – 60 posiada co najmniej dwa samochody w rodzinie
6. Odkrywanie wzorców sekwencji
Dane:

I={i1, i2, ..., in} – zbiór obiektów

Transakcja T: zbiór obiektów takich, że T

I

Sekwencja: lista transakcji pojedynczego klienta

Baza danych sekwencji D: zbiór sekwencji
5
[ Pobierz całość w formacie PDF ]

  • zanotowane.pl
  • doc.pisz.pl
  • pdf.pisz.pl
  • materaceopole.pev.pl






  • Formularz

    POst

    Post*

    **Add some explanations if needed