Előrejelzés készítése Business Intelligence Development Studioval - screencast

Komplex adatbányászati feladatok megoldásához a Microsoft a Business Intelligence Development Studiot (BIDS) ajánlja. A BIDS a Visual Studio 2008 testreszabott változata, melyet az SQL Server 2008-cal együtt telepíthetünk akár a kiszolgálóra, akár munkaállomásra, és amely fel van készítve Analysis, Integration és Reporting Services projektek fejlesztésére.

Áttekintés

Egy Analysis Services Projectben az első lépés egy Data Source objektum létrehozása. A data source segítségével határozzuk meg azt az adatforrást, amellyel dolgozni fogunk, ehhez a varázslóban az adatok helyét és a kapcsolódáshoz használt felhasználói fiókot kell megadnunk. Az adatforrás bármilyen OLE DB-n vagy .NET-es adat szolgáltatón (provider) keresztül elérhető adatbázis lehet, tehát – a közhiedelemmel ellentétben – nem csak OLAP kockákon tudunk adatbányászati műveleteket végezni, hanem relációs adatokon, Access adatbázisokon vagy akár Excel munkalapokon is.

Az adatforrások komplex adatszerkezetek, melyeknek általában csak egy részhalmazára van szükségünk az adatbányászati feladatunk megoldásához. Azonosítanunk kell tehát azt a táblát, amely az elemzendő eseteket tartalmazza (case table), azon belül azokat a sorokat és oszlopokat, amelyek valóban relevánsak, továbbá azokat a kapcsolódó táblákat, melyek még szükségesek a probléma megoldásához. A teljes adatforrás egy részének ilyen formán történő kivágásához Data Source View (DSV) objektumot kell létrehoznunk. A DSV lehetőséget ad számított oszlopok definiálására is, így akár bővíthetjük is az adatszerkezetünket.

A bemeneti adatok meghatározása után a következő lépés a két legfontosabb objektum, a Mining Structure és azon belül a Mining Model létrehozása. A Mining Structure objektumban írjuk le, hogy a bemeneti adatokat hogyan kívánjuk használni: itt adjuk meg például az egyes oszlopok adattípusát (szám, szöveg, dátum stb.), a tárolt adatok típusát (folytonos, diszkrét stb.), eloszlását (normál, logaritmikus stb.) és célját (bemenet, jóslandó stb.). Mindezek a paraméterek jelentősen befolyásolják a választott algoritmus működését, melyet a struktúrához rendelt modellben határozunk meg és paraméterezünk fel.

Ha megvan a modell, be kell tanítanunk azt, amit a modell feldolgozásának (Process) is neveznek. Az SQL Server 2008 újdonsága, hogy nem kell külön tanító és tesztelő adatokat biztosítanunk, elég megadnunk, hogy a bemeneti adatok hány százalékát használja a rendszer tesztelésre – ez az ún. holdout és tipikusan 30%.

A betanított modell már használható, futtathatunk lekérdezéseket rajta. Előtte azonban célszerű megvizsgálni, hogy a modellünk mennyire sikerült jól. A modell pontosságának meghatározását a BIDS vizuális eszközökkel támogatja, Lift Chart, Profit Chart, Scatter Plots típusú diagramok és Classification Matrix áll rendelkezésünkre. További segítség az SQL Server 2008-ban bevezetett Cross Validation funkció, amely a tanító és tesztelő adathalmazok partícionálásával és forgatásával segíti a modell megbízhatóságának meghatározását.

Miután megbizonyosodtunk a modellünk helyességéről, bevethetjük éles használatra. Ennek legegyszerűbb változata, ha közvetlenül a BIDS eszközeivel végzünk lekérdezéseket a modellen. Hasonló grafikus eszközöket találunk a Management Studioban is, de akár Reporting Servicesből, Excelből és Visioból is kapcsolódhatunk a modellhez.

Első lépések

Célszerű letölteni a hivatalos AdventureWorks példa adatbázist és a hozzá tartozó Analysis Services projektet. Az SQL2008.AdventureWorks_DW_BI_v2008.x86.msi telepítése után a C:\Program Files\Microsoft SQL Server\100\Tools\Samples\AdventureWorks 2008 Analysis Services Project\enterprise\Adventure Works DW 2008.dwproj fájlra duplán kattintva megnyithatjuk azt BIDS-ben. Megnyitás után a Build à Deploy menüpontot választva telepíthetjük a projektet a helyi SSAS kiszolgálónkra és megnézhetjük a modellek eredményeit.

Jó tudni

Az AdventureWorks példa projekt a helyi SQL példány AdventureWorksDW2008 adatbázisát használja adatforrásként. A projektben bekonfigurált data source objektum Impersonation beállításai között az alapérték a Use the service account. Ez azt jelenti, hogy ha alapértelmezett beállításokkal telepítettük az Analysis Servicest és a Local Service felhasználó nevében fut a szolgáltatás, akkor a Local Service felhasználót be kell engednünk az SQL Server Database Engine AdventureWorksDW2008 adatbázisába, különben a projekt feldolgozásakor hibaüzenetet fogunk kapni.

Demó

A demóban az AdventureWorks példa adatbázisban található értékesítési adatok alapján határozzuk meg egy adott termék értékesítésének várható alakulását az elkövetkezendő időszakra. Ehhez létrehozunk egy új projektet a Business Intelligence Development Studioban, majd a Microsoft Time Series algoritmus felhasználásával építünk modellt az idősoros adatokra. A kész modellen a BIDS valamint az SQL Server Management Studio segítségével grafikusan, majd pedig parancssorból, Data Mining Extensions (DMX) nyelvű lekérdezéseket futtatunk. A videó a képre kattintva megtekinthető böngészőben vagy a kép alatti linkre kattintva letölthető:

Előrejelzés készítése Business Intelligence Development Studioval - screencast

Letöltés:

További információk


wmv Elorejelzes_keszitese_BIDS_segitsegevel_(Balassy_Gyorgy).wmv (132531 kB) Lejátszás böngészőben »

zip Elorejelzes_keszitese_BIDS_segitsegevel_demo.zip (17 kB)


Balássy György (MS RD, ASP.NET MVP, MCTS)

Balássy György (MS RD, ASP.NET MVP, MCTS) Villamosmérnök, a BME Automatizálási és Alkalmazott Informatikai Tanszékén webportálok fejlesztését oktatja. 2000 óta foglalkozik a Microsoft .NET platformjával, melynek meghonosításában jelentős szerepet vállalt előadóként, konzulensként és A .NET Framework és programozása című könyv társszerzőjeként. Az MSDN Kompetencia Központon belül a Portál Technológiák Csoport vezetője, szakterülete web alapú rendszerek fejlesztése és üzemeltetése. 2004-ben Magyarországon elsőként kapta meg a Most Valuable Professional címet, majd 2005 óta a Microsoft magyarországi regionális igazgatója. Publikációi a Technet Magazinban, az MSDN Kompetencia Központ honlapján és szakmai blogjában olvashatóak.

2008.11.11. 10:09:24 | Permalink | Hozzászólások: 0 | Tárgyszavak: ,


  • Dual boot VHD-ból

    Balássy György (MS RD, ASP.NET MVP, MCTS) Új gépet telepítek és azt találtam ki, hogy lesz rajta egyszerre egy Windows 7 és egy Windows Server 2008 R2 is. A Windows 7 fog a C: meghajtóról bootolni és a hozzá tartozó összes adat a W: meghajtón lesz. A Windows Server 2008 R2-t VHD-be telepítem, amit szintén a W: meghajtón fogok elhelyezni. Már jó ideje nem használtam dual bootot, mert zavart a sok partíció, de most úgy döntöttem, adok egy esélyt a VHD bootnak. Meglepett, hogy mennyire egyszerű mindezt összehozni. Tovább »
  • IEnumerable.Dump()

    Balássy György (MS RD, ASP.NET MVP, MCTS) Épp az egyik új tárgyunkhoz írok jegyzetet és példakódot LINQ to XML témában és felmerült, hogy kellene egy kényelmesen használható Dump metódus gyűjtemények elemeinek konzolra írásához. Tovább »


Írja meg Ön is véleményét!


Hozzászólásokat csak regisztrált, bejelentkezett felhasználóktól tudunk elfogadni!

Hozzászólások