מחסן נתונים Data Warehouse

מילון מונחים מקומי

 

DW (Data Warehouse)

ETT / ETL

HOLAP

Meta-data

MOLAP

ODS

OLAP

ROLAP

STA (Staging Area)

VLDB (Very Large Data Bases)

טבלאות סיכום (Summarized Tables)

כריית מידע - Data Mining

ממדים (Dimensions)

מסדי נתונים רב ממדיים

מערך  הפצה (Repository)

סכימת כוכב  (Star Schema)

 

 

DW (Data Warehouse)

סביבת מחשוב מיוחדת לניהול נתונים המיועדים לתמיכה בתהליכי קבלת החלטות. סביבה זו מבוססת על מגוון טכנולוגיות מחשוב מודרניות המסוגלות לנהל נפחי נתונים גדולים ולהעמיד את הנתונים לרשות קהל מגוון של מקבלי החלטות.

 

ETT / ETL  

המונח ETT / ETL  (Extraction, Transformation & Transport / Load)מציין את אחד השלבים המרכזיים בהקמת מחסן הנתונים. שלב זה כולל גזירה של הנתונים מהמערכות התפעוליות, עיבודם, טיובם וטעינתם לבסיס המידע של מחסן הנתונים. כלי הגזירה מאפשרים לבנות תרשימי זרימה לגזירות טבלאות ממערכות חיצוניות רבות למערכת אחת או לגזור מטבלה אחת ולטעון למערכות וטבלאות רבות. באמצעותו נגזרים הנתונים אל מבנה Star Schema. במקרים של מספר מקורות מידע עשוי שלב זה לכלול גם פעילות התאמה של קודים מהמערכות הישנות למילון הנתונים המרכזי של המערכת החדשה.

 

HOLAP

ראה תחילה הערך OLAPHOLAP (Hybrid OLAP) הוא שילוב של MOLAP ו- ROLAP הנעשה ע"י תוכנה. התוכנה מאפשרת התחלת החקירה בקוביה רב ממדית ומעבר חלק (ללא צורך בהגדרות מיוחדות) אל בסיס הנתונים היחסי (טבלאי, רלציוני) של מחסן הנתונים.

 

Meta-data

מידע אודות המידע, כולל את כלל הנתונים הפיסיים והלוגיים של מחסן הנתונים. למשל, מבנה הנתונים במחסן הנתונים, תאור מקורות המידע החיצוניים, מילון הנתונים כפי שהוא מוצג למשתמש וכל מידע אחר החשוב למשתמשי המערכת או מפתחיה. יש לשים דגש על איסוף ורישום מידע לוגי לגבי חוקים עסקיים של הארגון אשר משפיעים על מחסן הנתונים.

 

MOLAP

ראה תחילה הערך OLAPMOLAP (Multidimensional OLAP) היא שיטה לאיסוף, מימוש פיסי והחזקה של נתונים במבנה של בסיס נתונים רב ממדי. שיטה זו מאפשרת צבירה מראש של הנתונים והכנה שלהם באמצעות מבנה קנייני ייחודי לאחסון נתוני הקוביות, כך שזמן הגישה וההצגה של הנתונים מתקצרת ביותר. חיסרון השיטה הוא בצורך לטעון ולחשב את כלל הנתונים בקוביה מראש, ובחוסר גמישות של משתמש הקצה.

 

ODS

ODS (Operational Data Store) הוא מאגר נתונים תפעולי. מאגר נתונים זה דומה באפיונים שלו לאפיוני מחסן הנתונים, אולם הוא מכיל נתונים הנדרשים על ידי המערכות התפעוליות ולכן מכיל נתונים עדכניים יותר והעומק ההיסטורי שלו קטן יותר.

 

OLAP

המונח OLAP ((On-Line Analytical Processing הוטבע ב- 1993  ע"י  E. F. Codd, אבי בסיסי הנתונים היחסיים, והוא מתייחס לתחום מסדי הנתונים הרב ממדיים. קוד עצמו מציין כי בסיסי הנתונים היחסיים אינם מספקים את הפונקציונליות לניתוח וקיבוץ מידע המתאימה לאופן החשיבה של מנהלים. תכונות אלה מובנות בבסיס הנתונים הרב-ממדי ובמערכות ה- OLAP המממשות אותו. מערכות OLAP מספקות פתרונות לצורכי המידע הניהולי והן משלבות יכולות אנליטיות לאחזור המידע.

 

ROLAP  

ראה תחילה הערך OLAPROLAP (Relational OLAP) היא שיטה לאיסוף, מימוש פיסי והחזקה של נתונים של מחסן הנתונים במבנה של בסיס נתונים טבלאי. בשיטה זו מוחזקים הנתונים בטבלאות שטוחות "רגילות". טבלאות יחסיות אלו משמשות לאיסוף נתונים ברמות הבסיסיות שלהם ולאיסוף נתונים לטבלאות מסוכמות. יש שיטות שונות לאחזקת הנתונים בטבלאות יחסיות, לדוגמת סכימת כוכב.

חיסרון השיטה הינו באורך זמן התגובה בזמן אחזור מידע. היתרון – בגמישות ההפעלה.

 

STA (Staging Area)

"שטח הקבלה והמיון" של הנתונים לפני טעינתם למחסן הנתונים. בשטח זה יעשה טיוב הנתונים, ארגונם, מיונם וסיכומם.

 

VLDB (Very Large Data Bases)

בסיסי נתונים גדולים מאד, האופייניים למערכות מחסן נתונים.

 

טבלאות סיכום (Summarized Tables)

אמצעי לשיפור ביצועים של מחסני נתונים גדולים. למבנה Star Schema מוסיפים טבלאות סיכום המכילות נתונים מסוכמים לפי ממדים שונים וברמות היררכיה שונות. באופן זה מבטיחים זמני תגובה טובים במחיר של שטחי אחסון גבוהים וזמני טעינה ארוכים.

 

כריית מידע - Data Mining

תהליך ניתוח סטטיסטי אוטומטי של מאגרי מידע גדולים ומורכבים, המיועד לחשוף תבניות ומגמות אותן לא ניתן היה לגלות בדרך אחרת. כריית המידע מתאפשרת לאחר הקמת מערכת מחסן הנתונים. כלי כריית מידע מכילים יכולות סטטיסטיות ומתמטיות מורכבות המסייעות בתהליך הניתוח. שימושים אופייניים של כלים אלו הנם זיהוי מקרי הונאה (fraud detection), איתור סלי צריכה (market basket analysis), זיהוי פרופילים (clustering) וחיזוי נטישה. רוב הכלים מתבססים על עצי החלטה, רשתות נוירונים וסגמנטציה.

 

ממדים (Dimensions)

ממדים הם מבני נתונים המאפשרים לתחקר את בסיס הנתונים הרב ממדי באספקטים שונים. ממדים נפוצים הם מוצר, אזור וזמן (נהוג לומר שאים מחסן נתונים ללא ממד הזמן). האיור להלן מראה את הממדים ביחס לקוביית הנתונים :

הממדים הנם היררכיים ומורכבים ממספר רמות. ממד הזמן, לדוגמה, יורכב משבועות, חודשים, רבעונים ושנים. ניתוח הנתונים מתחיל בד"כ ברמות ההיררכיה הגבוהות, ויורד פנימה. פעולה זו נקראת Drill Down . הפעולה ההפוכה - עלייה בהיררכית הממד - נקראת Drill Up.

מסדי נתונים רב ממדיים

מסדי נתונים רב ממדיים (MDDB - Multidimensional Databases) היא ארכיטקטורה לארגון המידע במבנים רב-ממדיים. בארכיטקטורה הרב-ממדית, בניגוד ליחסית, אין מדברים על טבלאות, עמודות ושורות. הנתונים מאוחסנים בקוביות בעלות ממדים שונים, כאשר האלמנט הקטן ביותר הוא "תא" בקוביה, המוגדר ע"י קואורדינטות במספר ממדים. בסיס נתונים רב ממדי יכול להכיל מספר קוביות, שחלק מהממדים שלהן יכולים להיות משותפים, והוא מאפשר  ל"סובב" את  הקוביה ולהציג כל חתך דו-ממדי במרחב הרב-ממדי.

 

מערך  הפצה (Repository)

מערך ההפצה של מחסן הנתונים. זהו החלק במחסן הנתונים המשמש להפצת התורים השונים של אחזורי המידע למשתמשים בכפוף למגבלות אבטחת מידע של הארגון והמערכת.

 

סכימת כוכב  (Star Schema)

זו השיטה הקלאסית לעיצוב בסיס נתונים המהווה בסיס למחסן נתונים. סכימת כוכב מהווה הפשטה של המודל היחסי: במרכז הסכימה עומדת טבלה מרכזית (או כמה טבלאות), המכונה Fact Table ובה מאוחסנים הנתונים הכמותיים הנקראים measures. בנוסף, מוגדרות טבלאות קטנות יותר, עבור כל אחד מהממדים במערכת המכונות Dimensions, המכילות את כל הערכים האפשריים לממד (בדומה לטבלאות קודים במבנה היחסי). המטרה במבנה זה היא לצמצם ככל הניתן את הצורך בפעולת Join בין טבלאות רבות. בכל פעולת שליפה ניגשים ראשית לטבלאות הממדים, שולפים חלק מן הנתונים ומשם ניגשים לטבלה המרכזית. באופן זה מתאפשר מימוש בסיסי נתונים גדולים, לעתים של מיליוני רשומות, בזמני שליפה סבירים.  חשוב להדגיש כי שיטה זו מבוססת על דה-נרמול של הנתונים הן בטבלאות הממדים והן בטבלה המרכזית. מודלים נוספים מתוארים בפרק עיצוב בסיס הנתונים.

תוצרים

שם התוצר עבודה לימוד