องค์ประกอบของสถาปัตยกรรมของคลังข้อมูล ประกอบไปด้วย 4 ส่วนหลัก ๆ ได้แก่
1. แหล่งข้อมูล (Source
Data Systems) เป็นการรวบรวมข้อมูลจากหลายแหล่ง
หลายรูปแบบทั้งภายในและภายนอกองค์กร
2.
ส่วนเก็บข้อมูล (Data Staging Area (Operational Data Store) เป็นส่วนการทำความสะอาดข้อมูล (data
cleansing) โดยการดำเนินการที่เรียกว่า ETL (ย่อมาจาก
Extract, transform, and load คือการดึงข้อมูลจาก Data
Source ต่างๆ เข้าสู่ Data Warehouse)
3.
ข้อมูลเมทาดาตา (Data & Meta Data Storage Area) เป็นข้อมูล เพื่ออธิบายข้อมูล
4. เครื่องมือช่วยในการแสดงผล
(End-User Presentation Tools) เป็นเครื่องมือการแสดงผลในรูปแบบต่างๆ
หลายมิติเพื่อสนับสนุนการตัดสินใจ เช่น Ad-hoc query , report writers ,
modeling/data moning , Visualization tool เป็นต้น
โดยแต่ละส่วนมีรายละเอียดดังต่อไปนี้
1.แหล่งข้อมูล
(Source Data Systems) เป็นการเตรียมข้อมูลก่อนนำเข้าสู่คลังข้อมูล (pre-data warehouse) โดยการรวบรวมข้อมูล (data gathering) จากฐานข้อมูลหลายแหล่งหลากหลายรูปแบบเพื่อใช้ประกอบการตัดสินใจและการดำเนินการทาง
ประกอบด้วย 4 แหล่งได้แก่
1) ข้อมูลระดับปฏิบัติการ เป็นการเก็บเฉพาะส่วนที่นำมาใช้เชิงวิเคราะห์หรือเชิงตัดสินใจมากกว่าการเก็บข้อมูลเพื่อตอบคำถาม เช่น การสั่งซื้อสินค้า การทำธุรกรรมกับธนาคาร
2) ข้อมูลที่ได้จากแหล่งข้อมูลภายใน (Internal) มีแหล่งกำเนิดมาจากการปฏิบัติงานภายในองค์กรหรือได้จากเครือข่ายอินทราเน็ต
(intranet) เป็นข้อมูลที่เกี่ยวข้องกับ บุคคล ผลิตภัณฑ์ บริการ และกระบวนการต่างๆ
เช่น ข้อมูลบัญชีเงินเดือน ข้อมูลด้านการตลาด
3) ข้อมูลที่ได้จากแหล่งข้อมูลภายนอก (External) มาจากข้อมูลภายนอกอีกทีหนึ่งหรือได้จากเครือข่ายอินเทอร์เน็ต
(internet) เช่น ข้อกำหนด/นโยบายของรัฐบาล ข้อมูลด้านอุตสาหกรรม
และต้องเป็นประโยชน์เพื่อการตัดสินใจขององค์กรเท่านั้น
4) ข้อมูลในอดีต จะเก็บย้อนหลังเป็นเวลาหลายๆ ปี เพื่อจะได้นำไปวิเคราะห์เปรียบเทียบหาแนวโน้มของข้อมูลเปรียบเทียบกับปีที่ผ่านมา
สำหรับการวางแผนในอนาคต
2. ส่วนเก็บข้อมูล (Data Staging Area (Operational Data
Store)
การจัดเก็บข้อมูล
(data storage) เป็นการเก็บข้อมูลจากแหล่งต่างๆ เพื่อเข้าสู่ที่พักข้อมูล (data
storage area)
โดยการตรวจสอบความถูกต้องสอดคล้องกันระหว่างข้อมูลก่อนที่จะจัดเก็บลฐานข้อมูลของคลังข้อมูล
หรือฐานข้อมูลหลายมิติ รวมถึงดาตามาร์ต
กระบวนการต่างๆ
ที่เกิดขึ้นภายในที่พักข้อมูล ที่พักข้อมูล
(data staging area) ซึ่งเกี่ยวข้องกับการเคลื่อนย้ายข้อมูลจากต้นทาง
(source) คือ แหล่งข้อมูล ไปยังปลายทาง (destination) ก็คือ คลังข้อมูล กระบวนการในลักษณะนี้เรียกว่า กระบวนการอีทีแอล
ซึ่ง ETL ย่อมาจาก Extract, transform, and load คือการดึงข้อมูลจาก Data Source ต่างๆ เข้าสู่ Data
Warehouse
แบ่งเป็น
3 ขั้นตอนหลักดังนี้
1)
Extract คือ
การดึงข้อมูลจากแหล่งข้อมูลที่แตกต่างกัน
2)
Transform คือ
การนำข้อมูลที่ได้มาจากการ Extract มาจัดรูปแบบให้ถูกต้องสอดคล้องกัน
เช่น
• Data Mapping การทำให้ข้อมูลที่มีความหมายเดียวกันแต่อยู่ในรูปแบบที่แตกต่างกันให้อยู่ในรูปแบบเดียวกัน
• Data Cleansing การตรวจสอบและแก้ไขข้อมูลให้ถูกต้อง
3)
Load คือ
การนำข้อมูลที่ผ่านการ Transform แล้ว เข้าสู่ Data
Warehouse
ส่วนที่จัดเก็บข้อมูลปฏิบัติการหรือโอดีเอส(Operational Data
Stores - ODS) คือฐานข้อมูลสำหรับระบบประมวลผลรายการธุรกรรมหรือทีพีเอส
(Transaction Processing Systems – TPS) ซึ่งใช้แนวคิดของคลังข้อมูล
สำหรับทำความสะอาดข้อมูล (clean data) เพื่อให้มีความถูกต้องตรงกัน(consistency)
โดยนำเอาแนวคิดและประโยชน์ของคลังข้อมูลมาใช้ในการดำเนินการของธุรกิจ
ด้วยต้นทุนที่ต่ำกว่าของโอดีเอส (ODS) จึงถูกนำมาใช้สำหรับการตัดสินใจในระยะสั้นที่เกี่ยวกับแอปพลิเคชันซึ่งเป็นภารกิจหลักขององค์กร
(mission-critical application) มากกว่าที่จะใช้สำหรับการตัดสินใจในระยะกลางถึงระยะยาวเหมือนของคลังข้อมูล
ซึ่งการตัดสินใจเหล่านั้นขึ้นอยู่กับข้อมูลที่เป็นปัจจุบันมากกว่า
ส่วนดาตามาร์ต (data mart) คือคลังข้อมูลขนาดเล็กที่มีลักษณะเจาะจง
มีลักษณะเป็นรูปแบบง่ายๆของคลังข้อมูล มุ่งเน้นเจาะจงไปเรื่องเดียว (single
subject) หรือมุ่งเน้นตามลักษณะงาน (functional area ) เช่น งานขาย งานการเงิน เป้นต้น
3. ข้อมูลเมทาดาตา (Data & Meta Data Storage Area)
เมทาดาตา (metadata) ของคลังข้อมูล
เป็นข้อมูลที่ใช้อธิบายข้อมูล รวมถึงกฎเกณฑ์ทางธุรกิจที่มาของแหล่งข้อมูล
กฎเกณฑ์การแปลงข้อมูล การกำหนดสิทธิในการเข้าถึงข้อมูล
ทั้งนี้นับเป็นส่วนหนึ่งของสารสนเทศที่จัดเก็บโดยมีวัตถุประสงค์โดยเฉพาะ
โดยจัดเก็บสารสนเทศต่างๆ ที่จำเป็นสำหรับการควบคุมการทำงานและควบคุมข้อมูลในคลังข้อมูล
ได้แก่
สารสนเทศของเนื้อหาในคลังข้อมูล
เช่น รูปแบบของข้อมูล ประเภทของข้อมูล สถานที่จัดเก็บข้อมูล และโครงสร้าง เป็นต้น
สารสนเทศของกระบวนการที่เกิดขึ้นในคลังข้อมูล
เช่น ประวัติการสร้าง / ปรับปรุง / ลบ / คัดลอก /
โอนย้ายข้อมูล การทำให้ข้อมูลทันสมัย เป็นต้น
สารสนเทศของข้อมูลในองค์กร
เพื่อช่วยให้ผู้ใช้งานสามารถใช้ข้อมูลในคลังข้อมูลได้ง่ายขึ้น
สารสนเทศของโครงสร้างพื้นฐานและลักษณะทางกายภาพขององค์ประกอบและแหล่งข้อมูลของคลังข้อมูล
สารสนเทศที่รวมถึงความปลอดภัยแฟ้มข้อมูล
ความปลอดภัยของระบบ ความถูกต้องและความสัมพันธ์กับการจัดทำในครั้งก่อนหรือรุ่น (version) การพิสูจน์ตัวตน
และสถิติต่างๆ ที่ช่วยให้ผู้ดูแลระบบสามารถดำเนินงานได้อย่างมีประสิทธิภาพ
4. เครื่องมือช่วยในการแสดงผล (End-User Presentation Tools)
การนำข้อมูลในคลังข้อมูลไปใช้ประโยชน์
ได้แก่ การวิเคราะห์ข้อมูลจากลังข้อมูลในรูปแบบต่างๆ เครื่องมือช่วยในการแสดงผล มี
3 รูปแบบ
ได้แก่
1) การประมวลผลเชิงวิเคราะห์ออนไลน์หรือโอแลป
(On-Line Analytical Processing – OLAP) เป็นกระบวนการที่ใช้กับการวิเคราะห์ข้อมูลโดยข้อมูลจะเก็บไว้ในฐานข้อมูลที่เป็นแบบจำลองหลายมิติ
(dimension modelling) และสามารถแบ่งออกเป็น 3 ประเภท ได้แก่
- โอแลปแบบเชิงสัมพันธ์ (Relational
OLAP – ROLAP)
- โอแลปแบบหลายมิติ
(Multidimensional OLAP – MOLAP)
- โอแลปแบบผสม
(Hybrid OLAP – HOLAP)
สำหรับคุณลักษณะของโอแลป
เพื่อทำให้การสนับสนุนการตัดสินใจเป็นไปอย่างมีประสิทธิภาพเครื่องมือโอแลปจึงต้องรูปแบบในการเข้าถึงข้อมูล
สำหรับการงานในการวิเคราะห์ข้อมูลแบบหลายมิติ (multidimensional) เช่น การแสดงข้อมูลกราฟิก 3 มิติ การทำรายงาน
การรวมข้อมูล (data aggregation) การคำนวณจากตัวแปรต่างๆ
ทางธุรกิจ รูปแบบของข้อมูล สนับสนุนคำถามประเภท “What-If”
ประเภทของ
Front-End Tools ที่ใช้ในการวิเคราะห์ข้อมูล ได้แก่
-
Ad-hoc Query Tools
-
Report Writer
-
End-User Applications
- Visualization Tools
2) การทำเหมืองข้อมูล
เป็นกระบวนการคัดแยกข้อมูล (extract data) จากฐานข้อมูลขนาดใหญ่เพื่อให้ได้ข้อมูลที่เกิดประโยชน์
โดยเป็นข้อมูลที่มีเหตุผลและหลักฐานที่เชื่อถือได้ หรือสร้างความรู้ใหม่ (discovered
knowledge) เทคนิคการทำเหมืองข้อมูลมี 4 เทคนิค
ดังนี้
- Classification และ
Prediction
- Clustering หรือ Segmentation
- Association rule discovery
- Deviation detection
ประเภทของ Front-End Tools ที่ใช้ในการวิเคราะห์ข้อมูล ได้แก่
-Modeling/Mining
Tools
-Visualization
Tools
3) การสอบถามและจัดทำรายงาน
(query and reporting) หมายถึง
การใช้โปรแกรมหรือระบบที่เรียกว่า “ระบบสร้างรายงาน” (report generator) เพื่อรับข้อมูลที่เกิดจากกการปฏิบัติงานในระบบมาประมวลผลอย่างใดอย่างหนึ่ง
เพื่อให้เกิดเป็นผลลัพธ์เพื่อประโยชน์ในการตัดสินใจตามที่ต้องการ
ประเภทของ Front-End Tools ที่ใช้ในการวิเคราะห์ข้อมูล ได้แก่
- Ad-hoc Query Tools
- Report Writer
- End-User Applications
อ้างอิง
สุวรรณี อัศวกุลชัย “หลักการพื้นฐานของคลังข้อมูล” ใน ประมวลสาระชุดวิชาคลังข้อมูล
เหมืองข้อมูล
และธุรกิจอัจฉริยะ หน่วยที่ 1-7 นนทบุรี สาขาวิทยาศาสตร์และ เทคโนโลยี มหาวิทยาลัย
สุโขทัยธรรมาธิราช 2555
สุวรรณี อัศวกุลชัย “สถาปัตยกรรมของคลังข้อมูล” ใน ประมวลสาระชุดวิชาคลังข้อมูล
เหมืองข้อมูล
และธุรกิจอัจฉริยะ หน่วยที่ 1-7 นนทบุรี สาขาวิทยาศาสตร์และ เทคโนโลยี มหาวิทยาลัย
สุโขทัยธรรมาธิราช 2555
ชัยเลิศ พิชิตพรชัย “การพัฒนาระบบคลังข้อมูล” ใน ประมวลสาระชุดวิชาคลังข้อมูล
เหมืองข้อมูล
และธุรกิจอัจฉริยะ หน่วยที่ 1-7 นนทบุรี สาขาวิทยาศาสตร์และ เทคโนโลยี มหาวิทยาลัย
สุโขทัยธรรมาธิราช 2555
http://sci.feu.ac.th/supattanawaree/datawarehouse.pdf
http://ismnida.wordpress.com/category/data-warehouse
http://ironbark.xtelco.com.au/subjects/DB/2010s2/lectures/lecture24.html
http://web.kku.ac.th/wichuda/DataWH/datawarehose.pdf