เรื่อง BIG DATA

         Big Data หมายถึง ปริมาณข้อมูลที่มหาศาล ทั้งแบบข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง ซึ่งปะปนอยู่มากมายในการทำธุรกิจในแต่ละวัน หากแต่ไม่ใช่ปริมาณของข้อมูลที่เป็นสิ่งสำคัญ สิ่งสำคัญก็คือการที่องค์กรจัดการกับข้อมูลต่างหากการวิเคราะห์ Big Data นำไปสู่ข้อมูลเชิงลึกเพื่อการตัดสินใจที่ดีกว่าและการเคลื่อนไหวในกลยุทธ์ธุรกิจ

องค์ประกอบที่สำคัญของ BIGDATA

องค์ประกอบของระบบ Data แบ่งออกเป็น 5 ส่วนด้วยกัน ได้แก่

1. Data Source แหล่งที่มาของข้อมูล

ซึ่งถือได้ว่า เป็นต้นน้ำ เป็นแหล่งกำเนิดของข้อมูล อาจจะเป็นระบบ โปรแกรม หรือจะเป็นมนุษย์เรา ที่สร้างให้เกิดข้อมูลขึ้นมา ทั้งนี้ เมื่อได้ชื่อว่าเป็น Big Data แล้ว ข้อมูลต่างๆ มักจะมาจากแหล่งข้อมูลที่หลากหลาย นำพามาซึ่งความยากลำบากในการจัดการโครงสร้าง หรือจัดเตรียมให้ข้อมูลที่นำมารวมกันนั้น มีความพร้อมใช้ต่อไป

 

2. Gateway ช่องทางการเชื่อมโยงข้อมูล

การเชื่อมโยงข้อมูล เป็นส่วนที่สำคัญมาก และเป็นปัญหาใหญ่ในการทำ Big Data Project ต้องอาศัยทักษะของ Data Engineer ทั้งการเขียนโปรแกรมเอง และใช้เครื่องมือที่มีอยู่มากมาย ทั้งนี้การจะออกแบบช่องทางการเชื่อมโยงข้อมูลได้อย่างสมบูรณ์แบบ จำเป็นต้องทราบก่อนว่า จะนำข้อมูลใดไปทำอะไรต่อบ้าง มิเช่นนั้น การสร้างช่องทางการเชื่อมที่ไม่มีเป้าหมาย ก็อาจเป็นการเสียเวลาโดยเปล่าประโยชน์

 

3. Storage แหล่งเก็บข้อมูล

แหล่งเก็บนี้ ไม่ใช่แค่การเก็บข้อมูลจากแหล่งข้อมูล แต่เป็นการเก็บข้อมูลจากแหล่งข้อมูลหลายๆ แหล่ง เอามาไว้เพื่อรอการใช้งาน ซึ่งอาจจะเป็นที่พักข้อมูลให้พร้อมใช้ หรือจะเป็นแหล่งเก็บข้อมูลในอดีตก็เป็นได้

 

4. Analytics การวิเคราะห์ข้อมูล

ส่วนนี้เป็นหน้าที่หลักของ Data Scientist ซึ่งแบ่งงานออกเป็น 2 ลักษณะ คือ การวิเคราะห์เบื้องต้น โดยการใช้วิธีทางสถิติ หรือจะเป็นการวิเคราะห์เชิงลึกโดยการสร้าง Model แบบต่างๆ รวมไปถึงการใช้ Machine Learning เพื่อให้ได้ผลลัพธ์เฉพาะจงเจาะในแต่ละปัญหา และแต่ละชุดข้อมูล

 

5. Result/Action การใช้ผลการวิเคราะห์ข้อมูล

ผลลัพธ์ที่ได้จากการวิเคราะห์สามารถนำไปใช้งานได้ 2 รูปแบบ คือ ออกเป็นรายงาน เพื่อให้ Data Analyst นำผลลัพธ์ที่ได้ไปใช้กับงานทางธุรกิจต่อไป หรือจะเป็นการนำไปกระทำเลยโดยที่ไม่ต้องมี “มนุษย์” คอยตรวจสอบ ซึ่งจำเป็นต้องมีการเขียนโปรแกรมเพิ่ม เพื่อให้มีการกระทำออกไป ที่เรียกว่า Artificial Intelligence (AI)

 

Big data ที่มีคุณภาพสูงควรมีลักษณะพื้นฐานอยู่ 6 ประการหลักๆ (6 Vs) ดังนี้

1. ปริมาณ (Volume) หมายถึง ปริมาณของข้อมูลควรมีจำนวนมากพอ ทำให้เมื่อนำมาวิเคราะห์แล้วจะได้ insights ที่ตรงกับความเป็นจริง เช่น การที่เรามีข้อมูลอายุ เพศ ของลูกค้าส่วนใหญ่ ทำให้เราสามารถหา demographic profile ทั่วไปของลูกค้าที่ถูกต้องได้ ถ้าเรามีข้อมูลลูกค้าแค่ส่วนน้อย ค่าที่ประมาณออกมาอาจจะไม่ตรงกับความเป็นจริง

2. ความหลากหลาย (Variety) หมายถึง รูปแบบของข้อมูลควรหลากหลายแตกต่างกันออกไป ทั้งแบบโครงสร้าง, กึ่งโครงสร้าง, ไม่มีโครงสร้าง ทำให้เราสามารถนำมาวิเคราะห์ประกอบกัน จนได้ได้ insights ครบถ้วน

3. ความเร็ว (Velocity) หมายถึง คุณลักษณะข้อมูลที่ถูกสร้างขึ้นอย่างรวดเร็วต่อเนื่องและทันเหตุการณ์ ทำให้เราสามารถวิเคราะห์ข้อมูลแบบ real-time นำผลลัพธ์มาทำการตัดสินใจและตอบสนองได้อย่างทันท่วงที เช่น ข้อมูล GPS ที่ใช้ติดตามตำแหน่งของรถ อาจจะนำมาวิเคราะห์โอกาสที่ทำให้เกิดอุบัติเหตุ และออกแบบระบบป้องกันอุบัติเหตุได้

4. ความถูกต้อง (Veracity) หมายถึง มีความน่าเชื่อถือของแหล่งที่มาข้อมูลและความถูกต้องของชุดข้อมูล มีกระบวนการในการตรวจสอบและยืนยันความถูกต้องของข้อมูล ซึ่งมีความเกี่ยวเนื่องโดยตรงกับผลลัพท์การวิเคราะห์ข้อมูล

5. คุณค่า (Value) หมายถึง ข้อมูลมีประโยชน์และมีความสัมพันธ์ในเชิงธุรกิจ ซึ่งต้องเข้าใจก่อนว่าไม่ใช่ทุกข้อมูลจะมีประโยชน์ในการเก็บและวิเคราะห์ ข้อมูลที่มีประโยชน์จะต้องเกี่ยวข้องกับวัตถุประสงค์ทางธุรกิจ เช่นถ้าต้องการเพิ่มขีดความสามารถในการแข่งขันในตลาดของผลิตภัณฑ์ที่ขาย ข้อมูลที่มีประโยชน์ที่สุดน่าจะเป็นข้อมูลผลิตภัณฑ์ของคู่แข่ง

6. ความแปรผันได้ (Variability) หมายถึง ข้อมูลสามารถในการเปลี่ยนแปลงรูปแบบไปตามการใช้งาน หรือสามารถคิดวิเคราะห์ได้จากหลายแง่มุม และรูปแบบในการจัดเก็บข้อมูลก็อาจจะต่างกันออกไปในแต่ละแหล่งของข้อมูล

คุณลักษณะเหล่านี้ทำให้การจัดการ Big Data เป็นเรื่องยาก แต่ในขณะเดียวกันก็เป็นโอกาสให้องค์กรสร้างความได้เปรียบเหนือคู่แข่งด้วยการพัฒนาขีดความสามารถในการวิเคราะห์ข้อมูล

 

แก้ไขครั้งสุดท้าย: ศุกร์, 23 ตุลาคม 2020, 11:36PM