ทำไมเราต้องมี อภิมหาข้อมูล (BigData)

ทำไมเราต้องมี อภิมหาข้อมูล (BigData)

หมวดหมู่: ฐานข้อมูลPHP and MySQLข่าวไอที

เราเรียกขั้นตอนการรวบรวมชำระสะสางและจัดเก็บว่า ETL ย่อมาจากคำว่า Extract, Transform, Load กว่าจะได้มีคลังข้อมูลมาครบถ้วนใช้งานได้ต้องมีกระบวนการ ETL

 

หลายท่านคงสงสัยว่าเรามีฐานข้อมูล (Database) แล้วและเราก็มีคลังข้อมูล (DataWarehouse) แล้วแต่ทำไมเราต้องมี อภิมหาข้อมูล (BigData) อีกด้วยต้องนึกย้อนเวลากลับไปตั้งแต่เรามีเทคโนโลยีการจัดการข้อมูลจากเดิมที่เราเก็บข้อมูลในแฟ้มข้อมูลดิบโดยต่างคนต่างเก็บเก็บซ้ำซ้อนกัน

 

ต่อมาเราก็พยายามเก็บแบบรวบรวมในรูปแบบฐานข้อมูลซึ่งสามารถจัดการความซ้ำซ้อนได้ดีกว่ากรณีฐานข้อมูลแบบกระจาย Distributed Database ไม่ค่อยนิยมใช้กันนักเพราะเหตุผลด้านความเสถียรของเครือข่าย ปัจจุบันระบบจัดการฐานข้อมูล (DatabaseManagement System) ที่นิยมกันมาจาก Oracle หรือ DB2 ซึ่งการแข่งขันรุนแรงขนาดที่ว่าใครแพ้ก็ถูกซื้อกันเลยทีเดียวสุดท้ายปลาใหญ่ก็กินปลาเล็ก Oracle ซื้อ MySQL รวมเข้ามาและก็ไม่รู้ว่าชะตากรรมของ MySQL จะเป็นอย่างไรต่อไปเป็นไปตามวัฏจักรแห่งความจริงแท้ความไม่เที่ยง คือ มีเกิดมีตั้งอยู่ มีเสื่อมและมีดับไป

 

แล้วเราก็พบว่ามีเทคโนโลยีคลังข้อมูล เพิ่มขึ้นมาอีกเพื่อจะรวบรวมข้อมูลจากฐานข้อมูลแต่เดิมเพื่อนำมารวมกันอีกต่อหนึ่งการใช้งานฐานข้อมูลจึงเป็นการใช้งานสำหรับระบบงานทั่วไปที่ทำงานประจำวันเรียกว่า OperationalDatabase โดยการเข้าถึงข้อมูลต้องทำอยู่ตลอดเวลาและมีการเปลี่ยนแปลงปรับปรุงข้อมูลเสมอได้ ส่วนการใช้งานคลังข้อมูลจะมีเป้าหมายแตกต่างโดยที่ใช้เก็บข้อมูลที่เริ่มนิ่งแล้วไม่เปลี่ยนแปลง เช่นรายการซื้อขายสินค้าตอนสิ้นวันหรือการจ่ายเงินเดือนพนักงานปลายเดือนเป็นต้น ข้อมูลในกลุ่มนี้จะมีประโยชน์ในงานวิเคราะห์ผลลัพธ์ทางสถิติเพื่อช่วยในการวางแผนและตัดสินใจข้อมูลในคลังข้อมูลไม่ควรจะเปลี่ยน แปลงและจะเพิ่มขึ้นสะสมเข้ามาเรื่อย ๆ สมกับชื่อที่ใช้เรียกในภาษาไทยคือคลังข้อมูลข้อมูลที่มีสะสมเก็บเข้าในคลังข้อมูลมากมายทำให้การจัดเก็บรวบรวมและเข้าถึงข้อมูลขนาดใหญ่มาก ๆ นี้เป็นปัญหาได้เสมอเนื่องจากมาจากฐานข้อมูลหลายแหล่งการจัดเก็บจะต้องมีการชำระสะสางข้อมูลเหล่านี้ให้สามารถกองรวมกันได้ครับโดยเราต้องกำหนดไว้ก่อนว่าจะเก็บอะไรเช่นเดิม

 

เราเรียกขั้นตอนการรวบรวมชำระสะสางและจัดเก็บว่า ETL ย่อมาจากคำว่า Extract, Transform, Load กว่าจะได้มีคลังข้อมูลมาครบถ้วนใช้งานได้ต้องมีกระบวนการ ETL ก่อนเสมอและจะทำในลักษณะแบบออฟไลน์ เพื่อไม่ให้ส่งผลกระทบการทำงานประจำวัน (ทำตอนดึก ๆ ได้) ดังนั้นความสดใหม่ของข้อมูลจะไม่มีข้อมูลของธุรกรรม ณ วินาทีนี้ นาทีนี้ วันนี้ จะไม่ได้อยู่ในคลังข้อมูลจนกว่าจะวันถัดไปครับ ดังนั้นการที่เรามีฐานข้อมูลและคลังข้อมูลอาจจะยังไม่ตอบโจทย์ที่ยากยิ่งของผู้บริหารที่มีความต้องการคำตอบจากข้อมูลที่เป็นปัจจุบันทันด่วนมาก ๆ

 

อภิมหาข้อมูล อาจจะเป็นคำตอบให้ครับเพราะแนวคิดของอภิมหาข้อมูลก็คือมีความสามารถจัดการแบบ 3V เราเรียกเป็นตัวย่อมาจาก Volume, Velocity, และ Variety กล่าวคืออภิมหาข้อมูลสามารถจัดเก็บและจัดการข้อมูลขนาดใหญ่มากมากหน่วยความจุอยู่ระดับ Petabyte (1000 เท่าของ Terabyte) ขึ้นไปครับซึ่งข้อมูลใหญ่ขนาดนี้ระบบจัดการฐานข้อมูลปกติเริ่มจะทำงานไม่สะดวกแล้ว

 

เรื่อง Velocity คือความรวดเร็วในการจัดการและประมวลผลเพื่อส่งมอบผลลัพธ์ให้ผู้บริหารอย่างทันอกทันใจเหมือนตอนเรารู้สึกหิวมากและสั่งอาหารเมื่อสั่งแล้วมีการเสิร์ฟทันทีและอาหารที่ได้รับทำจากวัตถุดิบที่สดใหม่เพิ่งเก็บมาจากต้นเลยดังนั้นข้อมูลที่ส่งมอบมาจากอภิมหาข้อมูลจะมีความสดใหม่เป็นของวินาทีนี้ นาทีนี้ วันนี้ ได้เลยครับ

 

ส่วน Variety คือความหลากหลายของแหล่งข้อมูลหรือรูปแบบข้อมูลที่ส่งมาให้เก็บในอภิมหาข้อมูล เราไม่ต้องมาสนใจมากและไม่ต้องทำ ETL กันหนัก ๆ เรามีความอิสระในการจัดเก็บข้อมูลหลากหลายรูปแบบเช่น ข้อมูลจาก Text ธรรมดาข้อมูลที่มาจากหน้าเว็บข้อมูลที่มาจากฐานข้อมูล ข้อมูลที่มาจาก Excel ข้อมูลภาพเสียง ตลอดจนวีดิทัศน์ เป็นต้น พูดภาษาเทคนิคคือข้อมูลแบบไม่มีโครงสร้าง (UnstructuredData) ก็ดูแลได้ดีครับมีขั้นตอนการจัดเตรียมอยู่บ้างไม่ยุ่งยากเท่าคลังข้อมูลที่กล่าวมาเบื้องต้นนี้เพื่อให้เห็นภาพรวมโดยสังเขปสำหรับท่านที่สนใจอยากใช้อภิมหาข้อมูล คงต้องเข้าใจความต้องการตัวเองว่ามีความจำเป็นจริง ๆ แค่ไหน และรู้จักเครื่องไม้เครื่องมือเทคโนโลยีก่อนลงมือผมขอแนะนำให้เรียนหลักสูตรที่ปรับปรุงใหม่เพื่อเน้นอภิมหาข้อมูล โดยเฉพาะครับ.

 

 

 

 

รศ.ดร.วิวัฒน์ วัฒนาวุฒิ

ภาควิชาวิศวกรรมคอมพิวเตอร์

คณะวิศวกรรมศาสตร์จุฬาลงกรณ์มหาวิทยาลัย

ไอทีจีเนียส เอ็นจิเนียริ่ง (IT Genius Engineering) ให้บริการด้านไอทีครบวงจร ทั้งงานด้านการอบรม (Training) สัมมนา รับงานเขียนโปรแกรม เว็บไซต์ แอพพลิเคชั่น งานออกแบบกราฟิก และงานด้าน E-Marketing ที่กำลังได้รับความนิยมในปัจจุบัน ทั้ง SEO , PPC , และ Social media marketting

ติดต่อเราเพื่อสอบถามผลิตภัณฑ์ ขอราคา หรือปรึกษาเรื่องไอที ได้เลยค่ะ

Line : @itgenius (มี @ ด้านหน้า) หรือ https://lin.ee/xoFlBFe
Facebook : https://www.facebook.com/itgeniusonline
Tel : 02-570-8449 มือถือ 088-807-9770 และ 092-841-7931
Email : contact@itgenius.co.th
user
โดย Admin ITGenius
เข้าชม 4,378 ครั้ง

คำค้นหา : เทคโนโลยีคลังข้อมูลฐานข้อมูลDatabaseMySQLDistributed DatabaseETLOperationalDatabaseกระบวนการ ETLไอทีข่าวข่าวไอทีอัพเดทอภิมหาข้อมูลDataWarehouse