[รีวิวหนังสือ] Big Data Series I — Introduction to a Big Data Project
หนึ่งในหนังสือเกี่ยวกับ Big Data ที่ดีที่สุดและควรอ่าน
สวัสดีจ้าทุกคน ก่อน June จะผ่านไป เรามา blog ส่งท้ายกันซะหน่อย~
พอดีมีโอกาสได้รับหนังสือเล่มนี้มาจากคนๆ หนึ่ง (ขอบคุณค่า ☺️) ด้วยความที่กำลังสนใจเรื่องพวกนี้ + ปกหลังเขียนไว้อย่างน่าดึงดูด กลับไปจึงแอบเปิดอ่านอย่างทันที
หนังสือเล่มนี้เขียนโดย ดร.อสมา กุลวานิชไชยนันท์ ที่เป็นทั้ง Data Scientist และผู้ก่อตั้ง Coraline สารภาพว่าครั้งแรกที่เห็นแอบกลัวว่าจะอ่านยาก เพราะไม่ค่อยชอบอ่านคำทับศัพท์ที่เป็นภาษาไทย แต่พอลองเปิดอ่านดู มันตรงกันข้ามกับที่คิด :)
เชื่อว่าทุกวันนี้ แทบจะไม่มีใครไม่เคยได้ยินคำว่า Big Data หนังสือเริ่มโดยพูดถึงที่มาที่ไป ตั้งแต่ช่วงเริ่มต้นที่มี computer และเกิด Internet ขึ้น ทำให้เกิดข้อมูลจำนวนมากตามมา ซึ่ง cloud เองก็เกิดมาด้วยเหตุผลนี้
หนังสือได้ให้นิยามของคำว่า Big Data ด้วย หลักการ 4V คือ
- Volume คือ ขนาดของข้อมูลที่ใหญ่
- Velocity คือ ความเร็วทั้งในมุมของการสร้าง และเอาข้อมูลมาประมวลผล
- Variety คือ ความหลากหลายของตัวข้อมูล และชนิดข้อมูล รวมถึง แหล่งข้อมูล
- Veracity คือ ความแม่นยำ เพราะข้อมูลที่มีขนาดใหญ่ อาจมีความไม่แน่นอนรวมอยู่ด้วย เช่น error หรือ outlier
ซึ่งไม่ว่าจะเป็นธุรกิจเล็กหรือใหญ่ ก็จำเป็นต้องทำ Big Data Project แต่หนึ่งในความเข้าใจผิดๆ คือ การเก็บข้อมูลปริมาณมากๆ ก็เป็นการทำ Big Data แล้ว
จริงๆ แล้วนั่นถือเป็นการเริ่มต้นเท่านั้น เราต้องเอาข้อมูลนั้นไปใช้ ไปประมวลผล ให้เกิดผลลัพธ์ด้วย
การทำ Big Data Project ที่ถูกต้อง คือ การ customize หรือ ออกแบบระบบ และโมเดลโดยเฉพาะ เพื่อตอบโจทย์ของสภาพแวดล้อมนั้นๆ ขององค์กร
ซึ่งในการทำ data ก็จะมี role ที่เกี่ยวข้องและมาแรงที่สุดในช่วงนี้คือ Data Scientist หรือ นักวิทยาศาสตร์ข้อมูล ทว่าหลายๆ คนยังเคยได้ยินอีก 2 role คือ Data Engineer และ Data Analyst
ทั้งสาม role นี้แม้จะเกี่ยวข้องกับ data เหมือนกัน แต่มีหน้าที่ต่างกัน คร่าวๆ คือ Data Engineer จะออกแบบระบบของข้อมูล, Data Scientist จะออกแบบโมเดลวิเคราะห์ และ Data Analyst จะใช้ข้อมูลการวิเคราะห์เพื่อตอบโจทย์ทางธุรกิจ
ก่อนที่ blog จะยาวเกินไป เราจะตัดจบก่อน ฮ่าาาๆ~
ที่กล่าวมาทั้งหมดนี้เป็นเพียงน้ำจิ้มนะ แต่แค่น้ำจิ้มก็เจ้มจ้นแล้ว
นอกจากนี้ หนังสือยังได้พูดถึงการทำ big data project โดยละเอียด เช่น
- ประโยชน์และความสำคัญ
- ประเภทของ data, การ clean data, data flow diagram
- เปรียบเทียบ role ด้าน data
- เวลาที่เหมาะสมจะเริ่มทำ big data project, การลงทุนใน project
- case study และความสำเร็จจากการทำ Big Data Project
แน่นอนว่าทุกๆ บทสอดแทรกไปด้วยแนวคิดที่สำคัญ ที่ไม่ว่าคุณจะเป็นใคร อาชีพไหน หรือรู้เรื่อง Big Data มาก่อนหรือไม่ เชื่อว่าสามารถอ่านรู้เรื่องแน่นอน เพราะผู้เขียนใช้การอธิบายที่ไม่อยาก เล่าอย่างเป็นลำดับขั้น และยกตัวอย่างที่ไม่ไกลตัว
สำหรับใครชอบ Big Data อยู่แล้ว และอยากเข้าใจมากขึ้น ก็ยิ่งแนะนำให้อ่านเข้าไปอีก! 👍👍
ปล. หนังสือเล่มนี้ เป็นเล่มแรกจากเซ็ต Big Data Series ทั้งหมด 3 เล่ม (Introduction to Big Data Project, Think like a Data Scientist และ Big Data Project Real Cases) ไว้ติดตามอ่านเล่มต่อๆ ไปแล้วจะมารีวิวอีกจ้า
สำหรับ blog นี้ฝากไว้แค่นี้ Enjoy reading ค่า 😊