[รีวิวหนังสือ] Big Data Series I — Introduction to a Big Data Project

หนึ่งในหนังสือเกี่ยวกับ Big Data ที่ดีที่สุดและควรอ่าน

Manusaporn Treerungroj
2 min readJun 26, 2018
ปกหน้าหนังสือ Big Data Series I: Introduction to Big Data

สวัสดีจ้าทุกคน ก่อน June จะผ่านไป เรามา blog ส่งท้ายกันซะหน่อย~

พอดีมีโอกาสได้รับหนังสือเล่มนี้มาจากคนๆ หนึ่ง (ขอบคุณค่า ☺️) ด้วยความที่กำลังสนใจเรื่องพวกนี้ + ปกหลังเขียนไว้อย่างน่าดึงดูด กลับไปจึงแอบเปิดอ่านอย่างทันที

ปกหลังหนังสือ Big Data Series I: Introduction to Big Data

หนังสือเล่มนี้เขียนโดย ดร.อสมา กุลวานิชไชยนันท์ ที่เป็นทั้ง Data Scientist และผู้ก่อตั้ง Coraline สารภาพว่าครั้งแรกที่เห็นแอบกลัวว่าจะอ่านยาก เพราะไม่ค่อยชอบอ่านคำทับศัพท์ที่เป็นภาษาไทย แต่พอลองเปิดอ่านดู มันตรงกันข้ามกับที่คิด :)

เชื่อว่าทุกวันนี้ แทบจะไม่มีใครไม่เคยได้ยินคำว่า Big Data หนังสือเริ่มโดยพูดถึงที่มาที่ไป ตั้งแต่ช่วงเริ่มต้นที่มี computer และเกิด Internet ขึ้น ทำให้เกิดข้อมูลจำนวนมากตามมา ซึ่ง cloud เองก็เกิดมาด้วยเหตุผลนี้

source: https://www.vectorstock.com/royalty-free-vector/infographic-flat-concept-of-big-data-4v-vector-3108201

หนังสือได้ให้นิยามของคำว่า Big Data ด้วย หลักการ 4V คือ

  • Volume คือ ขนาดของข้อมูลที่ใหญ่
  • Velocity คือ ความเร็วทั้งในมุมของการสร้าง และเอาข้อมูลมาประมวลผล
  • Variety คือ ความหลากหลายของตัวข้อมูล และชนิดข้อมูล รวมถึง แหล่งข้อมูล
  • Veracity คือ ความแม่นยำ เพราะข้อมูลที่มีขนาดใหญ่ อาจมีความไม่แน่นอนรวมอยู่ด้วย เช่น error หรือ outlier

ซึ่งไม่ว่าจะเป็นธุรกิจเล็กหรือใหญ่ ก็จำเป็นต้องทำ Big Data Project แต่หนึ่งในความเข้าใจผิดๆ คือ การเก็บข้อมูลปริมาณมากๆ ก็เป็นการทำ Big Data แล้ว

จริงๆ แล้วนั่นถือเป็นการเริ่มต้นเท่านั้น เราต้องเอาข้อมูลนั้นไปใช้ ไปประมวลผล ให้เกิดผลลัพธ์ด้วย

การทำ Big Data Project ที่ถูกต้อง คือ การ customize หรือ ออกแบบระบบ และโมเดลโดยเฉพาะ เพื่อตอบโจทย์ของสภาพแวดล้อมนั้นๆ ขององค์กร

ซึ่งในการทำ data ก็จะมี role ที่เกี่ยวข้องและมาแรงที่สุดในช่วงนี้คือ Data Scientist หรือ นักวิทยาศาสตร์ข้อมูล ทว่าหลายๆ คนยังเคยได้ยินอีก 2 role คือ Data Engineer และ Data Analyst

Simple data career Venn diagram: Data Engineer, Data Scientist and Data Analyst

ทั้งสาม role นี้แม้จะเกี่ยวข้องกับ data เหมือนกัน แต่มีหน้าที่ต่างกัน คร่าวๆ คือ Data Engineer จะออกแบบระบบของข้อมูล, Data Scientist จะออกแบบโมเดลวิเคราะห์ และ Data Analyst จะใช้ข้อมูลการวิเคราะห์เพื่อตอบโจทย์ทางธุรกิจ

ก่อนที่ blog จะยาวเกินไป เราจะตัดจบก่อน ฮ่าาาๆ~

ที่กล่าวมาทั้งหมดนี้เป็นเพียงน้ำจิ้มนะ แต่แค่น้ำจิ้มก็เจ้มจ้นแล้ว

นอกจากนี้ หนังสือยังได้พูดถึงการทำ big data project โดยละเอียด เช่น

  • ประโยชน์และความสำคัญ
  • ประเภทของ data, การ clean data, data flow diagram
  • เปรียบเทียบ role ด้าน data
  • เวลาที่เหมาะสมจะเริ่มทำ big data project, การลงทุนใน project
  • case study และความสำเร็จจากการทำ Big Data Project

แน่นอนว่าทุกๆ บทสอดแทรกไปด้วยแนวคิดที่สำคัญ ที่ไม่ว่าคุณจะเป็นใคร อาชีพไหน หรือรู้เรื่อง Big Data มาก่อนหรือไม่ เชื่อว่าสามารถอ่านรู้เรื่องแน่นอน เพราะผู้เขียนใช้การอธิบายที่ไม่อยาก เล่าอย่างเป็นลำดับขั้น และยกตัวอย่างที่ไม่ไกลตัว

สำหรับใครชอบ Big Data อยู่แล้ว และอยากเข้าใจมากขึ้น ก็ยิ่งแนะนำให้อ่านเข้าไปอีก! 👍👍

ปล. หนังสือเล่มนี้ เป็นเล่มแรกจากเซ็ต Big Data Series ทั้งหมด 3 เล่ม (Introduction to Big Data Project, Think like a Data Scientist และ Big Data Project Real Cases) ไว้ติดตามอ่านเล่มต่อๆ ไปแล้วจะมารีวิวอีกจ้า

สำหรับ blog นี้ฝากไว้แค่นี้ Enjoy reading ค่า 😊

--

--

No responses yet