Data Science คืออะไร และ Data Scientist คืออะไร

ภายในข้อมูลมักมีความรู้ซ่อนอยู่ครับ ยิ่งความรู้ถูกกองเอาไว้เป็นภูเขาเลากา ถูกระดมกันสร้างขึ้นมาอย่างมากมาย ยังไงมันก็ต้องมีความรู้เจ๋ง ๆ ซ่อนอยู่แน่ ๆ

งาน Data Science จึงเป็นการรวมสรรพวิชา สรรพเทคโนโลยี เพื่อการนำเอาความรู้จากข้อมูลออกมาใช้งานครับ

คำว่า Data Science หรือแปลเป็นไทยว่า วิทยาศาสตร์ข้อมูล หรือ วิทยาการข้อมูล จึงไม่ใช่เรื่องใหม่ มันเป็นเรื่องเก่าที่ถูกเอามาปัดฝุ่นใหม่ มันเป็นเหล้าเก่าในขวดใหม่ เพราะโดยบริบทแล้วคอมพิวเตอร์ก็เป็นที่เก็บข้อมูล และก็มีอัลกอริทึม สมการ ขั้นตอนวิธีตั้งหลายอย่าง ที่ถูกคิดค้นขึ้นในสาขา Computer Science หรือ Information Technology เพื่อบริหารจัดการข้อมูล สกัดสารสนเทศจากข้อมูล และสกัดความรู้จากข้อมูลอยู่แล้ว

แต่เนื่องจากสรรพวิชา สรรพเทคโนโลยีทั้งหลายทั้งปวงเหล่านั้น มันอยู่กระจัดกระจายเป็นสมาชิกกันอยู่ในโดเมนต่าง ๆ ก็เลยคิดกันว่าน่าจะจับเอามารวมอยู่ด้วยกัน แล้วเรียกเป็นชื่อเก๋ ๆ ว่า Data Science ดีกว่า ซึ่งสิ่งเหล่านั้นก็ประกอบไปด้วยรายการทางด้านเทคโนโลยีดังนี้ครับ

1. Cloud Computing

ข้อมูลต้องมีพื้นที่บนโครงสร้างพื้นฐานเพื่อจัดเก็บครับ มันต้องเป็นพื้นที่ ๆ มีความจุมาก ๆ เข้าถึงได้อย่างสะดวก และการติดต่อใช้งานไม่ยุ่งยากซับซ้อน ซึ่ง Cloud Computing เป็นปัจจัยสำคัญในเรื่องนี้ และบริการบนอินเทอร์เน็ตทุกวันนี้ ก็ขี่ควบอยู่บน Cloud Computing กันทั้งนั้น ซึ่งบริการแบบนี้มีอยู่หลายเจ้าที่ให้บริการ ทั้งแบบเอามาติดตั้งใช้แบบส่วนตัว หรือไปเช่าใช้บนพื้นที่ส่วนรวม อันนี้สุดแล้วแต่

2.  Big Data

ข้อมูลขนาดใหญ่โตมโหฬารที่ถูกจัดเก็บไว้ นอกจากจะต้องอยู่บนโครงสร้างพื้นฐานอย่าง Cloud Computing แล้ว ตัวมันก็ควรจะถูกจัดเก็บ บริหารจัดการ และสืบค้นได้อย่างง่ายดาย อีกทั้งต้องมีโครงสร้างที่เรียบง่าย ซึ่งทำให้การเชื่อมสัมพันธ์ข้อมูลไม่มีความซับซ้อนอีกด้วย ซึ่ง Big Data ก็เป็นคำกว้าง ๆ ที่หมายถึงอะไรเหล่านี้ มันจะเป็น Platform ก็ได้ จะเป็นกลไกกลวิธีก็ได้ หรือจะเป็นโครงสร้างข้อมูลก็ได้ ขอให้มันตอบโจทย์เรื่องการจัดเก็บข้อมูลขนาดใหญ่ได้ก็เพียงพอในขั้นต้นแล้ว

3.  Machine Learning

เราตัดสินข้อมูลเองไม่ได้ทั้งหมดครับ มันเยอะ ตัดสินเองแล้วตาลาย ดังนั้น เราก็ต้องสอนให้คอมพิวเตอร์ตัดสินข้อมูลแทนเราในระดับหนึ่งนั่นแหล่ะ แล้วที่เหลือเราก็มาตัดสินเองอีกทีนึง ซึ่งไอ้การตัดสินใจโดยคอมพิวเตอร์นี่ก็คือ Machine Learning เนี่ยแหล่ะครับ ซึ่งอัลกอริทึมที่เกี่ยวข้องกับมันมีเยอะ เล่ายาวครับ ไม่เล่าแล้วกันนะ

4.  Data Mining

บางทีเราไม่ได้อยากให้คอมพิวเตอร์ตัดสินใจให้เราครับ แต่เราอยากให้มันค้นหาความรู้ออกมาให้ ความรู้สำคัญที่ซ่อนอยู่ โดยความรู้ดังกล่าวอาจจะอยู่ในรูปของความสัมพันธ์ของข้อมูล ซึ่งเราดูด้วยตาเปล่าไม่รู้ นับเองด้วยนิ้วมือที่เรามีก็ไม่พอเพราะมันเยอะ เอากระดาษมานั่งจดก็ไม่ไหวตาลาย ดังนั้น ถ้าเรามองว่าข้อมูลมันอยู่ในเหมือง เราก็ต้องขุดมันออกมาครับ โดยใช้อัลกอริทึมที่มีประสิทธิภาพ ซึ่งมันก็มีหลายวิธีครับ แต่ล่ะวิธีก็แตกต่างกันไป ยากบ้างง่ายบ้าง แต่เดี๋ยวนี้มีเครื่องมือช่วยเยอะครับ มีคนสร้างเอาไว้ให้เยอะ

5.  Statistics

ก็สถิตินี่แหล่ะครับ จำเป็นพอควร บางทีเราก็ต้องตั้งสมมติฐานจากข้อมูลที่ได้มา ว่าเราจะยอมรับสมมติฐาน หรือปฏิเสธสมมติฐาน มันต้องมีเรื่องของความน่าจะเป็นเข้ามาเกี่ยวข้อง เพราะมันไม่มีอะไรเป๊ะ ๆ มันต้องกะ ๆ เอาว่าจะใช่หรือไม่ใช่ จะจริงหรือไม่จริง แล้วก็เอาตัวชี้วัดหลาย ๆ ตัวมาวัดมัน แล้วก็เชื่อมัน

6.  Internet of Things (IoT)

การที่หน่วยประมวลผลและหน่วยควบคุมมีขนาดเล็กลงเรื่อย ๆ มีระบบปฏิบัติการในตัวเอง สามารถสื่อสารผ่านเครือข่ายไร้สายได้ด้วยตัวเอง และมีหมายเลขไอพีในตัวเอง มันทำให้การที่เราจะเอาหน่วยประมวลผลหรือหน่วยควบคุมเหล่านั้น ฝังเอาไว้บนอุปกรณ์ทุกสิ่งอย่างซึ่งอยู่รอบ ๆ ตัวเรา มีความเป็นไปได้มากขึ้น ไม่ว่าจะฝังเอาไว้ในเครื่องปรับอากาศ ตู้เย็น โทรทัศน์ วิทยุ พัดลม เตาอบไมโครเวฟ กล้องวงจรปิด ตู้เสื้อผ้า หม้อหุงข้าว ซึ่งอุปกรณ์เหล่านี้ก็ล้วนมีกิจกรรมที่ก่อให้เกิดข้อมูลมากมายออกมาได้ และมีขั้นตอนการทำงานหลายอย่างที่สามารถควบคุมจากระยะไกลได้

ลองคิดเล่น ๆ ดูว่าเดิมเราสร้างข้อมูลมหาศาลขึ้นมา เพื่อนำเข้าสูระบบคอมพิวเตอร์สำหรับประมวลผล โดยใช้แป้นพิมพ์ เมาส์ ไมโครโฟน กล้องถ่ายรูป กล้องถ่ายวีดีโอ แต่ด้วย Internet of Things นั่นหมายความว่าข้อมูลนำเข้าจะถูกสร้างขึ้นมาอย่างมากมายมหาศาลเป็นเท่าตัวผ่านอุปกรณ์ต่าง ๆ ที่ถูกฝังหน่วยประมวลผลหรือหน่วยควบคุมเอาไว้

ipad-407799_640

สรุปง่าย ๆ ก็คือ Data Science คือการรวมวิชาและเทคโนโลยีทางด้าน Cloud Computing, Big Data, Machine Learning, Data Mining, Statistics และ Internet of Things เข้าไว้ด้วยกัน จุดประสงค์เพื่อบริหารจัดการข้อมูลขนาดใหญ่ และสกัดความรู้จากข้อมูลขนาดใหญ่ ซึ่งมีลำดับขั้นตอนประกอบด้วย

  • การนำเข้าข้อมูลจาก Input หลาย ๆ อย่างรวมทั้งจากอุปกรณ์ตามนิยามของ Internet of Things
  • ข้อมูลถูกจัดเก็บเอาไว้บน Cloud Computing ซึ่งบริหารจัดการตามนิยามของ Big Data
  • ข้อมูลจะถูกนำมาตัดสินใจด้วย Machine Learning ถูกนำมาค้นหาความรู้ด้วย Data Mining และถูกนำมาชี้วัดสมมติฐานด้วย Statistics

ส่วน Data Scientist ก็คือบุคลากรที่มีความรู้ในวิชาและเทคโนโลยีในย่อหน้าข้างบน เพื่อประกอบวิชาชีพตามจุดประสงค์ในย่อหน้าข้างบนนั่นแหล่ะครับ โดยบุคลากรเหล่านี้ก็ต้องรู้จักใช้เครื่องมือ เช่น

  • รู้จักใช้ Amazon Web Services เพื่อบริหารจัดการ Public Cloud Computing หรือรู้จักการติดตั้งปรับแต่ง Hadoop เพื่อบริหารจัดการ Distributed Computing ให้อยู่ในรูปของ Private Cloud Computing
  • รู้จักนิยาม NoSQL เพื่อจัดหาฐานข้อมูลสำหรับบริหารจัดการ Big Data
  • รู้จักใช้ Matlab หรือ ภาษา R หรือ Weka หรือ RapidMiner เพื่อทำ Machine Learning หรือ Data Mining
  • รู้จักใช้ SPSS เพื่อวิเคราะห์ Statistics เป็นต้น
  • รู้จักการปรับแต่งและสั่งงานหน่วยประมวลผล เช่น Raspberry Pi หรือหน่วยควบคุม เช่น Arduino เป็นต้น

จะเห็นว่างานของ Data Scientist จะเป็นอะไรที่หยินหยางมาก เพราะแตะทั้งของที่จับต้องได้และของที่จับต้องไม่ได้ แต่ก็นั่นแหล่ะครับท่านผู้ชม เพราะมันข้ามสายกันแบบนี้นั่นแหล่ะครับ มันเลยเป็นอาชีพที่เป็นที่นิยมในขณะนี้นั่นเอง

 

หนึ่งความคิดบน “Data Science คืออะไร และ Data Scientist คืออะไร”

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องที่ต้องการถูกทำเครื่องหมาย *

Captcha * Time limit is exhausted. Please reload CAPTCHA.