คลังเก็บป้ายกำกับ: data mining

User Generated Content กับ Big Data และ Data Mining

อาจารย์ผมเคยสอนว่า ถ้าเราจะทำวิจัยเรื่องอะไร เราก็ต้องดูก่อนว่าตอนนี้โลกเขาไปถึงไหนกันแล้ว และผมก็เชื่อเหลือเกินว่าตอนนี้พวกเราก็คงจะรู้แล้วว่าโลกอินเทอร์เน็ตนั้นสำคัญและมีพลังมากขนาดไหน!!

หลายปีที่ผ่านมา ประชาคมอินเทอร์เน็ตได้ช่วยกันสร้างเนื้อหาต่าง ๆ และโอนมันขึ้นไปอยู่บนระบบอินเทอร์เน็ตมากมายมหาศาล ไม่ว่าสิ่งนั้นจะเป็น ข้อความ ภาพ เสียง วีดีโอ แฟ้มไบนารี่ ซึ่งการกระทำเหล่านั้นล้วนผ่านทั้งกระบวนการของ User Generated Content และหรือ Human Based Computation

เนื้อหาที่มากมายมหาศาลที่ถูกสร้างขึ้นเหล่านั้น เป็นก้อนข้อมูลขนาดมหึมาซึ่งต้องมีพื้นที่จัดเก็บที่มีขนาดทัดเทียมกันหรือมากกว่ารองรับ ทุกอย่างมันต้องสอดคล้องกัน เพราะจำนวนคนในประชาคมอินเทอร์เน็ตที่สร้างเนื้อหามีจำนวนมากมายเป็นล้าน ๆ คน ในขณะที่พื้นที่จัดเก็บก็ต้องขยายตามไปด้วย จนเกิดแนวคิด Big Data ขึ้นมา แนวคิดที่ว่าข้อมูลหรือเนื้อหาทั้งหมดควรจะเก็บไว้ โดยที่มันสามารถค้นหาได้ง่ายอย่างรวดเร็วที่สุด!!

คนโบราณมักจะบอกว่า “เกิน” ดีกว่า “ขาด” ดังนั้น การเก็บทุกอย่างไว้ใน Hardware ที่มีความจุสูงโดยใช้แนวคิด Big Data จึงเป็นเรื่องที่เหมาะสม แต่หลังจากนั้น เราก็ต้องมาคิดว่าเราจะทำยังไงกับข้อมูลจำนวนมหาศาลที่เก็บไว้ เราจะแค่สืบค้นมันขึ้นเฉย ๆ หรือเราจะทำอะไรอย่างอื่นกับมันได้อีก?

ซึ่งนั่นเป็นที่มาของ Data Mining หรือก็คือการค้นหาและสกัดความรู้จากข้อมูลจำนวนมหาศาลที่ถูกจัดเก็บไว้ โดยการค้นหาความรู้จะต้องทำได้อย่างรวดเร็ว และได้ความรู้ที่มีค่า มีความหมาย

มันคงจะเป็นอะไรที่ฟุ่มเฟือย ต้นทุนสูง และไร้ค่ามาก ๆ หากเราเก็บข้อมูลเอาไว้ได้อย่างมากมายมหาศาล แต่เรากลับไม่สามารถสกัดหรือสังเคราะห์ความรู้อะไรออกจากข้อมูลเหล่านั้นได้เลย

ทุกวันนี้บริษัทไอทียักษ์ใหญ่ผู้ให้บริการอินเทอร์เน็ตในโลกอย่าง Google, Microsoft หรือ Facebook ก็ล้วนแต่ทำ Data Mining จากข้อมูลจำนวนมหาศาลที่ประชาคมอินเทอร์เน็ตสร้างขึ้นผ่านบริการของตนเองทั้งนั้น

นิยามความรู้เบื้องต้นของ Data Mining ตอนนี้อาจจะยังอยู่แค่ Classification, Clustering หรือ Association Rule Mining แต่ในอนาคตเราไม่รู้ว่าจะมีนักวิจัยคิดค้นอย่างอื่นเพื่อการทำ Data Mining อีกมั้ย และถ้าถึงตอนนั้นก็อาจจะมีวิธีหาความรู้จากข้อมูลจำนวนมหาศาลมหึมาในรูปแบบใหม่ก็เป็นได้!

Machine Learning กับ Data Mining แตกต่างกันยังไง?

เอาใจความหลักๆก่อนแล้วกัน

  • Machine Learning คือ การให้คอมพิวเตอร์ทำนายผลลัพธ์ โดยใช้ข้อมูลพื้นฐานจาก attribute ที่รู้จักมาก่อนจากขั้นตอนการ train
  • Data Mining คือ การค้นพบความรู้จากข้อมูล โดยข้อมูลที่ใช้เพื่อการค้นพบนั้นเป็น attribute ที่ไม่เคยรู้จักมาก่อน

ดังนั้น ความแตกต่างของทั้งสองอย่างอยู่ที่กริยาของพวกมัน เพราะอย่างนึงคิดค้นขึ้นเพื่อการ “ทำนาย” ส่วนอีกตัวนึงคิดค้นขึ้นเพื่อการ “ค้นพบ” ส่วนสิ่งที่เหมือนกันของทั้งสองอย่างคือ “ข้อมูล” เพราะในแง่ของ Machine Learning นั้น การมีข้อมูลนำเข้าที่มาก จะทำให้การทำนายมีความแม่นยำมากยิ่งขึ้น ส่วนแง่ของ Data Mining นั้น การมีข้อมูลยิ่งมากเท่าไหร่ ก็ยิ่งจะทำให้สามารถค้นพบ Pattern เพื่อจะประเมินเป็นความรู้ได้มากเท่านั้น

สรุปแล้ว ข้อมูลคือสิ่งสำคัญที่สุดสำหรับ Machine Learning กับ Data Mining ครับ ดังนั้น เราต้องเริ่มจากข้อมูลก่อน แล้วค่อยเอาทฤษฎีการคำนวณ และทฤษฎีการประมวลผลสารสนเทศมาดำเนินการต่อไป

การวิเคราะห์ความสัมพันธ์ของหุ้นด้วย Association Rule Mining

ผมได้รับการบ้านมาครับ เป็นการบ้านระยะยาว รายละเอียดของการบ้านก็คือ ต้องทำ Demo ของ Paper งานวิจัยขึ้นมาซักเรื่องนึงที่เกี่ยวกับหัวข้อที่เรียนมา ผมจึงเลือกที่จะลองทำการวิเคราะห์ความสัมพันธ์ของหุ้นด้วย Association Rule Mining ดู

ผมทำไปแล้วและส่งไปแล้ว และมันเป็น Demo ของ Paper ที่ไม่สามารถนำไปต่อยอดเพื่อตีพิมพ์หรือประชุมวิชาการได้อย่างแน่นอน เพราะมันมีจุดบกพร่องอยู่ 3 ข้อใหญ่ ๆ  โดยจุดบกพร่องข้อแรกก็คือ ผมไม่ได้คิดอะไรใหม่เลย ผมแค่เอาสิ่งที่มีอยู่แล้วมาประกอบกันเพื่อสร้างเป็นผลลัพธ์ จุดบกพร่องข้อสองคือ ผมสนใจในเรื่องโบราณ เป็นเรื่องที่นิยมวิจัยกันตั้งแต่ 30 ปีก่อนแล้ว เพราะเดี๋ยวนี้นักวิจัยมุ่งเน้นวิจัยหุ้นร่วมกับเครือข่ายสังคมแล้ว และ จุดบกพร่องข้อสามก็คือ ผมไม่สามารถพิสูจน์สิ่งที่ตัวเองค้นพบได้ว่าจริงหรือไม่จริง ผมทำได้เพียงแค่ตั้งข้อสังเกตจากผลลัพธ์เท่านั้น

แต่ก็คิดว่าน่าจะเป็นประโยชน์ เลยเอามาเผยแพร่ให้ดูครับ ว่าสิ่งที่ผมทำมันประมาณไหน

อ่านเพิ่มเติม การวิเคราะห์ความสัมพันธ์ของหุ้นด้วย Association Rule Mining