เอาใจความหลักๆก่อนแล้วกัน Machine Learning คือ การให้คอมพิวเตอร์ทำนายผลลัพธ์ โดยใช้ข้อมูลพื้นฐานจาก attribute ที่รู้จักมาก่อนจากขั้นตอนการ train Data Mining คือ การค้นพบความรู้จากข้อมูล โดยข้อมูลที่ใช้เพื่อการค้นพบนั้นเป็น attribute ที่ไม่เคยรู้จักมาก่อน ดังนั้น ความแตกต่างของทั้งสองอย่างอยู่ที่กริยาของพวกมัน เพราะอย่างนึงคิดค้นขึ้นเพื่อการ “ทำนาย” ส่วนอีกตัวนึงคิดค้นขึ้นเพื่อการ “ค้นพบ” ส่วนสิ่งที่เหมือนกันของทั้งสองอย่างคือ “ข้อมูล” เพราะในแง่ของ
Author: ไท้ ปริญญา
ผมได้รับการบ้านมาครับ เป็นการบ้านระยะยาว รายละเอียดของการบ้านก็คือ ต้องทำ Demo ของ Paper งานวิจัยขึ้นมาซักเรื่องนึงที่เกี่ยวกับหัวข้อที่เรียนมา ผมจึงเลือกที่จะลองทำการวิเคราะห์ความสัมพันธ์ของหุ้นด้วย Association Rule Mining ดู ผมทำไปแล้วและส่งไปแล้ว และมันเป็น Demo ของ Paper ที่ไม่สามารถนำไปต่อยอดเพื่อตีพิมพ์หรือประชุมวิชาการได้อย่างแน่นอน เพราะมันมีจุดบกพร่องอยู่ 3 ข้อใหญ่ ๆ โดยจุดบกพร่องข้อแรกก็คือ ผมไม่ได้คิดอะไรใหม่เลย ผมแค่เอาสิ่งที่มีอยู่แล้วมาประกอบกันเพื่อสร้างเป็นผลลัพธ์ จุดบกพร่องข้อสองคือ
เดี๋ยวนี้ใครเอางานวิจัยทางด้านคอมพิวเตอร์ไปตีพิมพ์ใน “วารสารวิชาการ” จะถือว่าช้าไม่ทันกินครับ เพราะงานวิจัยทางด้านคอมพิวเตอร์มันไปเร็วมาก จะมารอตีพิมพ์เป็นปี ๆ ก็ล้าสมัยกันพอดี ดังนั้น ส่วนใหญ่ก็เลยจะเน้นที่การส่งงานวิจัยไปตีพิมพ์เป็นฉบับย่อในงานประชุมวิชาการ แล้วไปขึ้นเวทีพูดบรรยายงานวิจัยในงานประชุมวิชาการนั้น ๆ แทน ปัจจุบัน เมืองไทยเราก็มีงานประชุมวิชาการที่เกี่ยวกับวิทยาการคอมพิวเตอร์อยู่หลายงานครับ ซึ่งจัดติดต่อกันมาแล้วหลายปี มีการตรวจสอบงานวิจัยอย่างเข้มข้นโดยผู้ทรงคุณวุฒิ ซึ่งเดิมอาจจะเคยเป็นเพียงงานประชุมระดับชาติ แต่ตอนนี้ได้ยกระดับกลายเป็นงานประชุมระดับนานาชาติไปแล้ว ซึ่งงานประชุมเหล่านั้นก็ได้แก่ ICSEC หรือ The International Computer Science
ถ้าคุณอยากได้เงิน ผมขอแนะนำให้คุณไปค้าขาย ถ้าคุณอยากได้ชื่อเสียง ผมขอแนะนำให้คุณไปเป็นศิลปินหรือนักการเมือง แต่ถ้าคุณอยากคิดค้นแล้วมีชื่อเสียงในสังคมของงานวิจัย ผมขอแนะนำให้คุณทำวิจัยแล้วตีพิมพ์ในงานประชุมวิชาการหรือวารสารวิชาการ งานวิจัยทางวิทยาการคอมพิวเตอร์มีมากมายหลายแบบ ตั้งแต่แบบที่จับต้องไม่ได้ไปจนถึงแบบที่จับต้องได้ แบบที่เน้นทฤษฎีไปจนถึงเน้นปฏิบัติ แบบที่ใช้วิธีการคำนวณเป๊ะ ๆ ไปจนถึงแบบที่ใช้วิธีการคำนวณสุ่ม ๆ และอื่น ๆ แต่โดยส่วนตัวแล้วผมมองว่างานวิจัยทางวิทยาการคอมพิวเตอร์ มันแบ่งได้เป็น 2 มิติดังภาพข้างล่างนี้ นิยามงานวิจัย High Level ของผมคืองานวิจัยที่ใช้เทคนิค อัลกอริทึม หรือ
เมืองไทยเรามีการเปิดสอนหลักสูตรคอมพิวเตอร์ในแทบทุกมหาวิทยาลัยครับ ตั้งแต่ระดับปริญญาตรีไปจนถึงปริญญาเอกกันเลยทีเดียวเชียว แถมยังเปิดกระจายในหลายคณะและหลายวุฒิการศึกษาอีกต่างหาก จนกระทั่งคนที่คิดจะเรียนไม่รู้ว่าจะต้องเลือกเรียนที่คณะไหนหรือวุฒิไหนดี ถึงจะตอบโจทย์ความต้องการของตัวเอง หรือสอดคล้องกับจริตของตัวเอง ดังนั้น ผมก็เลยทำแผนภาพอธิบายให้เข้าใจครับ ว่าเมืองไทยเรามันมีวุฒิคอมพิวเตอร์กี่วุฒิกันแน่ แถมผมยังทำอนุกรมวิธานให้ดูเล็ก ๆ ด้วย ว่าหลักสูตรเหล่านั้นโดยพื้นเพแล้วเกิดจากมีหลักสูตรใดมาก่อน ดังภาพข้างล่างครับ สีส้มคือหลักสูตรคอมพิวเตอร์นะครับ จะเห็นว่าเปิดกระจายกันหลายวุฒิเลย และแต่ล่ะหลักสูตรก็สืบสายกันมาเป็นรุ่น ๆ ด้วย เอาเป็นว่าชอบใจอันไหนก็เรียนกันไปก็แล้วกันครับ เพราะโดยเนื้อหาของหลักสูตรแล้ว มันก็จะมีวิชาบังคับเหมือน ๆ กัน และวิชาเลือกคล้าย
ผมใกล้ต้องส่งการบ้านอีกแล้วและคราวนี้เป็นการทบทวนวรรณกรรมครับ คือแบบว่า การจะทำวิจัยต้องมีการทบทวนวรรณกรรมก่อนครับ เพื่อตรวจสอบว่ามีนักวิจัยท่านอื่นได้วิจัยในหัวข้อที่เราสนใจไปบ้างหรือเปล่า และการวิจัยเหล่านั้นได้ก้าวหน้าไปถึงไหนแล้ว เพื่อให้เราได้วิจัยส่วนที่เป็นช่องโหว่ให้ครบถ้วนสมบูรณ์ต่อไป ส่วนตัวผมเองก็รู้ทฤษฎีการคำนวณสำหรับคอมพิวเตอร์เพียงไม่กี่เรื่องครับ ดังนั้น ก็เลยต้องเลือกทบทวนวรรณกรรมในหัวข้อที่ตนเองถนัดที่สุด นั่นคือ แบบจำลองทางสถิติที่ชื่อว่า Hidden Markov Models และเพื่อให้ไม่เป็นการเสียเวลา มาลองอ่านงานทบทวนวรรณกรรมฉบับร่างของผมดูกันครับ ทบทวนวรรณกรรม นับตั้งแต่งานวิจัย Hidden Markov Model [1][2][3][4] ซึ่งเป็นโมเดลที่เหมาะกับการอนุมานความน่าจะเป็นของลำดับที่ซ่อนอยู่ โดยการวิเคราะห์จากลำดับที่สังเกตได้ ๆ
Taxonomy หรือ อนุกรมวิทธาน เป็นอะไรซักอย่างที่ถูกใช้เพื่อการจัดหมวดหมู่ครับ ที่เห็นเยอะ ๆ ก็ใช้ในการจัดหมวดหมู่ของสิ่งมีชีวิต เพื่อแบ่งชั้นแบ่งกลุ่มว่าอะไรพวกเดียวกับอะไร แล้วแต่ล่ะพวกนั้นมันไปเกี่ยวกับอะไรที่อยู่ในชั้นก่อนหน้านั้น เป็นต้น ในทางทฤษฎีการคำนวณสำหรับคอมพิวเตอร์ ก็มี Taxonomy กับเขาเหมือนกันครับ เพราะเดี๋ยวนี้ทฤษฎีการคำนวณสำหรับคอมพิวเตอร์มันแตกสาย แตกลูกแตกหลานกันเยอะ บางทีได้ยินคุยกันก็รำคาญใจ จัดหมวดหมู่ชั้นช่วงกันผิด ๆ ถูก ๆ เหมือนกับมีคนมาบอกเราว่า กรุงเทพฯ, พระประแดง, นนทบุรี
ผมต้องทำรายงานส่งอีกแล้วครับ คราวนี้เป็นหัวข้อ “สถาปัตยกรรมคอมพิวเตอร์ในอนาคต” ผมก็เลยคิดว่า ผมควรจะเอาเรื่องที่ผมเคยเขียนเมื่อหลาย ๆ ครั้งที่ผ่านมา จากหลาย ๆ ปีที่ผ่านมา อย่างเรื่องของ “ควอนตัมคอมพิวเตอร์” มาปะติดปะต่อเขียนใหม่ให้เป็นลักษณะของจดหมายเหตุ ที่มีการอ้างอิงวารสารวิชาการอย่างมีรูปแบบและเชื่อถือได้ ไม่ใช่การเล่าเรื่องเลื่อนลอยโดยไม่มีหลักฐานอ้างอิงอย่างครั้งที่ผ่าน ๆ มา อีกทั้งยังมีการใส่รายละเอียดเล่าถึงที่มาที่ไปอย่างครบถ้วน โดยพยายามใช้ภาษาอย่างง่ายที่สุด เพื่อให้คนที่ไม่ค่อยรู้ ได้รู้บ้างไม่มากก็น้อย เอาเป็นว่าเริ่มเลยก็แล้วกันนะครับ … บทนำ ปัจจุบันโลกยังอยู่ในยุคของสถาปัตยกรรมดิจิทัลคอมพิวเตอร์
เดี๋ยวนี้สายคอมพิวเตอร์มาจากหลายทางมาก สิ่งที่เรียนก็มีเนื้อหาซ้อนทับกัน สิ่งที่ค้นคว้าวิจัยก็มีหัวข้อซ้อนทับกัน มันเริ่มพัลวันมากขึ้นเรื่อย ๆ เหมือนกับแผนภาพเวนออยเลอร์ ที่เปรียบสายคอมพิวเตอร์แต่ล่ะสายเป็นวงกลม แล้ววงกลมมันก็มาซ้อนทับกัน ตอนนี้แต่ล่ะสายคอมพิวเตอร์ จึงพยายามค้นหาตัวตนของตัวเอง และกำหนดขอบเขตของตัวเอง ด้วยวิธีการลู่เข้าสู่ศูนย์กลาง คือทำการค้นคว้าวิจัยตามบทบาทอันเป็นศูนย์กลางของตัวเอง ไม่พยายามไปค้นคว้าวิจัยในบริเวณขอบ ๆ ที่ซ้อนทับกับสายคอมพิวเตอร์สายอื่น มาลองยกตัวอย่างกันก็ได้ โดยใช้คติส่วนตัวของผมเองล้วน ๆ เช่น ถ้าเป็นการทำวิจัยทาง Neural Network แต่ล่ะสายคอมพิวเตอร์ ควรจะค้นคว้าวิจัยในบทบาทของตัวเองยังไงบ้าง
ผมต้องส่งการบ้านในหัวข้อ “งานวิจัย NP ในปัจจุบัน” พอค้น ๆ ไปในอินเทอร์เน็ตถึงได้พบว่า อย่าว่าแต่ของคนไทยเลย ขนาดของพวกฝรั่งก็ยังเขียนลำดับให้เข้าใจไม่ค่อยได้ คือ เขาจะเขียนข้าม ๆ เป็นห้วง ๆ ไม่ลำดัีบเป็นขั้น ๆ เขาจะถือว่ารู้แล้ว (ซึ่งจริง ๆ เราไม่รู้) ดังนั้น ผมก็เลยต้องอ่านจากหลาย ๆ ที่ แล้วเอามาประมวลเป็นลำดับขั้นตอนเพื่อส่งการบ้าน