ผมไม่แน่ใจว่า Wikipedia ถูกจัดอันดับจาก Guinness World Records ให้เป็นสารานุกรมที่มีหัวข้อมากที่สุดในโลกแล้วหรือยัง? แต่เท่าที่ดูจากหัวข้อภาษาอังกฤษที่มีถึง 2,599,049 หัวข้อ (ณ วันที่เขียน) ก็เลยคิดว่าถึงมันจะไม่ได้ถูกจัดอันดับ มันก็น่าจะเป็นสารานุกรมที่มีข้อมูลมากมายมหาศาลที่สุดในโลกแล้ว

โดยพฤติกรรมในการอ่าน Wikipedia ของผม ผมจะหาหัวข้อที่ผมสนใจ แล้วอ่านไล่ลงมาเรื่อย ๆ จากนั้นก็จะมีเหตุจูงใจให้ต้องอ่านหัวข้อถัดไปเพราะ …

  1. มันมี Interlink Wiki ชี้ไปยังหัวข้ออื่น
  2. มันมีการแบ่งตอน “See Also” เพื่อให้โดดไปยังหัวข้อที่เกี่ยวข้อง

แต่บางครั้งก็มีปัญหาอันเกิดจากความโลภอยู่เหมือนกัน เพราะกวาดสายตาไปแล้วก็พบว่ามี Interlink Wiki และ “See Also” ที่น่าสนใจเยอะ ยิ่งอ่านก็ยิ่งตาลาย เพราะมีหัวข้อเชื่อมต่อกันไปเรื่อย ๆ แบบหนึ่งต่อกลุ่ม … อ่านหน้านึงเจอ Interlink Wiki ที่น่าสนใจอีกเป็นสิบ ในขณะที่มี Interlink Wiki ที่ไม่น่าสนใจในหน้าเดียวกันอีกเป็นร้อย!!!

น่าเสียดายที่ระบบ MediaWiki มันไม่เหมือนกับของ Amazon เขา เพราะถ้าเป็น Amazon เขาจะเก็บความต้องการของผู้เยี่ยมชมเว็บไซต์เอาไว้ เมื่อผู้เยี่ยมชมเว็บไซต์ค้นหาสินค้าตัวใด เขาก็จะประเมินแล้วนำเอาสินค้าที่เกี่ยวข้องซึ่ง “คาดว่า” ผู้เยี่ยมชมจะสนใจ ออกมาแสดงให้เห็น อีกทั้งยังจำเอาไว้ด้วยว่าผู้เยี่ยมชมท่านดังกล่าว นิยมชมชอบในสินค้าประเภทใด เพื่อจะได้นำสินค้าอื่น ๆ ที่เกี่ยวข้องมาแสดงให้เห็นในครั้งถัด ๆ ไป!

นั่นน่าจะถือเป็นจุดบอดเล็ก ๆ เท่าอนุภาคนิวตรอนของ MediaWiki ซึ่งก็ไม่ใช่เรื่องร้ายแรงอะไรนักต่อภาพรวมทั้งหมดของ Wikipedia เอง แต่โดยส่วนตัวแล้วผมก็มองว่าน่าจะเป็นการดี ถ้าเราจะสามารถสร้างระบบ Agent ขึ้นมาเพื่อครอบหรือเชื่อมเข้ากับ Wikipedia เพื่อจะได้สามารถเลือกหัวข้อที่น่าสนใจ ซึ่งสอดคล้องกับพฤติกรรมและรสนิยมของผู้เยี่ยมชมเว็บไซต์ได้

ผมยังไม่เคยเขียน Extension บน MediaWiki ก็เลยไม่รู้ว่ามันมีกลไกให้อ่าน/เขียน Cookies ได้หรือเปล่า? เพราะไม่เห็นทางอื่นว่า Wikipedia จะรู้จักกับผู้เยี่ยมชมที่เป็น Anonymous ได้ยังไง หากไม่ใช้วิธีการติดต่อผ่าน Cookies ที่ฝังอยู่ใน Browser ของเครื่องนั้น ๆ!

แต่ Wikipedia เองก็คงไม่ใจกว้างพอที่จะให้เรา Enable Extension ที่เราสร้างขึ้นเพื่อให้ Wikipedia ทำตามใจปรารถนาของเราได้ … งั้นมันก็คงช่วยไม่ได้ที่จะต้องวกกลับมาถึงความน่าจะเป็นของการทำ Agent แทน

ที่ตอนนี้ผมคิดเอาไว้ก็คืออันดับแรกคงต้องทำ Web Crawler แบบเฉพาะ เพื่อเอาไว้ชอนไชใน Wikipedia โดยเฉพาะ อือม ตั้งชื่อโก้ ๆ ว่า “Wiki Crawler” ดีกว่า

จากนั้นก็ให้มันชอนไชไต่ตอมไปตาม Interlink Wiki ไปเรื่อย ๆ แล้วให้มันเก็บเฉพาะ Keyword ของ Interlink Wiki เอาไว้ พร้อมทั้งใช้อัลกอริธึม (ซึ่งยังคิดไม่ออก) ทำการวิเคราะห์ Keyword แล้วเชื่อม Keyword ที่มีความเกี่ยวข้องเข้าไว้ด้วยกัน

พอทำเสร็จแล้วเราก็จะได้ “Keyword Interlink Wiki” อันเป็นฐานข้อมูลที่มีค่าขึ้นมา จากนั้นก็สร้าง Web Application ขึ้นมาซักตัวนึงเพื่อเป็น Agent ระหว่าง Wikipedia กับผู้ใช้ เมื่อผู้ใช้กรอก Keyword ใด ๆ ผ่านหน้าเว็บดังกล่าว มันก็จะสร้างรายการไฮเปอร์ลิงก์เพื่อชี้ไปยัง Keyword ที่้ต้องการใน Wikipedia แบบตรง ๆ อีกทั้งยังแสดงรายการไฮเปอร์ลิงก์อื่น ๆ ที่มีความเกี่ยวข้องกันภายใน Wikipedia อีกด้วย!!!

ซึ่งในช่วงแรกมันก็จะแสดงรายการที่เกี่ยวข้องในแบบที่มันเดาเอาเองว่าเรา “สนใจ” แต่หลังจากที่เราหาข้อมูลผ่านมันไปเรื่อย ๆ มันก็จะเริ่มจดจำว่าเรามักจะค้น Keyword ที่เกี่ยวข้องกับอะไรบ้าง และเมื่อมันมีข้อมูลรสนิยมของผู้ใช้อย่างเราในระดับหนึ่ง มันก็จะสามารถเดาได้แล้วว่า ข้อมูลอะไรบ้างที่เรา “สนใจ” จริง ๆ … จากนั้นจึงจับคู่ข้อมูลที่เราค้นหา ผนวกกับรสนิยมของเรา แล้วประมวลผลด้วยอัลกอริธึมระดับสุดยอด (ซึ่งยังคิดไม่ออก) แล้วจึงแสดงผลรายการไฮเปอร์ลิงก์อื่นที่น่าสนใจภายใน Wikipedia ออกมา!!!

ต่อไปหากผมค้น Keyword ด้วยคำว่า “War” และมันก็รู้ว่าผมมักจะค้นข้อมูลเกี่ยวกับของกิน มันก็อาจจะสามารถแสดงผล Keyword ต่าง ๆ ที่เกี่ยวกับ อาหารในกองทัพ, อาหารในอวกาศ, การถนอมอาหารในสงคราม, สงครามเพราะขาดอาหาร, อาหารมีพิษสำหรับสร้างอาวุธสงคราม, บริษัทผลิตอาหารเพื่อสงคราม หรือ สมุนไพรเพื่อการทหาร … ก็เป็นได้

[tags]Wikipedia, Interlink, See Also, Smart Wiki, ไฮเปอร์ลิงก์, Agent, Keyword, Cookies[/tags]

Related Posts

6 thoughts on “Smart Wiki

  1. ถ้าให้ wiki แสดงแต่สิ่งที่คนชอบอ่าน สิ่งที่ถูกเพิ่มเติมแก้ไขก็คือสิ่งที่คนชอบ แล้วสิ่งที่คนไม่ชอบมันก็จะไม่มีข้อมูลให้คนกลุ่มน้อยเข้าไปอ่านซิครับ น่าสงสารแย่

  2. T-T อ้าวกลายเป็นน่าสงสารไป แย่เลยสิแบบนี้คุณเอ

    อ๊ะจริงดิหลาน AMp ลุงไม่เคยใช้ personalize search ของ google เลยอ่ะ เลยไม่รู้ อิ อิ 😛

  3. สารานุกรมมันก็เป็นเยี่ยงนี้ล่ะครับ มีทุกเรื่องเชื่อถือได้บ้างไม่ได้บ้าง แต่ที่สำคัญก็คือ เขาต้องการนำเสนอข้อมูล ทั้งหมด ขอย้ำว่าทั้งหมดที่เขามี เราเป็นผู้บริโภคเลยต้องเสพทุกๆสิ่งที่เขามีให้ ดูยัดเยียดๆยังไงไม่รู้แฮะ

  4. อ่านมาจนจบ ผมนึกกลัวเลยครับพี่ไท้

    เซียนเว็บปั่น…คงฝันหวาน(ได้ไหม) แทนที่จะพึ่ง API Google มากระชากสารานุกรมยอดฮิตแทน อิอิ

  5. Interlink คือตัวข้อความที่มันกดแล้วเป็นลิ้งไปดูข้อมูลของคำนั้นใช่มั้ยครับ

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *