สปอยล์เปเปอร์ Speech synthesis from neural decoding of spoken sentences แบบไม่วิชาการ

ไท้ ปริญญา — Fri, 03 May 2019 16:29:54 +0000

เพิ่งอ่านเปเปอร์นี้จบ บันเทิงมาก ความรู้สึกเหมือนดูมาสเตอร์เชฟทำอาหาร

SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES

เปเปอร์นี้ตีพิมพ์ในวารสารเนเจอร์ เมื่อวันที่ 25 เมษายน 2562 ที่ผ่านมา เป็นงานวิจัยเพื่อสังเคราะห์เสียงพูดจากสมองออกมาเป็นไฟล์เสียงโดยตรง โดยไม่ผ่านการออกเสียงจากปาก

อ่านเนื้อหาแล้ว นึกว่าเป็นงานวิจัยที่ตีพิมพ์ใน SIG ACM หรือ IEEE Transaction มีแต่ศัพท์ EE กับ CS เต็มไปหมด

งานวิจัยที่น่าสนใจมาก เพราะเปเปอร์นี้จริง ๆ แล้ว สามารถแยกตีพิมพ์เจาะลึกเนื้อหาได้เป็น 3 เปเปอร์

ขั้นตอนในเปเปอร์ SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES

ถ้าแยกเป็น 3 เปเปอร์ จะได้เนื้อหาดังนี้

เปเปอร์แรก เป็นงานสอนเครื่องให้รู้ว่า สัญญาณจากสมอง ตรงกับการขยับลิ้น กราม และริมฝีปากยังไง ประโยชน์ของงานวิจัย ตัวอย่างเช่น ต่อไปเราสามารถใช้สมองสั่งหุ่นยนต์ให้ขยับปากตามความคิดที่จะพูดของเราได้

เปเปอร์สอง เป็นงานสอนให้เครื่องรู้ว่า การขยับลิ้น กราม และริมฝีปาก ตรงกับการออกเสียงคำหรือประโยคอะไร ประโยชน์ของงานวิจัย ตัวอย่างเช่น เอาไว้อ่านปาก เพื่อรู้ว่าพูดอะไร

เปเปอร์สาม เป็นงานสอนให้เครื่องรู้ว่า เสียงพูดที่ไม่ปะติดปะต่อ แหบพร่า ฟังไม่ค่อยรู้เรื่อง ตรงกับประโยคเสียงพูดที่สมบูรณ์ใด

ว่าตามจริง แยกวิจัยก็คือยากแล้ว แต่นี่เอามารวมกัน มันเลยอลังการมาก

ทีนี้มาคุยกันเกี่ยวกับจุดที่น่าสนใจในงานวิจัยนี้ในมุมมองส่วนตัว

จุดแรก วิธีการได้มาซึ่งข้อมูลในการสอนเครื่อง ซึ่งผู้วิจัยใช้วิธีผ่าตัดกระโหลกของผู้ทดสอบ เพื่อแปะเซ็นเซอร์ไว้บนพื้นผิวของเปลือกสมอง

ครับ เซ็นเซอร์วางแปะอยู่ตรงนั้นบนเปลือกสมอง และนี่คือสาเหตุว่าทำไมชื่อแรกของเปเปอร์จึงเป็นคุณหมอผ่าตัด และเปเปอร์นี้ถึงต้องตีพิมพ์ในวารสารเนเจอร์!!!

ปรกติเคยเจอแต่แปะเซ็นเซอร์บนกระโหลก หรือใช้วิธี fMRI แต่นี่ไปไกลล่ะ เล่นปลูกถ่ายเซ็นเซอร์กันเลยทีเดียว

และนอกจากนี้ เพราะสัญญาณที่ได้จากสมองมันยังไม่ชัวร์ เลยทำให้ผู้วิจัยต้องติดเซ็นเซอร์เอาไว้ที่ลิ้น กราม และริมฝีปากของผู้ทดสอบ เพื่อเก็บข้อมูลด้วย

สิ่งที่น่าสนใจในจุดที่สองก็คือ การส่งต่อเหตุและผล ในงานวิจัยทาง Machine Learning ส่วนใหญ่ เรามักสนใจเหตุและผลจังหวะเดียว เช่น เหตุเพราะผลไม้เป็นสีแดง เปลือกมันวาว เนื้อแข็ง ผลก็ควรแปลว่ามันเป็นแอปเปิ้ล จังหวะเดียวจบ

แต่งานวิจัยนี้มีการส่งต่อเหตุและผลถึงสามจังหวะ

จังหวะแรก เหตุเพราะสมองคิดแบบนี้ ผลจึงทำให้ลิ้น กราม ริมฝีปากขยับแบบนี้

จังหวะสอง เหตุเพราะลิ้น กราม ริมฝีปากขยับแบบนี้ จึงทำให้ออกเสียงพร่า ฟังไม่ค่อยชัดแบบนี้

และจังหวะสาม เหตุเพราะเสียงพร่า ฟังไม่ค่อยชัดแบบนี้ จึงทำให้ตีความได้ว่าพูดประโยคอะไรออกมา

ประมาณนี้

เนื่องจากในเปเปอร์นี้มีการอ้างอิงทฤษฎีทางการแพทย์ (เล็กน้อย) และทฤษฎีการคำนวณสำหรับคอมพิวเตอร์ (เยอะ ๆ) ไว้หลายตัวมาก ขอไม่ลงรายละเอียดแล้วกันครับ

รายงานสรุปของวารสารเนเจอร์ ที่เกี่ยวกับ SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES

speech synthesis – PARINYA.NET

สปอยล์เปเปอร์ Speech synthesis from neural decoding of spoken sentences แบบไม่วิชาการ