<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>speech synthesis &#8211; PARINYA.NET</title>
	<atom:link href="https://www.parinya.net/node/tag/speech-synthesis/feed" rel="self" type="application/rss+xml" />
	<link>https://www.parinya.net</link>
	<description>ทฤษฎีการคำนวณสำหรับคอมพิวเตอร์และทฤษฎีการประมวลผลสารสนเทศ</description>
	<lastBuildDate>Fri, 30 Aug 2019 05:41:39 +0000</lastBuildDate>
	<language>th</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.7.2</generator>
	<item>
		<title>สปอยล์เปเปอร์ Speech synthesis from neural decoding of spoken sentences แบบไม่วิชาการ</title>
		<link>https://www.parinya.net/node/2803</link>
					<comments>https://www.parinya.net/node/2803#respond</comments>
		
		<dc:creator><![CDATA[ไท้ ปริญญา]]></dc:creator>
		<pubDate>Fri, 03 May 2019 16:29:54 +0000</pubDate>
				<category><![CDATA[Literature Review]]></category>
		<category><![CDATA[neural decoding]]></category>
		<category><![CDATA[speech synthesis]]></category>
		<guid isPermaLink="false">http://www.parinya.net/?p=2803</guid>

					<description><![CDATA[เพิ่งอ่านเปเปอร์นี้จบ บัน]]></description>
										<content:encoded><![CDATA[
<p>เพิ่งอ่านเปเปอร์นี้จบ บันเทิงมาก ความรู้สึกเหมือนดูมาสเตอร์เชฟทำอาหาร</p>



<figure class="wp-block-image"><img fetchpriority="high" decoding="async" width="1024" height="373" src="https://www.parinya.net/wp-content/uploads/2019/05/58917004_10158422516592586_6823786109365911552_o-e1556900740327-1024x373.jpg" alt="SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES" class="wp-image-2804" srcset="https://www.parinya.net/wp-content/uploads/2019/05/58917004_10158422516592586_6823786109365911552_o-e1556900740327-1024x373.jpg 1024w, https://www.parinya.net/wp-content/uploads/2019/05/58917004_10158422516592586_6823786109365911552_o-e1556900740327-300x109.jpg 300w, https://www.parinya.net/wp-content/uploads/2019/05/58917004_10158422516592586_6823786109365911552_o-e1556900740327-768x280.jpg 768w, https://www.parinya.net/wp-content/uploads/2019/05/58917004_10158422516592586_6823786109365911552_o-e1556900740327.jpg 1512w" sizes="(max-width: 1024px) 100vw, 1024px" /><figcaption>SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES</figcaption></figure>



<p>เปเปอร์นี้ตีพิมพ์ในวารสารเนเจอร์ เมื่อวันที่ 25 เมษายน 2562 ที่ผ่านมา เป็นงานวิจัยเพื่อสังเคราะห์เสียงพูดจากสมองออกมาเป็นไฟล์เสียงโดยตรง โดยไม่ผ่านการออกเสียงจากปาก</p>



<p>อ่านเนื้อหาแล้ว นึกว่าเป็นงานวิจัยที่ตีพิมพ์ใน SIG ACM หรือ IEEE Transaction มีแต่ศัพท์ EE กับ CS เต็มไปหมด</p>



<p>งานวิจัยที่น่าสนใจมาก เพราะเปเปอร์นี้จริง ๆ แล้ว สามารถแยกตีพิมพ์เจาะลึกเนื้อหาได้เป็น 3 เปเปอร์</p>



<figure class="wp-block-image"><img decoding="async" width="1024" height="920" src="https://www.parinya.net/wp-content/uploads/2019/05/58543694_10158422516622586_6121776822980968448_o-1024x920.jpg" alt="ขั้นตอนในเปเปอร์ SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES" class="wp-image-2805" srcset="https://www.parinya.net/wp-content/uploads/2019/05/58543694_10158422516622586_6121776822980968448_o-1024x920.jpg 1024w, https://www.parinya.net/wp-content/uploads/2019/05/58543694_10158422516622586_6121776822980968448_o-300x270.jpg 300w, https://www.parinya.net/wp-content/uploads/2019/05/58543694_10158422516622586_6121776822980968448_o-768x690.jpg 768w, https://www.parinya.net/wp-content/uploads/2019/05/58543694_10158422516622586_6121776822980968448_o.jpg 1533w" sizes="(max-width: 1024px) 100vw, 1024px" /><figcaption>ขั้นตอนในเปเปอร์ SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES</figcaption></figure>



<p>ถ้าแยกเป็น 3 เปเปอร์ จะได้เนื้อหาดังนี้</p>



<ul class="wp-block-list"><li>เปเปอร์แรก เป็นงานสอนเครื่องให้รู้ว่า สัญญาณจากสมอง ตรงกับการขยับลิ้น กราม และริมฝีปากยังไง ประโยชน์ของงานวิจัย ตัวอย่างเช่น ต่อไปเราสามารถใช้สมองสั่งหุ่นยนต์ให้ขยับปากตามความคิดที่จะพูดของเราได้</li></ul>



<ul class="wp-block-list"><li>เปเปอร์สอง เป็นงานสอนให้เครื่องรู้ว่า การขยับลิ้น กราม และริมฝีปาก ตรงกับการออกเสียงคำหรือประโยคอะไร ประโยชน์ของงานวิจัย ตัวอย่างเช่น เอาไว้อ่านปาก เพื่อรู้ว่าพูดอะไร</li></ul>



<ul class="wp-block-list"><li>เปเปอร์สาม เป็นงานสอนให้เครื่องรู้ว่า เสียงพูดที่ไม่ปะติดปะต่อ แหบพร่า ฟังไม่ค่อยรู้เรื่อง ตรงกับประโยคเสียงพูดที่สมบูรณ์ใด</li></ul>



<p>ว่าตามจริง แยกวิจัยก็คือยากแล้ว แต่นี่เอามารวมกัน มันเลยอลังการมาก</p>



<p>ทีนี้มาคุยกันเกี่ยวกับจุดที่น่าสนใจในงานวิจัยนี้ในมุมมองส่วนตัว</p>



<p>จุดแรก วิธีการได้มาซึ่งข้อมูลในการสอนเครื่อง ซึ่งผู้วิจัยใช้วิธีผ่าตัดกระโหลกของผู้ทดสอบ เพื่อแปะเซ็นเซอร์ไว้บนพื้นผิวของเปลือกสมอง</p>



<p>ครับ เซ็นเซอร์วางแปะอยู่ตรงนั้นบนเปลือกสมอง และนี่คือสาเหตุว่าทำไมชื่อแรกของเปเปอร์จึงเป็นคุณหมอผ่าตัด และเปเปอร์นี้ถึงต้องตีพิมพ์ในวารสารเนเจอร์!!!</p>



<p>ปรกติเคยเจอแต่แปะเซ็นเซอร์บนกระโหลก หรือใช้วิธี fMRI แต่นี่ไปไกลล่ะ เล่นปลูกถ่ายเซ็นเซอร์กันเลยทีเดียว</p>



<p>และนอกจากนี้ เพราะสัญญาณที่ได้จากสมองมันยังไม่ชัวร์ เลยทำให้ผู้วิจัยต้องติดเซ็นเซอร์เอาไว้ที่ลิ้น กราม และริมฝีปากของผู้ทดสอบ เพื่อเก็บข้อมูลด้วย</p>



<p>สิ่งที่น่าสนใจในจุดที่สองก็คือ การส่งต่อเหตุและผล ในงานวิจัยทาง Machine Learning ส่วนใหญ่ เรามักสนใจเหตุและผลจังหวะเดียว เช่น เหตุเพราะผลไม้เป็นสีแดง เปลือกมันวาว เนื้อแข็ง ผลก็ควรแปลว่ามันเป็นแอปเปิ้ล จังหวะเดียวจบ</p>



<p>แต่งานวิจัยนี้มีการส่งต่อเหตุและผลถึงสามจังหวะ</p>



<p>จังหวะแรก เหตุเพราะสมองคิดแบบนี้ ผลจึงทำให้ลิ้น กราม ริมฝีปากขยับแบบนี้</p>



<p>จังหวะสอง เหตุเพราะลิ้น กราม ริมฝีปากขยับแบบนี้ จึงทำให้ออกเสียงพร่า ฟังไม่ค่อยชัดแบบนี้</p>



<p>และจังหวะสาม เหตุเพราะเสียงพร่า ฟังไม่ค่อยชัดแบบนี้ จึงทำให้ตีความได้ว่าพูดประโยคอะไรออกมา</p>



<p>ประมาณนี้</p>



<p>เนื่องจากในเปเปอร์นี้มีการอ้างอิงทฤษฎีทางการแพทย์ (เล็กน้อย) และทฤษฎีการคำนวณสำหรับคอมพิวเตอร์ (เยอะ ๆ) ไว้หลายตัวมาก ขอไม่ลงรายละเอียดแล้วกันครับ</p>



<figure class="wp-block-image"><img decoding="async" width="1024" height="793" src="https://www.parinya.net/wp-content/uploads/2019/05/58691869_10158422537212586_5641871020005523456_o-1024x793.jpg" alt="รายงานสรุปของวารสารเนเจอร์ ที่เกี่ยวกับ SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES" class="wp-image-2806" srcset="https://www.parinya.net/wp-content/uploads/2019/05/58691869_10158422537212586_5641871020005523456_o-1024x793.jpg 1024w, https://www.parinya.net/wp-content/uploads/2019/05/58691869_10158422537212586_5641871020005523456_o-300x232.jpg 300w, https://www.parinya.net/wp-content/uploads/2019/05/58691869_10158422537212586_5641871020005523456_o-768x595.jpg 768w, https://www.parinya.net/wp-content/uploads/2019/05/58691869_10158422537212586_5641871020005523456_o.jpg 1509w" sizes="(max-width: 1024px) 100vw, 1024px" /><figcaption>รายงานสรุปของวารสารเนเจอร์ ที่เกี่ยวกับ SPEECH SYNTHESIS FROM NEURAL DECODING OF SPOKEN SENTENCES</figcaption></figure>
]]></content:encoded>
					
					<wfw:commentRss>https://www.parinya.net/node/2803/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
