วิธีการรับรู้คำพูด บริการรู้จำคำพูดและแปลข้อความออนไลน์สองบริการ

บทช่วยสอน

ในบทความนี้ฉันต้องการดูพื้นฐานของการพัฒนาซอฟต์แวร์ที่น่าสนใจเช่นการรู้จำเสียง แน่นอนว่าฉันไม่ใช่ผู้เชี่ยวชาญในหัวข้อนี้ ดังนั้นเรื่องราวของฉันจะเต็มไปด้วยความไม่ถูกต้อง ข้อผิดพลาด และความผิดหวัง อย่างไรก็ตาม เป้าหมายหลักของ "งาน" ของฉันดังที่เข้าใจได้จากชื่อเรื่อง ไม่ใช่การวิเคราะห์ปัญหาอย่างมืออาชีพ แต่เป็นคำอธิบายแนวคิดพื้นฐาน ปัญหา และแนวทางแก้ไข โดยทั่วไปฉันขอให้ทุกคนที่สนใจมาหาแมว!

อารัมภบท

เริ่มจากความจริงที่ว่าคำพูดของเรานั้นเป็นลำดับของเสียง ในทางกลับกันเสียงคือการซ้อนทับ (การซ้อนทับ) ของการสั่นสะเทือนของเสียง (คลื่น) ของความถี่ที่ต่างกัน คลื่นตามที่เราทราบจากฟิสิกส์นั้นมีลักษณะเฉพาะด้วยสองคุณลักษณะ - แอมพลิจูดและความถี่

ด้วยวิธีนี้ การสั่นสะเทือนทางกลจะถูกแปลงเป็นชุดตัวเลขที่เหมาะสำหรับการประมวลผลบนคอมพิวเตอร์สมัยใหม่

ตามมาว่างานการรู้จำเสียงนั้นขึ้นอยู่กับ "การเปรียบเทียบ" ชุดของค่าตัวเลข (สัญญาณดิจิทัล) และคำจากพจนานุกรมบางพจนานุกรม (เช่น ภาษารัสเซีย)

เรามาดูกันว่าในความเป็นจริงแล้ว "การเปรียบเทียบ" นี้สามารถนำมาใช้ได้อย่างไร

ป้อนข้อมูล

สมมติว่าเรามีไฟล์/สตรีมที่มีข้อมูลเสียง ก่อนอื่นเราต้องเข้าใจวิธีการทำงานและวิธีอ่านก่อน ลองดูตัวเลือกที่ง่ายที่สุด - ไฟล์ WAV

รูปแบบแสดงถึงการมีสองบล็อกในไฟล์ บล็อกแรกคือส่วนหัวที่มีข้อมูลเกี่ยวกับสตรีมเสียง: บิตเรต ความถี่ จำนวนช่อง ความยาวไฟล์ ฯลฯ บล็อกที่สองประกอบด้วยข้อมูล "ดิบ" ซึ่งเป็นสัญญาณดิจิทัลเดียวกัน ซึ่งเป็นชุดของค่าแอมพลิจูด

ตรรกะในการอ่านข้อมูลในกรณีนี้ค่อนข้างง่าย เราอ่านส่วนหัว ตรวจสอบข้อจำกัดบางประการ (เช่น ไม่มีการบีบอัดข้อมูล) บันทึกข้อมูลในอาร์เรย์ที่จัดสรรเป็นพิเศษ

การยอมรับ

ตามทฤษฎีแล้วตอนนี้เราสามารถเปรียบเทียบ (องค์ประกอบต่อองค์ประกอบ) ตัวอย่างที่เรามีกับตัวอย่างอื่นซึ่งเป็นข้อความที่เรารู้จักอยู่แล้ว นั่นคือพยายาม "รับรู้" คำพูด... แต่อย่าทำอย่างนี้จะดีกว่า :)

วิธีการของเราจะต้องต้านทาน (อย่างน้อยก็เพียงเล็กน้อย) ต่อการเปลี่ยนแปลงของน้ำเสียง (ของผู้ออกเสียงคำ) ความดังและความเร็วในการออกเสียง โดยปกติแล้ว สิ่งนี้ไม่สามารถทำได้โดยการเปรียบเทียบสัญญาณเสียงทั้งสองแบบทีละองค์ประกอบ

ดังนั้นเราจะใช้เส้นทางที่แตกต่างออกไปเล็กน้อย

เฟรม

ก่อนอื่น เรามาแบ่งข้อมูลของเราออกเป็นช่วงเวลาสั้นๆ - เฟรม ยิ่งกว่านั้นเฟรมไม่ควรต่อเนื่องกันอย่างเคร่งครัด แต่ "ทับซ้อนกัน" เหล่านั้น. จุดสิ้นสุดของเฟรมหนึ่งจะต้องตัดกับจุดเริ่มต้นของอีกเฟรมหนึ่ง

เฟรมเป็นหน่วยการวิเคราะห์ข้อมูลที่เหมาะสมมากกว่าค่าสัญญาณเฉพาะ เนื่องจากการวิเคราะห์คลื่นในช่วงเวลาหนึ่งจะสะดวกกว่าในจุดที่กำหนดมาก การจัดเรียงเฟรมแบบ "ทับซ้อนกัน" ช่วยให้คุณสามารถปรับผลลัพธ์ของการวิเคราะห์เฟรมได้อย่างราบรื่น โดยเปลี่ยนแนวคิดของเฟรมให้เป็น "หน้าต่าง" ที่เคลื่อนที่ไปตามฟังก์ชันดั้งเดิม (ค่าสัญญาณ)

ได้มีการทดลองแล้วว่าความยาวเฟรมที่เหมาะสมควรสอดคล้องกับช่องว่าง 10 มิลลิวินาที โดยมี "การทับซ้อนกัน" อยู่ที่ 50% เมื่อพิจารณาว่าความยาวคำโดยเฉลี่ย (อย่างน้อยในการทดลองของฉัน) คือ 500 มิลลิวินาที ขั้นตอนนี้จะให้ค่าประมาณ 500 / (10 * 0.5) = 100 เฟรมต่อคำ

แยกคำ

งานแรกที่ต้องแก้ไขเมื่อจดจำคำพูดคือการแบ่งคำพูดนี้ออกเป็นคำแต่ละคำ เพื่อความง่าย สมมติว่าในกรณีของเรา คำพูดมีการหยุดชั่วคราว (ช่วงความเงียบ) ซึ่งถือได้ว่าเป็น "ตัวคั่น" ของคำ

ในกรณีนี้ เราจำเป็นต้องค้นหาค่าที่แน่นอน เกณฑ์ - ค่าด้านบนเป็นคำ ด้านล่างเป็นความเงียบ อาจมีหลายตัวเลือกที่นี่:

ตั้งค่าเป็นค่าคงที่ (ทำงานหากสัญญาณดั้งเดิมถูกสร้างขึ้นเสมอภายใต้เงื่อนไขเดียวกันในลักษณะเดียวกัน)
ค่าสัญญาณคลัสเตอร์โดยการเลือกชุดค่าที่สอดคล้องกับความเงียบอย่างชัดเจน (ซึ่งจะใช้ได้ก็ต่อเมื่อความเงียบครอบครองส่วนสำคัญของสัญญาณดั้งเดิม)
วิเคราะห์เอนโทรปี

ดังที่คุณเดาไว้แล้ว ตอนนี้เราจะพูดถึงประเด็นสุดท้าย :) เริ่มจากข้อเท็จจริงที่ว่าเอนโทรปีเป็นหน่วยวัดความผิดปกติ “เป็นหน่วยวัดความไม่แน่นอนของประสบการณ์ใดๆ” (c) ในกรณีของเรา เอนโทรปีหมายถึงปริมาณสัญญาณของเรา "ผันผวน" ภายในกรอบที่กำหนด

สมมติว่าสัญญาณของเราถูกทำให้เป็นมาตรฐานและค่าทั้งหมดอยู่ในช่วง [-1;1];
มาสร้างฮิสโตแกรม (ความหนาแน่นของการกระจาย) ของค่าสัญญาณเฟรมกันดีกว่า:

ลองคำนวณเอนโทรปีเป็น

;

แล้วเราได้ค่าเอนโทรปีมา แต่นี่เป็นเพียงคุณลักษณะอีกประการหนึ่งของเฟรม และเพื่อแยกเสียงออกจากความเงียบ เรายังจำเป็นต้องเปรียบเทียบกับบางสิ่งบางอย่าง บางบทความแนะนำให้ใช้เกณฑ์เอนโทรปีเท่ากับค่าเฉลี่ยระหว่างค่าสูงสุดและค่าต่ำสุด (ในทุกเฟรม) อย่างไรก็ตาม ในกรณีของฉัน แนวทางนี้ไม่ได้ให้ผลลัพธ์ที่ดีใดๆ
โชคดีที่เอนโทรปี (ตรงข้ามกับค่ากำลังสองเฉลี่ยเดียวกัน) เป็นปริมาณที่ค่อนข้างอิสระ ซึ่งทำให้ฉันสามารถเลือกค่าของเกณฑ์ในรูปแบบของค่าคงที่ (0.1)

อย่างไรก็ตาม ปัญหาไม่ได้จบเพียงแค่นั้น: (เอนโทรปีสามารถย้อยกลางคำ (สระ) หรืออาจกระโดดขึ้นทันทีเนื่องจากมีเสียงรบกวนเล็กน้อย เพื่อที่จะจัดการกับปัญหาแรก เราต้องแนะนำ แนวคิดเรื่อง “ระยะห่างขั้นต่ำระหว่างคำ” และ “ติดกัน” ชุดเฟรมใกล้เคียงที่แยกจากกันเนื่องจากการทรุดตัว ปัญหาที่สองแก้ไขได้โดยใช้ “ความยาวคำขั้นต่ำ” และตัดผู้สมัครที่ไม่ผ่านการคัดเลือกออกทั้งหมด (และไม่ผ่านการคัดเลือก) ใช้ในจุดแรก)

หากโดยหลักการแล้วคำพูดนั้นไม่ "ชัดเจน" คุณสามารถลองแบ่งเฟรมชุดดั้งเดิมออกเป็นลำดับย่อยที่เตรียมไว้ในลักษณะใดลักษณะหนึ่ง ซึ่งแต่ละเฟรมจะต้องผ่านขั้นตอนการจดจำ แต่นั่นเป็นเรื่องราวที่แตกต่างอย่างสิ้นเชิง :)

ดังนั้นเราจึงมีชุดของเฟรมที่สอดคล้องกับคำบางคำ เราสามารถเดินตามเส้นทางที่มีแนวต้านน้อยที่สุดและใช้กำลังสองเฉลี่ยของค่าทั้งหมด (Root Mean Square) เป็นลักษณะตัวเลขของเฟรม อย่างไรก็ตาม ตัวชี้วัดดังกล่าวมีข้อมูลน้อยมากซึ่งเหมาะสำหรับการวิเคราะห์เพิ่มเติม

นี่คือจุดที่ค่าสัมประสิทธิ์ช่องท้องความถี่เมลเข้ามามีบทบาท ตามวิกิพีเดีย (ซึ่งตามที่คุณทราบไม่ได้โกหก) MFCC เป็นตัวแทนของสเปกตรัมพลังงานของสัญญาณ ข้อดีของการใช้มีดังนี้:

มีการใช้สเปกตรัมสัญญาณ (นั่นคือ การขยายพื้นฐานของฟังก์ชันมุมฉาก [co]ไซน์) ซึ่งทำให้สามารถพิจารณา "ธรรมชาติ" ของคลื่นของสัญญาณในการวิเคราะห์เพิ่มเติมได้
สเปกตรัมถูกฉายลงบนเมลสเกลพิเศษ ช่วยให้คุณสามารถเน้นความถี่ที่สำคัญที่สุดสำหรับการรับรู้ของมนุษย์
จำนวนค่าสัมประสิทธิ์ที่คำนวณได้สามารถจำกัดไว้ที่ค่าใดก็ได้ (เช่น 12) ซึ่งช่วยให้คุณสามารถ "บีบอัด" เฟรมและผลที่ตามมาคือจำนวนข้อมูลที่ประมวลผล

มาดูกระบวนการคำนวณค่าสัมประสิทธิ์ MFCC สำหรับเฟรมใดเฟรมหนึ่งกัน

ลองจินตนาการถึงเฟรมของเราเป็นเวกเตอร์ โดยที่ N คือขนาดของเฟรม

การขยายอนุกรมฟูริเยร์

ก่อนอื่น เราคำนวณสเปกตรัมของสัญญาณโดยใช้การแปลงฟูริเยร์แบบไม่ต่อเนื่อง (โดยเฉพาะอย่างยิ่งการใช้ FFT ที่ "รวดเร็ว")

นั่นคือผลลัพธ์จะเป็นเวกเตอร์ในรูปแบบต่อไปนี้:

สิ่งสำคัญคือต้องเข้าใจว่าหลังจากการแปลงตามแกน X นี้ เรามีความถี่ (hz) ของสัญญาณ และตามแกน Y เรามีขนาด (เป็นวิธีหลีกหนีจากค่าที่ซับซ้อน):

การคำนวณตัวกรองเมล

มาเริ่มกันที่เมลคืออะไร ตามวิกิพีเดียอีกครั้ง เมลเป็น "หน่วยระดับเสียงทางจิตฟิสิกส์" ที่อิงจากการรับรู้เชิงอัตนัยของคนทั่วไป ขึ้นอยู่กับความถี่ของเสียงเป็นหลัก (รวมถึงระดับเสียงและเสียงต่ำ) กล่าวอีกนัยหนึ่ง ค่านี้แสดงให้เห็นว่าเสียงในความถี่หนึ่งๆ “มีความหมาย” สำหรับเรามากน้อยเพียงใด

คุณสามารถแปลงความถี่เป็นชอล์กได้โดยใช้สูตรต่อไปนี้ (จำไว้ว่าเป็น "สูตร-1"):

การแปลงผกผันมีลักษณะดังนี้ (จำไว้ว่าเป็น "สูตร-2"):

เมล/กราฟความถี่:

แต่กลับมาที่งานของเรากันดีกว่า สมมติว่าเรามีเฟรมจำนวน 256 องค์ประกอบ เรารู้ (จากข้อมูลรูปแบบเสียง) ว่าความถี่เสียงในเฟรมนี้คือ 16000hz สมมติว่าคำพูดของมนุษย์อยู่ในช่วงตั้งแต่ hz ให้เราตั้งค่าจำนวนสัมประสิทธิ์เล็กน้อยที่ต้องการเป็น M = 10 (ค่าที่แนะนำ)

ในการที่จะสลายสเปกตรัมที่ได้รับข้างต้นตามสเกลเมล เราจะต้องสร้างฟิลเตอร์แบบ "หวี" โดยพื้นฐานแล้ว ตัวกรองเมลแต่ละตัวเป็นฟังก์ชันหน้าต่างสามเหลี่ยมที่ช่วยให้คุณสามารถรวมปริมาณพลังงานในช่วงความถี่ที่กำหนด และทำให้ได้ค่าสัมประสิทธิ์เมล เมื่อทราบจำนวนสัมประสิทธิ์เล็กน้อยและช่วงความถี่ที่วิเคราะห์ เราสามารถสร้างชุดตัวกรองดังนี้:

โปรดทราบว่ายิ่งหมายเลขซีเรียลของค่าสัมประสิทธิ์ชอล์กสูงเท่าใด ฐานตัวกรองก็จะกว้างขึ้นเท่านั้น นี่เป็นเพราะความจริงที่ว่าการแบ่งช่วงความถี่ที่เราสนใจเป็นช่วงที่ประมวลผลโดยตัวกรองนั้นเกิดขึ้นในระดับชอล์ก

แต่เรากลับฟุ้งซ่านอีกครั้ง ดังนั้นในกรณีของเรา ช่วงความถี่ที่เราสนใจจะเท่ากับ ตามสูตร-1 ในระดับชอล์ก ช่วงนี้จะเปลี่ยนเป็น

ม[ฉัน] =

โปรดทราบว่าจุดบนมาตราส่วนชอล์กมีระยะห่างเท่ากัน ลองแปลงสเกลกลับเป็นเฮิรตซ์โดยใช้สูตร-2:

ชั่วโมง[ฉัน] =

อย่างที่คุณเห็น ขณะนี้สเกลเริ่มค่อยๆ ยืดออก ดังนั้นจึงช่วยปรับระดับไดนามิกของการเติบโตของ "ความสำคัญ" ที่ความถี่ต่ำและสูง

ตอนนี้เราจำเป็นต้องวางสเกลผลลัพธ์ไว้บนสเปกตรัมของเฟรมของเรา อย่างที่เราจำได้ เรามีความถี่ตามแกน X ความยาวของสเปกตรัมคือ 256 องค์ประกอบ ในขณะที่ 16,000 เฮิร์ตซ์พอดี เมื่อแก้ไขสัดส่วนง่ายๆ คุณจะได้สูตรต่อไปนี้:

f(i) = พื้น((frameSize+1) * h(i) / อัตราตัวอย่าง)

ซึ่งในกรณีของเราเทียบเท่ากัน

ฉ(ไอ) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

แค่นั้นแหละ! เมื่อทราบจุดอ้างอิงบนแกน X ของสเปกตรัมของเราแล้ว การสร้างตัวกรองที่เราต้องการจึงเป็นเรื่องง่ายโดยใช้สูตรต่อไปนี้:

การใช้ตัวกรอง ลอการิทึมของพลังงานสเปกตรัม

การใช้ตัวกรองประกอบด้วยการคูณค่าแบบคู่ด้วยค่าสเปกตรัม ผลลัพธ์ของการดำเนินการนี้คือค่าสัมประสิทธิ์เมล เนื่องจากเรามีฟิลเตอร์ M จึงจะมีจำนวนสัมประสิทธิ์เท่ากัน

อย่างไรก็ตาม เราจำเป็นต้องใช้ตัวกรองเมลไม่ใช่กับค่าสเปกตรัม แต่ใช้กับพลังงานของมัน จากนั้นหาลอการิทึมของผลลัพธ์ เชื่อกันว่าสิ่งนี้จะช่วยลดความไวของค่าสัมประสิทธิ์ต่อเสียงรบกวน

การแปลงโคไซน์

การแปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) ใช้เพื่อให้ได้ค่าสัมประสิทธิ์ "cepstral" เหล่านั้น ความหมายของมันคือ "บีบอัด" ผลลัพธ์ที่ได้รับ โดยเพิ่มความสำคัญของสัมประสิทธิ์แรกและลดความสำคัญของค่าหลัง

ในกรณีนี้ DCTII จะถูกใช้โดยไม่ต้องคูณด้วย (สเกลแฟคเตอร์)

ตอนนี้สำหรับแต่ละเฟรม เรามีชุดค่าสัมประสิทธิ์ M mfcc ที่สามารถใช้สำหรับการวิเคราะห์เพิ่มเติมได้

โค้ดตัวอย่างสำหรับวิธีการข้างต้นสามารถพบได้

อัลกอริธึมการรับรู้

ผู้อ่านที่รัก นี่คือจุดที่ความผิดหวังหลักรอคุณอยู่ บนอินเทอร์เน็ต ฉันได้เห็นการอภิปรายที่ชาญฉลาดมาก (และไม่ฉลาดมาก) มากมายเกี่ยวกับวิธีการจดจำที่ดีกว่า บางคนสนับสนุน Hidden Markov Models บางคนสนับสนุนโครงข่ายประสาทเทียม และโดยพื้นฐานแล้วความคิดของบางคนก็เป็นไปไม่ได้ที่จะเข้าใจ :)

ไม่ว่าในกรณีใด SMM มีการตั้งค่าไว้มากมาย และฉันจะเพิ่มการใช้งานลงในโค้ดของฉัน... ในอนาคต :)

ในขณะนี้ ฉันเสนอให้มุ่งเน้นไปที่วิธีการที่มีประสิทธิภาพน้อยกว่ามาก แต่ง่ายกว่ามาก

ดังนั้น ให้เราจำไว้ว่างานของเราคือการจดจำคำจากพจนานุกรมบางคำ เพื่อความง่าย เราจะจดจำชื่อของตัวเลขสิบตัวแรก: "หนึ่ง", "สอง", "สาม", "สี่", "ห้า", "หก", "เจ็ด", "แปด", "เก้า" "สิบ".

ตอนนี้เรามาหยิบ iPhone/Android แล้วไปหาเพื่อนร่วมงาน L เพื่อขอให้เขียนคำเหล่านี้เพื่อบันทึก ต่อไป ให้เราเชื่อมโยง (ในฐานข้อมูลท้องถิ่นหรือไฟล์ธรรมดา) กับแต่ละคำ L ชุดของค่าสัมประสิทธิ์ mfcc ของบันทึกที่เกี่ยวข้อง

เราจะเรียกการติดต่อนี้ว่า "แบบจำลอง" และกระบวนการนั้นเอง - การเรียนรู้ของเครื่อง! ที่จริงแล้ว แค่เพิ่มตัวอย่างใหม่ลงในฐานข้อมูลก็มีความเชื่อมโยงที่อ่อนแออย่างยิ่งกับการเรียนรู้ของเครื่อง... แต่คำนี้ทันสมัยเกินไป :)

ตอนนี้งานของเราอยู่ที่การเลือกแบบจำลองที่ "ใกล้เคียงที่สุด" สำหรับชุดค่าสัมประสิทธิ์ mfcc (คำที่รู้จัก) เมื่อมองแวบแรกปัญหาสามารถแก้ไขได้ค่อนข้างง่าย:

สำหรับแต่ละโมเดลเราจะค้นหาระยะห่างเฉลี่ย (แบบยุคลิด) ระหว่างเวกเตอร์ mfcc ที่ระบุและเวกเตอร์โมเดล
เราเลือกระยะทางเฉลี่ยที่เล็กที่สุดเป็นแบบจำลองที่ถูกต้อง

อย่างไรก็ตาม คำเดียวกันนี้สามารถออกเสียงได้ทั้งโดย Andrei Malakhov และเพื่อนร่วมงานชาวเอสโตเนียบางคนของเขา กล่าวอีกนัยหนึ่ง ขนาดของเวกเตอร์ mfcc สำหรับคำเดียวกันอาจแตกต่างกันได้

โชคดีที่ปัญหาในการเปรียบเทียบลำดับที่มีความยาวต่างกันได้รับการแก้ไขแล้วในรูปแบบของอัลกอริธึมการแปรปรวนเวลาแบบไดนามิก อัลกอริธึมการเขียนโปรแกรมแบบไดนามิกนี้อธิบายได้อย่างสมบูรณ์แบบทั้งใน Wiki ชนชั้นกลางและใน Orthodox

การเปลี่ยนแปลงเพียงอย่างเดียวที่ต้องทำคือวิธีค้นหาระยะทาง เราต้องจำไว้ว่าเวกเตอร์ mfcc ของแบบจำลองจริงๆ แล้วเป็นลำดับของ mfcc “เวกเตอร์ย่อย” ของมิติ M ที่ได้รับจากเฟรม ดังนั้นอัลกอริทึม DTW จะต้องค้นหาระยะห่างระหว่างลำดับของ "เวกเตอร์ย่อย" เดียวกันของมิติ M นั่นคือระยะทาง (แบบยูคลิด) ระหว่าง mfcc "เวกเตอร์ย่อย" ของเฟรมจะต้องใช้เป็นค่าของเมทริกซ์ระยะทาง

การทดลอง

ฉันไม่มีโอกาสทดสอบประสิทธิภาพของแนวทางนี้กับตัวอย่าง "การฝึกอบรม" จำนวนมาก ผลการทดสอบตัวอย่าง 3 ชุดสำหรับแต่ละคำในสภาวะที่ไม่สังเคราะห์แสดงให้เห็นว่าหากพูดอย่างอ่อนโยนไม่ใช่ผลลัพธ์ที่ดีที่สุด - 65% ของการรับรู้ที่ถูกต้อง

อย่างไรก็ตาม เป้าหมายของฉันคือการสร้างแอปพลิเคชันรู้จำเสียงพูดที่เรียบง่ายที่สุดเท่าที่จะเป็นไปได้ ถ้าจะพูดถึง "การพิสูจน์แนวคิด" :) เพิ่มแท็ก

นักวิทยาศาสตร์ศึกษาปัญหานี้มาประมาณ 70 ปีแล้ว ระบบอุตสาหกรรมระบบแรกถูกสร้างขึ้นในญี่ปุ่นในช่วงครึ่งหลังของทศวรรษที่ 80 เรียกว่าระบบสำหรับการเขียนข้อความตามคำบอกบนพีซี (เครื่องเขียนอักษร) ระบบนี้มีความเชี่ยวชาญเฉพาะด้านที่แคบ

โดยการรู้จำคำพูดของพีซี เราหมายถึงการรู้จำดังกล่าว ซึ่งมีรายละเอียดในการรับรู้คำพูดของบุคคล ในทุกสภาวะ และเมื่อสื่อสารกับบุคคลใดๆ

การแก้ปัญหาถูกขัดขวางโดย:

1) ขาดแนวคิดทางทฤษฎีที่ชัดเจนที่จะอธิบายความซับซ้อนทั้งหมดของการเปลี่ยนแปลงที่ดำเนินการโดยระบบประสาทเมื่อประมวลผลสัญญาณเสียงพูด

2) มีวาจาไพเราะ:

3) ขอบเขตคำเบลอ:

4) อิทธิพลของเสียงข้างเคียงที่มีต่อกัน

5) การออกเสียงที่ไม่ชัดเจนและแม้แต่คำที่ใช้งานได้หายไป

7) สิ่งที่สำคัญอย่างยิ่งในกระบวนการสื่อสารด้วยวาจาคือวิธีการสื่อสารแบบคู่ขนาน:

ก) จลนศาสตร์ (การแสดงออกทางสีหน้า ท่าทาง);

c) Proxemics (ระยะห่างระหว่างบุคคล)

ดังนั้น วันนี้ ARR สามารถดำเนินการได้ภายใต้ข้อจำกัดบางประการเท่านั้น:

1) การรับรู้คำพูดแยกจากกัน

3) การรับรู้ตามพจนานุกรมขนาดเล็กที่กำหนดไว้ล่วงหน้า

IBM เป็นผู้นำในผลิตภัณฑ์ประเภทนี้ด้วย ViaVoice (140 คำต่อนาที) ระบบการเขียนตามคำบอกยอดนิยมคือ DragonSystem

อัลกอริธึมการรับรู้:

1. การป้อนข้อมูลคำพูด, การประมวลผลข้อมูล (กำจัดเสียงรบกวน);

2. การแบ่งกระแสเสียงออกเป็นส่วนๆ

3. การแยกในแต่ละส่วนของหน่วยอะคูสติกขั้นต่ำ - คำ;

4. การเปรียบเทียบหน่วยที่เลือกกับมาตรฐาน

ระบบรู้จำเสียงพูดในอุตสาหกรรมแบ่งออกเป็น 4 กลุ่มตามอัตภาพ:

1. เครื่องมือควบคุมด้วยเสียง (พีซี โทรศัพท์)

2. เครื่องมือเขียนตามคำบอกข้อความ

3. ระบบข้อมูลและอ้างอิงในโหมดโต้ตอบเป็นเครื่องตอบรับอัตโนมัติ

4. วิธีการระบุบุคคลตามตัวอย่างคำพูด

คำถามที่ 27.

ระบบสังเคราะห์เสียงพูดอัตโนมัติ

วิธีการ:

1) การเข้ารหัส (บันทึกสัญญาณเสียงพูดในระบบไบนารีพร้อมการกู้คืนในภายหลัง)

ก) โดยพื้นฐานแล้ว พีซีที่นี่ทำหน้าที่เป็นอุปกรณ์สำหรับบันทึกเสียงพูด คำและวลีจะถูกบันทึกไว้ในพีซีล่วงหน้าและทำซ้ำในเวลาที่เหมาะสมโดยใช้คำสั่ง)

ข) ข้อเสีย:

เป็นไปไม่ได้ที่จะพูดวลีที่ไม่ได้ถูกบันทึกไว้ในความทรงจำ

การจัดเก็บสัญญาณเสียงพูดในรูปแบบโดยตรงต้องใช้หน่วยความจำจำนวนมาก

ค) ข้อดี:

เสียงพูดที่เป็นธรรมชาติ

คุณภาพของคำพูดใกล้เคียงกับคำพูดของมนุษย์

2) การสังเคราะห์เสียงพูด (การสร้างแบบจำลองเสียงของระบบเสียงของมนุษย์)

ก) ซินธิไซเซอร์ที่ใช้วิธีนี้โดยพื้นฐานแล้วจะแตกต่างจากซินธิไซเซอร์ที่ใช้วิธีแรก - มันมีเสียงที่ไม่เป็นธรรมชาติพูดด้วยเสียงของหุ่นยนต์

b) โดยปกติแล้วจะดำเนินการโดยใช้ข้อความอักขรวิธีที่เขียนโดยบุคคลพีซีในนั้นสามารถแปลงตัวอักษรเป็นหน่วยเสียงหน่วยเสียงเป็นอัลโลโฟนและสังเคราะห์สัญญาณเสียงพูดต่อเนื่องโดยใช้อัลโลโฟนของผู้พูดที่เลือกได้และฐานข้อมูล

c) มีแนวโน้มมากที่สุดเนื่องจากคำพูดถูกสร้างขึ้นโดยพีซีเอง

ก) พจนานุกรมในซินธิไซเซอร์ประเภทนี้เช่นเดียวกับวิธีแรกถูกสร้างขึ้นโดยการมีส่วนร่วมของบุคคล แต่นี่ไม่ใช่คำและวลีที่เขียนลงในหน่วยความจำ แต่เป็นลักษณะตัวเลขของเสียงพูดและน้ำเสียงของ แยกวลีซึ่งทำให้สามารถลดจำนวนหน่วยความจำที่ต้องการได้

b) คำพูดเป็นไปตามธรรมชาติ เพื่อสร้างมัน ลักษณะตัวเลขจะถูกแปลงเป็นสัญญาณเสียงโดยใช้คำสั่งพิเศษ

ปัจจุบัน การพัฒนาอยู่ระหว่างดำเนินการเพื่อให้แน่ใจว่าคำพูดสังเคราะห์ฟังดูมีชีวิตชีวา อารมณ์ และเป็นธรรมชาติ การแก้ปัญหานี้จะทำให้สามารถสร้างระบบการแปลพร้อมกัน ใช้งานพีซีในการเรียนรู้ภาษาได้มากขึ้น และสำหรับผู้ที่มีความบกพร่องทางการมองเห็นด้วย

คำถามที่ 28.

ฐานข้อมูล (DB) และทรัพยากรสารสนเทศทางภาษา (LIR)

ดีบี– ชุดข้อมูลเกี่ยวกับวัตถุบางอย่างเรียงลำดับในลักษณะใดลักษณะหนึ่ง

วัตถุ- นี่คือข้อมูล ข้อเท็จจริง เหตุการณ์ กระบวนการ วัตถุอาจเป็นวัตถุ (นักเรียน ผลิตภัณฑ์ รถยนต์) และไม่มีตัวตน (เหตุการณ์ - การชมละครสัตว์ กระบวนการ - การแปลข้อความ ข้อเท็จจริง - การรับเข้ามหาวิทยาลัย) ในชีวิต วัตถุแต่ละชิ้นมีคุณสมบัติหรือคุณลักษณะบางอย่าง (น้ำหนัก ความเร็ว สี) ซึ่งมีการกำหนดค่าบางอย่างไว้: ก้อนหนึ่งมีน้ำหนัก 400 กรัม ความเร็วของรถยนต์คือ 90 กม./ชม.

ในฐานข้อมูล คุณลักษณะจะแสดงด้วยองค์ประกอบข้อมูลหรือเพียงข้อมูล และค่าของแอตทริบิวต์คือค่าข้อมูล

ดังนั้น, ที่ให้ไว้– นี่คือตัวบ่งชี้ที่กำหนดลักษณะของวัตถุที่กำหนดและรับค่าที่แน่นอนสำหรับองค์ประกอบเฉพาะของวัตถุ กลุ่มข้อมูลที่ประกอบเป็นแถวเดียวเรียกว่าระเบียน หากหลายระเบียนมีชุดข้อมูลเดียวกันและมีข้อมูลประเภทเดียวกัน แสดงว่าระเบียนเหล่านี้มีรูปแบบเดียวกัน บันทึกจำนวนมากที่มีรูปแบบเดียวกันเรียกว่าไฟล์ และไฟล์จำนวนมากก็สร้างฐานข้อมูล

ฟังก์ชันพื้นฐานของฐานข้อมูล

1) การค้นหาข้อมูลในฐานข้อมูล

ก) นอกจากนี้;

ข) การกำจัด

ค) การแก้ไข

ระบบการจัดการฐานข้อมูล (DBMS)

ดีบีเอ็มเอส– ชุดเครื่องมือซอฟต์แวร์ที่ช่วยให้สามารถสร้างและบำรุงรักษาฐานข้อมูลได้

ประเภท DBMS:

1. DBMS บนเดสก์ท็อปจะถูกแบ่งตามระดับความซับซ้อน:

ก) DBMS สำหรับการประมวลผลข้อมูลจำนวนเล็กน้อย (MS OUTLOOK)

b) DBMS มุ่งเป้าไปที่ผู้ใช้ที่ไม่รู้วิธีการเขียนโปรแกรม (EXCEL, LOTUS)

c) DBMS ที่ซับซ้อนมุ่งเน้นไปที่การพัฒนาแอปพลิเคชัน (Fox Base, MS Access)

2. เซิร์ฟเวอร์ DBMS – ใช้สถาปัตยกรรม “ไคลเอนต์-เซิร์ฟเวอร์” เช่น ดำเนินการจัดเก็บแบบรวมศูนย์และประมวลผลข้อมูล (Informix, MS SQL Server)

ฟังก์ชั่นพื้นฐานของ DBMS

1) ตรวจสอบให้แน่ใจว่ามีการสร้างโครงสร้างฐานข้อมูล (กำหนดว่าข้อมูลใดจะถูกจัดเก็บ คุณลักษณะใด ประเภทข้อมูล)

2) การแก้ไขข้อมูลที่อยู่ในฐานข้อมูล:

ก) นอกจากนี้;

ข) การกำจัด

ค) การแก้ไข

3) ค้นหาข้อมูล

คำถามที่ 29.

แอลไออาร์ -

คล่องแคล่ว แบบฟอร์ม

ในแง่ทั่วไปที่สุด แอลอาร์

แหล่งข้อมูลทางภาษาเชิงโต้ตอบ ได้แก่:

1) พจนานุกรมที่เป็นลายลักษณ์อักษรจะแสดงด้วยพจนานุกรมภาษาเดียวและหลายภาษา ในความหมายทั่วไป พจนานุกรม - นี่คือหนังสืออ้างอิงที่ประกอบด้วยคำต่างๆ (หน่วยคำ วลี สำนวน ฯลฯ) จัดเรียงตามลำดับที่แน่นอน (แตกต่างกันไปในพจนานุกรมประเภทต่างๆ) อาจมีการตีความความหมายของหน่วยที่อธิบายตลอดจนข้อมูลต่างๆ โอพวกเขา. พจนานุกรมใดๆ สามารถแสดงเป็นฐานข้อมูลเชิงสัมพันธ์ได้

ก) พจนานุกรมรูปแบบคำตามความถี่และตัวอักษรข้อความใด ๆ – ฐานข้อมูลทางภาษาที่ง่ายที่สุด

ข) ดัชนีคำ – ฐานข้อมูลที่ซับซ้อนมากขึ้น นอกเหนือจากความถี่ที่แน่นอนของการใช้รูปแบบคำในข้อความแล้ว ยังระบุจำนวนหน้าและบรรทัดบนหน้าที่พบรูปแบบคำนี้ด้วย

วี) ความสอดคล้อง – ฐานข้อมูลประเภทที่ซับซ้อนยิ่งขึ้น . ในนั้น รูปแบบคำแต่ละคำของข้อความนั้นไม่เพียงแต่มีลักษณะเฉพาะด้วยตัวบ่งชี้ตัวเลข (ความถี่ หมายเลขหน้า หมายเลขบรรทัด ฯลฯ) แต่ยังรวมถึงบริบทบางอย่างด้วย , ที่ใช้อยู่ ตามกฎแล้ว บริบทนี้ประกอบด้วย 3 ประโยค: ประโยคที่มีรูปแบบคำเกิดขึ้น ประโยคที่อยู่หน้าประโยคหลัก และประโยคที่อยู่หลังประโยค

ช) สารานุกรม – พจนานุกรมที่มีลักษณะเฉพาะซึ่งไม่ใช่คำดังกล่าว แต่เป็นของวัตถุ ข้อเท็จจริง หรือปรากฏการณ์ที่กำหนดโดยพจนานุกรมนั้น มีสารานุกรมที่แตกต่างกันจำนวนมากในสื่อบันทึกข้อมูลคอมพิวเตอร์ สิ่งที่มีชื่อเสียงที่สุดในหมู่พวกเขาคือสารานุกรม "Britannica" ประกอบด้วยบทความ 82,000 บทความและเนื้อหาเพิ่มเติม 700 รายการที่ตีพิมพ์ตั้งแต่ปี 1768 สารานุกรมฝรั่งเศสที่มีชื่อเสียงไม่น้อยคือ "Tons les savoire du Monde", "Le monde sur CD-ROM", "Versailles" ฯลฯ "สารานุกรมอันยิ่งใหญ่ของ Cyril และ Methodius" ได้รับการตีพิมพ์เป็นภาษารัสเซีย

ง) พจนานุกรม- พจนานุกรมประเภทต่าง ๆ โดยพื้นฐาน มันแสดงให้เห็นอย่างชัดเจนถึงการเชื่อมต่อทางความหมายระหว่างส่วนหนึ่งของหน่วยคำศัพท์ ตามกฎแล้ว พจนานุกรมดังกล่าวถูกสร้างขึ้นสำหรับข้อความในพื้นที่ปัญหาที่ค่อนข้างแคบ: เทคโนโลยีคอมพิวเตอร์ ดนตรี การต่อเรือ เกษตรกรรม ฯลฯ

จ) พจนานุกรมคำศัพท์(TS) – พจนานุกรมซึ่งมีหน่วยหลักคือคำศัพท์ .
ภาคเรียน เป็นคำหรือวลีรองที่มีความหมายพิเศษแสดงออกและสร้างแนวคิดทางวิชาชีพและใช้ในกระบวนการรับรู้และการพัฒนาวัตถุทางวิทยาศาสตร์และวิชาชีพทางเทคนิคและความสัมพันธ์ระหว่างสิ่งเหล่านั้น

คำถามที่ 30.

แอลไออาร์ -การรวบรวมข้อมูลที่จัดเก็บไว้ในพีซี

แหล่งข้อมูลสารสนเทศทางภาษา– หนึ่งในองค์ประกอบของทรัพยากรสารสนเทศ ทรัพยากรสารสนเทศถือเป็นทรัพยากรทางปัญญาอันเป็นผลมาจากความคิดสร้างสรรค์โดยรวม

รูปแบบของแหล่งข้อมูลที่ไม่โต้ตอบ ได้แก่ หนังสือ นิตยสาร หนังสือพิมพ์ พจนานุกรม สารานุกรม สิทธิบัตร ฐานข้อมูล และธนาคารข้อมูล เป็นต้น

คล่องแคล่ว แบบฟอร์มรวมถึงอัลกอริธึม แบบจำลอง โปรแกรม ฐานความรู้

ในแง่ทั่วไปที่สุด แอลอาร์- นี่คือฐานข้อมูลทางภาษาประเภทหนึ่งที่สามารถอัปเดตได้และคุณสามารถค้นหาข้อมูลนี้หรือข้อมูลนั้นได้ ทรัพยากรทางภาษามีความจำเป็นทั้งสำหรับผู้ใช้พีซีและระบบคอมพิวเตอร์ต่างๆ ที่เกี่ยวข้องกับการประมวลผลข้อความคำพูด: การสรุป การใส่คำอธิบายประกอบและการแปลข้อความ การวิเคราะห์ข้อความอัตโนมัติ การสังเคราะห์เสียงพูดและข้อความ

2) อาร์เรย์ข้อความที่เขียน ( ข้อความเนื้อหา ในเช่น เนื้อความที่เพียงพอที่จะให้การอนุมานทางวิทยาศาสตร์ที่เชื่อถือได้เกี่ยวกับภาษา ภาษาถิ่น หรือชุดย่อยอื่นๆ ของภาษา)

ก) สามารถใช้ได้:

ในพจนานุกรมและศัพท์ (สำหรับการรวบรวมพจนานุกรมต่าง ๆ การกำหนดความหมายของคำพหุความหมาย การระบุการเชื่อมโยงที่เชื่อมโยงของคำในข้อความ การเน้นคำศัพท์และวลีคำศัพท์ ฯลฯ )

ในไวยากรณ์ (เพื่อกำหนดความถี่ของการใช้หน่วยคำทางไวยากรณ์ในข้อความประเภทต่าง ๆ ระบุประเภทวลีและประโยคที่ใช้บ่อยที่สุดกำหนดความหมายของหน่วยทางสัณฐานวิทยาที่ตรงกันความถี่ของการใช้คลาสคำ ฯลฯ )

ในภาษาศาสตร์ข้อความ (เพื่อแยกประเภทข้อความ สร้างความสอดคล้อง ระบุความเชื่อมโยงระหว่างประโยคในย่อหน้าและระหว่างย่อหน้า ฯลฯ)

เมื่อแปลข้อความโดยอัตโนมัติ (เพื่อค้นหาบริบทของคำที่มีคำแปลหลายคำที่เทียบเท่ากัน เพื่อค้นหาคำแปลที่เทียบเท่ากับวลีคำศัพท์และวลีในข้อความคู่ขนาน ฯลฯ)

เพื่อการศึกษา (สำหรับเลือกคำพูด ผลงานแต่ละชิ้น ตัวอย่างที่ใช้ในกระบวนการสร้างตำราเรียนและอุปกรณ์ช่วยสอน

ข) แท็กข้อความ Corpora(จากภาษาอังกฤษ แท็ก -"ดัชนี ครอก") ทุกคำในคลังข้อมูลดังกล่าวจะได้รับดัชนีตัวอักษรหรือตัวเลขที่ระบุคุณลักษณะทางไวยากรณ์ ศัพท์ ความหมาย หรือโครงสร้าง อาจมีดัชนีดังกล่าวหลายรายการ

3) ทรัพยากรทางภาษาสัทศาสตร์
ในปัจจุบันเป็นที่ยอมรับกันโดยทั่วไปว่าในการสร้างคลังข้อมูลสัทศาสตร์ที่เครื่องอ่านได้นั้น การถอดเสียงจะใช้โดยอาศัยการแสดงออร์โธกราฟิกของเสียงพูดพร้อมอักขระเพิ่มเติมที่ถ่ายทอด (หากจำเป็น) ฉันทลักษณ์ ภาษาคู่ขนาน และคุณลักษณะอื่นๆ ของการออกเสียง

ก) คลังข้อความแบบสัทศาสตร์ถูกนำมาใช้กันอย่างแพร่หลายในการแก้ปัญหาต่อไปนี้:

การศึกษาเปรียบเทียบภาษาพูดและภาษาเขียน

ศึกษาลักษณะทางไวยากรณ์และคำศัพท์ของคำพูด

การวิจัยลักษณะการออกเสียงของภาษาถิ่น

การสร้างรายการความถี่ของหน่วยเสียงและการรวมกัน

ศึกษาคุณสมบัติทางเสียงของหน่วยคำพูด และการนำไปใช้ในการทดลองทางภาษาศาสตร์และภาษาศาสตร์

การสร้างระบบคอมพิวเตอร์ การจดจำและการสังเคราะห์คำพูดด้วยวาจา

งานที่นำเสนอเน้นที่บริษัทจากอเมริกาเหนือและยุโรปเป็นหลัก ตลาดเอเชียมีการนำเสนอได้ไม่ดีในการศึกษานี้ แต่เราอาจทิ้งรายละเอียดทั้งหมดไว้กับตัวเองในตอนนี้ อย่างไรก็ตาม มีการอธิบายแนวโน้มและลักษณะปัจจุบันของอุตสาหกรรมไว้อย่างน่าสนใจมาก ซึ่งในตัวมันเองก็น่าสนใจมาก โดยเฉพาะอย่างยิ่งเนื่องจากสามารถนำเสนอได้ในรูปแบบต่างๆ โดยไม่สูญเสียสาระสำคัญทั่วไป อย่าทำให้คุณเบื่อ บางทีเราอาจจะเริ่มอธิบายช่วงเวลาที่น่าสนใจที่สุด ซึ่งอุตสาหกรรมการรู้จำเสียงกำลังมุ่งหน้าไปที่ใด และสิ่งที่รอเราอยู่ในอนาคตอันใกล้ (2555 - 2559) ตามที่นักวิจัยให้ความมั่นใจ

การแนะนำ

ระบบจดจำเสียงคือระบบคอมพิวเตอร์ที่สามารถระบุคำพูดของผู้พูดจากกระแสทั่วไปได้ เทคโนโลยีนี้เกี่ยวข้องกับเทคโนโลยีการรู้จำคำพูด ซึ่งแปลงคำพูดเป็นสัญญาณข้อความดิจิทัลโดยดำเนินกระบวนการรู้จำเสียงในเครื่อง เทคโนโลยีทั้งสองนี้ใช้ควบคู่กันไป ในด้านหนึ่งเพื่อระบุเสียงของผู้ใช้เฉพาะ อีกด้านหนึ่งเพื่อระบุคำสั่งเสียงผ่านการรู้จำเสียง การจดจำเสียงใช้เพื่อความปลอดภัยทางชีวภาพเพื่อระบุเสียงของบุคคลใดบุคคลหนึ่ง เทคโนโลยีนี้ได้รับความนิยมอย่างมากใน Mobile Banking ซึ่งต้องมีการตรวจสอบสิทธิ์ผู้ใช้ รวมถึงคำสั่งเสียงอื่นๆ เพื่อช่วยในการทำธุรกรรมให้เสร็จสิ้น

ตลาดการรู้จำเสียงพูดทั่วโลกเป็นหนึ่งในตลาดที่เติบโตเร็วที่สุดในอุตสาหกรรมเสียง การเติบโตในตลาดส่วนใหญ่มาจากอเมริกา ตามมาด้วยยุโรป ตะวันออกกลางและแอฟริกา (EMEA) และเอเชียแปซิฟิก (APAC) การเติบโตในตลาดส่วนใหญ่มาจากการดูแลสุขภาพ บริการทางการเงิน และภาครัฐ อย่างไรก็ตาม ส่วนอื่นๆ เช่น โทรคมนาคมและการขนส่ง คาดว่าจะเติบโตเพิ่มขึ้นอย่างมีนัยสำคัญในอีกไม่กี่ปีข้างหน้า การคาดการณ์ของตลาดจะเพิ่มขึ้นอีกที่ CAGR ที่ 22.07 เปอร์เซ็นต์ในช่วงปี 2555-2559 (ตัวชี้วัดการเปลี่ยนแปลงการเติบโตของบริษัทในปัจจุบัน)

ปัจจัยขับเคลื่อนการเติบโตของตลาด

การเติบโตของตลาดการจดจำเสียงทั่วโลกขึ้นอยู่กับหลายปัจจัย ปัจจัยหลักประการหนึ่งคือความต้องการบริการไบโอเมตริกซ์ด้วยเสียงที่เพิ่มขึ้น ด้วยความซับซ้อนและความถี่ของการละเมิดความปลอดภัยที่เพิ่มขึ้น การรักษาความปลอดภัยยังคงเป็นข้อกำหนดหลักสำหรับธุรกิจและองค์กรภาครัฐ ความต้องการข้อมูลไบโอเมตริกซ์ด้านเสียงที่สูงซึ่งเป็นเอกลักษณ์เฉพาะของแต่ละบุคคล มีความสำคัญอย่างยิ่งในการสร้างอัตลักษณ์ของบุคคล ปัจจัยขับเคลื่อนสำคัญอีกประการหนึ่งสำหรับตลาดคือการใช้การระบุผู้พูดเพิ่มมากขึ้นเพื่อวัตถุประสงค์ทางนิติเวช

ปัจจัยขับเคลื่อนหลักบางประการของตลาดการรู้จำเสียงทั่วโลก ได้แก่:
ความต้องการบริการไบโอเมตริกซ์ด้วยเสียงที่เพิ่มขึ้น
เพิ่มการใช้การระบุผู้พูดเพื่อวัตถุประสงค์ทางนิติเวช
ความต้องการการรู้จำเสียงเพื่อวัตถุประสงค์ทางทหาร
ความต้องการการจดจำเสียงในการดูแลสุขภาพมีสูง

ในตอนแรกคำว่า “ไบโอเมตริกซ์” พบเฉพาะในทฤษฎีทางการแพทย์เท่านั้น อย่างไรก็ตาม ความต้องการด้านความปลอดภัยโดยใช้เทคโนโลยีไบโอเมตริกซ์ในธุรกิจและหน่วยงานภาครัฐเริ่มมีเพิ่มมากขึ้น การใช้เทคโนโลยีไบโอเมตริกซ์เป็นหนึ่งในปัจจัยสำคัญในตลาดการรู้จำเสียงพูดทั่วโลก การจดจำเสียงใช้เพื่อตรวจสอบความถูกต้องของบุคคล เนื่องจากเสียงของแต่ละคนมีเอกลักษณ์เฉพาะตัว สิ่งนี้จะช่วยให้มั่นใจได้ถึงความแม่นยำและความปลอดภัยในระดับสูง การจดจำเสียงมีความสำคัญอย่างยิ่งในสถาบันการเงิน เช่น ธนาคาร รวมถึงในสถานพยาบาล ปัจจุบัน ส่วนการรู้จำเสียงคิดเป็น 3.5% ของส่วนแบ่งของเทคโนโลยีไบโอเมตริกซ์ในตลาดโลก แต่ส่วนแบ่งนี้ก็เติบโตอย่างต่อเนื่อง นอกจากนี้ อุปกรณ์ไบโอเมตริกซ์ที่มีต้นทุนต่ำยังช่วยเพิ่มความต้องการจากธุรกิจขนาดเล็กและขนาดกลางอีกด้วย

เพิ่มการใช้การระบุผู้พูดเพื่อวัตถุประสงค์ทางนิติเวช

การใช้เทคโนโลยีการระบุผู้พูดเพื่อวัตถุประสงค์ทางนิติเวชเป็นหนึ่งในแรงผลักดันหลักในตลาดการจดจำเสียงทั่วโลก กระบวนการที่ซับซ้อนเกิดขึ้นเพื่อตัดสินว่าเสียงของผู้ต้องสงสัยก่ออาชญากรรมตรงกับเสียงจากตัวอย่างทางนิติเวชหรือไม่ เทคโนโลยีนี้ช่วยให้หน่วยงานบังคับใช้กฎหมายสามารถระบุอาชญากรโดยพิจารณาจากลักษณะเฉพาะที่เป็นเอกลักษณ์ที่สุดของบุคคล นั่นคือเสียงของพวกเขา จึงมีความแม่นยำในระดับที่ค่อนข้างสูง ผู้เชี่ยวชาญด้านนิติเวชจะทดสอบว่าเสียงของผู้ต้องสงสัยตรงกับตัวอย่างจนกว่าจะพบผู้กระทำผิดหรือไม่ ล่าสุดมีการใช้เทคโนโลยีนี้เพื่อช่วยแก้ไขคดีอาญาบางคดี

ความต้องการการรู้จำเสียงเพื่อวัตถุประสงค์ทางทหาร

หน่วยงานทหารในประเทศส่วนใหญ่ใช้พื้นที่จำกัดอย่างยิ่งเพื่อป้องกันไม่ให้ผู้บุกรุกเข้ามา เพื่อรับรองความเป็นส่วนตัวและความปลอดภัยในพื้นที่นี้ กองทัพใช้ระบบจดจำเสียง ระบบเหล่านี้ช่วยให้หน่วยงานทางทหารตรวจจับการบุกรุกพื้นที่คุ้มครองโดยไม่ได้รับอนุญาต ระบบประกอบด้วยฐานข้อมูลคะแนนเสียงของบุคลากรทางทหารและเจ้าหน้าที่ของรัฐที่สามารถเข้าถึงพื้นที่คุ้มครอง บุคคลเหล่านี้จะถูกระบุโดยระบบจดจำเสียง ดังนั้นจึงป้องกันการรับบุคคลที่เสียงไม่อยู่ในฐานข้อมูลระบบ นอกจากนี้ กองทัพอากาศสหรัฐฯ ยังใช้คำสั่งเสียงในการควบคุมเครื่องบินอีกด้วย นอกจากนี้ หน่วยงานทางทหารยังใช้ระบบการรู้จำคำพูดและระบบแปลงเสียงเป็นข้อความเพื่อสื่อสารกับพลเมืองในประเทศอื่นๆ ตัวอย่างเช่น กองทัพสหรัฐฯ กำลังใช้ระบบรู้จำคำพูดในการปฏิบัติการในอิรักและอัฟกานิสถานอย่างแข็งขัน ดังนั้นจึงมีความต้องการสูงในการรู้จำเสียงพูดและเสียงเพื่อวัตถุประสงค์ทางการทหาร

เทคโนโลยีไบโอเมตริกซ์ เช่น การจดจำหลอดเลือด การจดจำเสียง และการสแกนจอตา กำลังถูกนำมาใช้กันอย่างแพร่หลายในภาคการดูแลสุขภาพ การจดจำเสียงคาดว่าจะกลายเป็นหนึ่งในโหมดหลักในการระบุตัวตนในสถานพยาบาล บริษัทด้านการดูแลสุขภาพหลายแห่งในสหรัฐอเมริกาที่ปฏิบัติตามมาตรฐาน Health Insurance Portability and Accountability Act (HIPAA) ยังใช้เทคโนโลยีไบโอเมตริกซ์ เช่น การจดจำเสียง การจดจำลายนิ้วมือเพื่อการลงทะเบียนผู้ป่วยที่ปลอดภัยและมีประสิทธิภาพยิ่งขึ้น การสะสมข้อมูลผู้ป่วย และการปกป้องทางการแพทย์ของผู้ป่วย บันทึก สถาบันวิจัยทางคลินิกยังใช้การจดจำเสียงเพื่อระบุตัวบุคคลที่ได้รับคัดเลือกให้เข้าร่วมการทดลองทางคลินิกอีกด้วย ดังนั้น ไบโอเมตริกซ์ด้วยเสียงจึงเป็นหนึ่งในโหมดหลักในการระบุตัวตนลูกค้าในอุตสาหกรรมการดูแลสุขภาพในภูมิภาคเอเชียแปซิฟิก

ข้อกำหนดของตลาด

ผลกระทบของแนวโน้มและปัญหาหลักสี่ประการต่อตลาดการรับรู้ทั่วโลกแสดงอยู่ในรูป

สำคัญ
ผลกระทบของปัญหาและแนวโน้มได้รับการประเมินตามความรุนแรงและระยะเวลาของผลกระทบต่อตลาดปัจจุบัน การจำแนกขนาดผลกระทบ:
ต่ำ – มีผลกระทบต่อตลาดเพียงเล็กน้อยหรือไม่มีเลย
อิทธิพลระดับปานกลางถึงปานกลางต่อตลาด
สูงปานกลาง – มีผลกระทบอย่างมีนัยสำคัญต่อตลาด
สูง – ผลกระทบสูงมากโดยมีผลกระทบอย่างรุนแรงต่อการเติบโตของตลาด

แม้จะมีแนวโน้มเพิ่มขึ้น แต่ตลาดการจดจำเสียงทั่วโลกยังคงเผชิญกับปัญหาคอขวดในการเติบโตที่สำคัญบางประการ ปัญหาสำคัญประการหนึ่งคือความยากในการลดเสียงรบกวนรอบข้าง แม้ว่าตลาดการรู้จำเสียงจะมีความก้าวหน้าทางเทคโนโลยีหลายประการ แต่การไม่สามารถระงับเสียงรบกวนรอบข้างยังคงเป็นอุปสรรคต่อการยอมรับแอปพลิเคชันการรู้จำเสียง ความท้าทายอีกประการหนึ่งสำหรับตลาดนี้คือแอปพลิเคชันการจดจำเสียงที่มีต้นทุนสูง

ความท้าทายหลักบางประการที่ตลาดการจดจำเสียงทั่วโลกเผชิญคือ:
ไม่สามารถระงับเสียงรบกวนจากภายนอกได้
แอปพลิเคชั่นจดจำเสียงราคาสูง
ปัญหาเกี่ยวกับความแม่นยำในการจดจำ
การรักษาความปลอดภัยระดับต่ำในการตรวจสอบผู้พูด

ไม่สามารถระงับเสียงรบกวนจากภายนอกได้

แม้จะมีความก้าวหน้าทางเทคโนโลยีในด้านการจดจำเสียง แต่เสียงรบกวนยังคงเป็นหนึ่งในความท้าทายที่สำคัญในตลาดการจดจำเสียงทั่วโลก นอกจากนี้ ข้อมูลไบโอเมตริกซ์ด้วยเสียงยังมีความละเอียดอ่อนเป็นพิเศษเมื่อเปรียบเทียบกับข้อมูลไบโอเมตริกประเภทอื่นๆ การจดจำเสียง ไบโอเมตริกซ์ของเสียง และการรู้จำคำพูด ได้รับการพิสูจน์แล้วว่ามีความไวต่อเสียงรบกวนจากสิ่งแวดล้อมอย่างมาก เป็นผลให้เสียงรบกวนใดๆ รบกวนความแม่นยำในการจดจำ การตอบสนองต่อคำสั่งเสียงอัตโนมัติก็ถูกรบกวนเช่นกัน การไม่สามารถลดเสียงรบกวนรอบข้างเป็นปัจจัยเดียวที่ขัดขวางระบบการจดจำเสียงไม่ให้บรรลุผลลัพธ์ที่ยอดเยี่ยม และครองส่วนแบ่งตลาดเทคโนโลยีไบโอเมตริกซ์ทั่วโลกในเปอร์เซ็นต์ที่สูง

แอปพลิเคชั่นจดจำเสียงที่มีราคาสูง

ปัญหาหลักประการหนึ่งที่เป็นอุปสรรคต่อการพัฒนาเทคโนโลยีการรู้จำเสียงคือความจำเป็นในการลงทุนจำนวนมากที่จำเป็นสำหรับการพัฒนาและการใช้งาน การปรับใช้เทคโนโลยีการจดจำเสียงขนาดใหญ่ในองค์กรต้องใช้แรงงานเข้มข้นและต้องใช้เงินลงทุนจำนวนมาก การประหยัดงบประมาณทำให้เกิดการทดสอบเทคโนโลยีอย่างจำกัด ดังนั้น ความล้มเหลวใดๆ อาจนำไปสู่ความสูญเสียครั้งใหญ่ในองค์กรได้ ดังนั้น ทางเลือกอื่นนอกเหนือจากการจดจำเสียง เช่น บัตรรูดและปุ่มกด ยังคงมีการใช้กันอย่างแพร่หลายในหลายบริษัท โดยเฉพาะในธุรกิจขนาดเล็กและขนาดกลาง เนื่องจากมีความคุ้มค่า ดังนั้น แอปพลิเคชันการจดจำเสียงจึงต้องมีการลงทุนทางการเงินจำนวนมาก รวมถึงต้นทุนของระบบบูรณาการ อุปกรณ์เพิ่มเติม และต้นทุนอื่นๆ

ปัญหาเกี่ยวกับความแม่นยำในการจดจำ

ในตลาดการจดจำเสียงทั่วโลก ปัญหาที่พบบ่อยคืออัตราความแม่นยำในการจดจำต่ำ แม้ว่าปัจจุบันระบบการจดจำเสียงจะสามารถจดจำภาษาต่างๆ และกำหนดความถูกต้องของเสียงได้ก็ตาม เนื่องจากระบบเกี่ยวข้องกับกระบวนการที่ซับซ้อนในการจับคู่ฐานข้อมูลด้วยคำสั่งเสียงพูด และเทคโนโลยีการรู้จำเสียงพูดและการตรวจสอบด้วยเสียงในตัว แม้แต่ข้อผิดพลาดเล็กน้อยในส่วนใดส่วนหนึ่งของกระบวนการก็สามารถนำไปสู่ผลลัพธ์ที่ไม่ถูกต้องได้ ข้อผิดพลาดในการรู้จำเสียงเป็นหนึ่งในข้อจำกัดที่สำคัญในแอปพลิเคชันการรู้จำเสียง อย่างไรก็ตาม ผู้ผลิตบางรายได้เริ่มพัฒนาระบบที่มีระดับข้อผิดพลาดในการจดจำเสียงต่ำมาก พวกเขาได้พัฒนาระบบที่มีผลลัพธ์ที่ไม่ถูกต้องน้อยกว่า 4% (เช่น การวัดไบโอเมตริกซ์ด้วยเสียงระบุและปฏิเสธเสียงของบุคคลที่สามารถเข้าถึงได้)

การรักษาความปลอดภัยระดับต่ำในการตรวจสอบผู้พูด

ความไม่ถูกต้องในการตรวจสอบผู้พูดในระดับสูงทำให้ระดับความปลอดภัยต่ำ ปัจจุบันระบบจดจำเสียงมีเปอร์เซ็นต์ผลลัพธ์ที่ไม่ถูกต้องสูง ยิ่งอัตราการตัดสินใจผิดพลาดสูงเท่าใด โอกาสที่บุคคลที่ไม่ได้รับอนุญาตจะได้รับอนุญาตเข้าเมืองก็จะยิ่งสูงขึ้นตามไปด้วย เนื่องจากระบบจดจำเสียงมีความอ่อนไหวมาก จึงรับได้ทุกอย่าง ทั้งปัญหาลำคอ อาการไอ เป็นหวัด เสียงที่เปลี่ยนไปเนื่องจากการเจ็บป่วย จึงมีโอกาสสูงที่บุคคลที่ไม่ได้รับอนุญาตจะสามารถเข้าถึงพื้นที่ปิดได้ เหตุผล เพราะนี่คือระดับความปลอดภัยต่ำในการจดจำมนุษย์ด้วยเสียง

แนวโน้มตลาด

ผลกระทบของความท้าทายที่ตลาดเผชิญนั้นคาดว่าจะชดเชยการมีอยู่ของแนวโน้มต่างๆ ที่เกิดขึ้นในตลาด แนวโน้มประการหนึ่งคือความต้องการที่เพิ่มขึ้นสำหรับการรู้จำเสียงบนอุปกรณ์เคลื่อนที่ ด้วยตระหนักถึงศักยภาพอันมหาศาลของอุปกรณ์เคลื่อนที่ ผู้ผลิตในตลาดการจดจำเสียงทั่วโลกจึงกำลังพัฒนาแอปพลิเคชันที่เป็นนวัตกรรมใหม่เพื่อการทำงานบนอุปกรณ์เคลื่อนที่โดยเฉพาะ นี่เป็นหนึ่งในปัจจัยขับเคลื่อนในอนาคต ความต้องการการรับรองความถูกต้องด้วยเสียงที่เพิ่มขึ้นในบริการธนาคารบนมือถือถือเป็นอีกหนึ่งแนวโน้มเชิงบวกในตลาดการจดจำเสียง

แนวโน้มสำคัญบางประการในตลาดการจดจำเสียงทั่วโลก ได้แก่:
ความต้องการการรู้จำเสียงพูดบนอุปกรณ์เคลื่อนที่เพิ่มมากขึ้น
ความต้องการบริการตรวจสอบสิทธิ์ด้วยเสียงสำหรับธนาคารบนมือถือเพิ่มมากขึ้น
บูรณาการการตรวจสอบด้วยเสียงและการรู้จำคำพูด
เพิ่มขึ้นในการควบรวมและซื้อกิจการ

ความต้องการการรู้จำเสียงพูดบนอุปกรณ์เคลื่อนที่เพิ่มมากขึ้น

กฎจราจรที่ห้ามใช้อุปกรณ์เคลื่อนที่ขณะขับรถมีจำนวนเพิ่มมากขึ้น ทำให้มีความต้องการแอปพลิเคชันการรู้จำเสียงเพิ่มมากขึ้น ประเทศที่มีการบังคับใช้ข้อจำกัดที่เข้มงวด: ออสเตรเลีย ฟิลิปปินส์ สหรัฐอเมริกา สหราชอาณาจักร อินเดีย และชิลี ในสหรัฐอเมริกา มากกว่า 13 รัฐอนุญาตให้ใช้งานแบบแฮนด์ฟรีขณะขับรถได้ แม้ว่าจะมีการนำข้อบังคับเกี่ยวกับอุปกรณ์เคลื่อนที่มาใช้ก็ตาม ด้วยเหตุนี้ ผู้บริโภคจึงหันมาเลือกอุปกรณ์เคลื่อนที่ที่มีแอปพลิเคชันการรู้จำเสียงพูดมากขึ้นเรื่อยๆ ซึ่งสามารถช่วยให้พวกเขาเข้าถึงอุปกรณ์ได้โดยไม่ต้องถูกรบกวนจากตัวอุปกรณ์เอง เพื่อตอบสนองความต้องการที่เพิ่มขึ้นสำหรับแอปพลิเคชันการรู้จำเสียงพูดในอุปกรณ์มือถือ ผู้ผลิตได้เพิ่มจำนวนกิจกรรมการวิจัยและพัฒนาเพื่อพัฒนาตัวเลือกคำสั่งเสียงสำหรับอุปกรณ์มือถือ เป็นผลให้มีแอปพลิเคชันการรู้จำคำพูดจำนวนมากรวมอยู่ในอุปกรณ์มือถือ เช่น การจัดการรายการเพลง การอ่านที่อยู่ การอ่านชื่อสมาชิก ข้อความเสียง SMS เป็นต้น

ความจำเป็นในการตรวจสอบที่เพิ่มขึ้นกำลังผลักดันการบูรณาการการตรวจสอบสิทธิ์ด้วยเสียงแบบสากลในธนาคารบนมือถือ ในภูมิภาคเช่นอเมริกาเหนือและยุโรปตะวันตก ลูกค้าธนาคารจำนวนมากใช้บริการธนาคารทางโทรศัพท์ สถาบันการเงินดังกล่าวจำนวนมากยอมรับการตัดสินใจตรวจสอบสิทธิ์ด้วยเสียงจากผู้ใช้เพื่อยอมรับหรือปฏิเสธธุรกรรมทางมือถือ นอกจากนี้ การเปิดใช้งานการรับรองความถูกต้องด้วยเสียงบนอุปกรณ์เคลื่อนที่ยังคุ้มค่าและในขณะเดียวกันก็ให้ระดับความปลอดภัยที่สูงขึ้นอีกด้วย ดังนั้น แนวโน้มในการบูรณาการการรับรองความถูกต้องด้วยเสียงสำหรับธนาคารบนมือถือจะยังคงเติบโตต่อไปในหลายปีต่อ ๆ ไป แท้จริงแล้ว สถาบันการเงินทางโทรศัพท์เป็นพันธมิตรกับผู้ให้บริการโซลูชันการตรวจสอบสิทธิ์ด้วยเสียงและการรวมตัวกันของข้อมูลไบโอเมตริกซ์ด้วยเสียง ซึ่งเป็นข้อได้เปรียบทางการแข่งขันที่สำคัญ

ผู้ผลิตบางรายกำลังทำงานเพื่อบูรณาการเทคโนโลยีการตรวจสอบด้วยเสียงและการรู้จำคำพูด แทนที่จะเสนอการตรวจสอบด้วยเสียงเป็นผลิตภัณฑ์แยกต่างหาก ผู้ผลิตกลับเสนอให้รวมฟังก์ชันการตรวจสอบด้วยเสียงและการรู้จำเสียงเข้าด้วยกัน การตรวจสอบด้วยเสียงช่วยระบุได้ว่าใครกำลังพูดและในเวลาเดียวกันกับที่บุคคลใดกำลังพูด ผู้ผลิตส่วนใหญ่ได้เริ่มต้นหรืออยู่ระหว่างการเปิดตัวแอปพลิเคชันการรู้จำเสียงซึ่งเกี่ยวข้องกับการรวมเทคโนโลยีทั้งสองที่อธิบายไว้ข้างต้น

เพิ่มขึ้นในการควบรวมและซื้อกิจการ

ตลาดการจดจำเสียงทั่วโลกกำลังเห็นแนวโน้มการควบรวมและเข้าซื้อกิจการที่สำคัญ Nuance Communications Inc. ผู้นำตลาดที่โดดเด่นซึ่งมีส่วนแบ่งตลาดมากกว่า 50% ได้เข้าซื้อบริษัทขนาดเล็กจำนวนมากในตลาดการรู้จำเสียงพูด การเข้าซื้อกิจการเป็นแนวทางใหม่ในการเติบโตของบริษัท ส่งผลให้ Nuance มีการเข้าซื้อกิจการ 6 ครั้งในปี 2550 แนวโน้มนี้คาดว่าจะดำเนินต่อไปในอีกไม่กี่ปีข้างหน้า เนื่องจากมีผู้เล่นรายย่อยจำนวนมากที่บริษัทขนาดใหญ่เช่น Nuance สามารถเข้าซื้อกิจการได้ เนื่องจากตลาดมุ่งเน้นด้านเทคโนโลยี บริษัทขนาดเล็กจึงกำลังพัฒนาโซลูชันที่เป็นนวัตกรรม แต่เนื่องจากขาดทรัพยากร บริษัทเหล่านี้จึงไม่สามารถขยายขนาดธุรกิจได้ ดังนั้น บริษัทขนาดใหญ่ เช่น Nuance จึงใช้กระบวนการซื้อกิจการเป็นกลยุทธ์หลักในการเข้าสู่ตลาดและอุตสาหกรรมใหม่ๆ ตัวอย่างเช่น Nuance เข้าซื้อกิจการ Loquendo Inc. เพื่อเข้าสู่ภูมิภาค EMEA

บทสรุป

การพัฒนาระบบรู้จำคำพูดมี 2 สาขา (ปริมาณตลาดจาก 1.09 ดอลลาร์เป็น 2.42 พันล้านดอลลาร์ระหว่างปี 2555 ถึง 2559 อัตราการเติบโต +22.07%)
การแปลงคำพูดเป็นข้อความ (ขนาดตลาดจาก 860 ล้านดอลลาร์ (2555) เป็น 1,727 ล้านดอลลาร์ (2559) - ส่วนแบ่งทั้งหมด 79% -71% จากปี 2555 ถึง 2559)
การตรวจสอบและระบุเสียงของมนุษย์ (ปริมาณตลาดตั้งแต่ 229 ล้านดอลลาร์ (พ.ศ. 2555) ถึง 697 ล้านดอลลาร์ - ส่วนแบ่งรวม 21% -28.8% ตั้งแต่ปี 2555 ถึง 2559)

ในการแข่งขัน บริษัท ที่ใกล้จะถึงสองทิศทางนี้จะพัฒนาอย่างแข็งขันมากขึ้น - ในด้านหนึ่งจะปรับปรุงความแม่นยำของโปรแกรมรู้จำคำพูดและแปลเป็นข้อความ ในทางกลับกัน แก้ไขปัญหานี้โดยการระบุผู้พูดและ ตรวจสอบคำพูดของเขาโดยใช้ช่องทางเพิ่มเติม (เช่น วิดีโอ) เป็นแหล่งข้อมูล

จากการศึกษาของ Technavio ปัญหาหลักของโปรแกรมรู้จำเสียงที่มีอยู่คือความไวต่อการลดเสียงรบกวนรอบข้าง
- แนวโน้มหลักคือการแพร่กระจายของเทคโนโลยีคำพูดเนื่องจากจำนวนและคุณภาพของอุปกรณ์มือถือที่เพิ่มขึ้นและการพัฒนาโซลูชั่นธนาคารบนมือถือ
- องค์กรภาครัฐ ภาคทหาร การแพทย์ และภาคการเงิน ปัจจุบันมีบทบาทสำคัญในการพัฒนาเทคโนโลยีการรู้จำเสียง อย่างไรก็ตาม มีความต้องการเทคโนโลยีประเภทนี้อย่างมากในรูปแบบของแอปพลิเคชั่นมือถือ งานการนำทางด้วยเสียง รวมถึงไบโอเมตริกซ์
- ตลาดหลักสำหรับระบบรู้จำคำพูดอยู่ในสหรัฐอเมริกา แต่ผู้ชมที่เร็วและตัวทำละลายมากที่สุดอาศัยอยู่ในประเทศในเอเชียตะวันออกเฉียงใต้โดยเฉพาะในญี่ปุ่น (เนื่องจากศูนย์บริการทางโทรศัพท์อัตโนมัติเต็มรูปแบบ) สันนิษฐานว่าในภูมิภาคนี้ผู้เล่นที่แข็งแกร่งควรปรากฏตัวซึ่งจะกลายเป็นความช่วยเหลือที่สำคัญสำหรับพลังระดับโลกของ Nuance Communications (ส่วนแบ่งปัจจุบันของตลาดโลกคือ 70%);
- นโยบายที่พบบ่อยที่สุดในตลาดระบบรู้จำเสียงคือการควบรวมและซื้อกิจการ (M&A) - บริษัทชั้นนำในตลาดมักจะซื้อห้องปฏิบัติการหรือบริษัทเทคโนโลยีขนาดเล็กทั่วโลกเพื่อรักษาอำนาจอำนาจ
- ต้นทุนของแอปพลิเคชันลดลงอย่างรวดเร็ว ความแม่นยำเพิ่มขึ้น การกรองเสียงรบกวนจากภายนอกได้รับการปรับปรุง ความปลอดภัยเพิ่มขึ้น - วันที่คาดหวังสำหรับการใช้เทคโนโลยีการรู้จำเสียงที่แม่นยำเป็นพิเศษคือปี 2014

ดังนั้นตามการคาดการณ์ของ Technavio ในช่วงปี 2555-2559 ตลาดระบบรู้จำเสียงคาดว่าจะเพิ่มขึ้นมากกว่า 2.5 เท่า ส่วนแบ่งขนาดใหญ่ในตลาดเทคโนโลยีไอทีที่มีการเปลี่ยนแปลงและรวดเร็วที่สุดแห่งหนึ่งจะมอบให้กับผู้เล่นที่สามารถแก้ปัญหา 2 ปัญหาพร้อมกันในผลิตภัณฑ์ของตนได้: เรียนรู้ที่จะจดจำคำพูดอย่างถูกต้องและแปลเป็นข้อความ และยังสามารถระบุ เสียงของผู้พูดได้ดีและตรวจสอบได้จากกระแสทั่วไป ข้อได้เปรียบที่ยิ่งใหญ่ในการแข่งขันสามารถเรียกได้ว่าเป็นการทิ้ง (ลดต้นทุนของเทคโนโลยีดังกล่าวโดยไม่ได้ตั้งใจ) การสร้างโปรแกรมที่มีอินเทอร์เฟซที่เป็นมิตรและกระบวนการปรับตัวที่รวดเร็ว - ด้วยงานคุณภาพสูง คาดว่าในอีก 5 ปีข้างหน้า ผู้เล่นรายใหม่จะปรากฏในตลาด ซึ่งอาจท้าทายบริษัทขนาดใหญ่ที่มีความคล่องตัวน้อยกว่า เช่น การรู้จำเสียงพูดของ Nuance Communications

การวิจัยตลาด

การพยากรณ์การพัฒนา

แตกต่างกันนิดหน่อย

เพิ่มแท็ก 15 กรกฎาคม 2552 เวลา 22:16 น

การรู้จำเสียง ส่วนที่ 1 การจำแนกประเภทของระบบรู้จำเสียงพูด

ปัญญาประดิษฐ์

บทประพันธ์

ในรัสเซียพื้นที่ของระบบรู้จำคำพูดนั้นค่อนข้างพัฒนาได้ไม่ดีนัก Google ได้ประกาศระบบสำหรับบันทึกและจดจำการสนทนาทางโทรศัพท์มานานแล้ว น่าเสียดายที่ฉันยังไม่เคยได้ยินเกี่ยวกับระบบที่มีขนาดและคุณภาพการจดจำที่ใกล้เคียงกันในภาษารัสเซีย

แต่คุณไม่ควรคิดว่าทุกคนในต่างประเทศค้นพบทุกสิ่งมานานแล้วและเราจะตามพวกเขาไม่ทัน เมื่อฉันกำลังมองหาสื่อสำหรับซีรีส์นี้ ฉันต้องขุดคุ้ยวรรณกรรมและวิทยานิพนธ์ต่างประเทศมากมาย นอกจากนี้ บทความและวิทยานิพนธ์เหล่านี้ได้มาจากนักวิทยาศาสตร์ชาวอเมริกันผู้เก่งกาจ หวงเสวี่ยตง; ฮิซาโยชิ โคจิมะ; ดงซอก ยุกฯลฯ ชัดเจนว่าใครสนับสนุนสาขาวิทยาศาสตร์อเมริกันนี้? ;0)

ในรัสเซีย ฉันรู้จักบริษัทอัจฉริยะเพียงแห่งเดียวที่สามารถนำระบบรู้จำเสียงในประเทศมาสู่เชิงพาณิชย์ได้ นั่นก็คือ Center for Speech Technologies แต่บางทีหลังจากบทความชุดนี้อาจเกิดกับบางคนว่าเป็นไปได้และจำเป็นต้องเริ่มพัฒนาระบบดังกล่าว นอกจากนี้ในแง่ของอัลกอริธึมและเสื่อ เราไม่ได้ล้าหลังอุปกรณ์เลย

การจำแนกประเภทของระบบรู้จำเสียงพูด

วันนี้แนวคิดของ "การรู้จำเสียง" ซ่อนกิจกรรมทางวิทยาศาสตร์และวิศวกรรมทั้งหมด โดยทั่วไป งานการรู้จำเสียงทุกงานจะเน้นไปที่การแยก การจัดประเภท และการตอบสนองอย่างเหมาะสมต่อคำพูดของมนุษย์จากสตรีมเสียงอินพุต นี่อาจเป็นการดำเนินการบางอย่างตามคำสั่งของบุคคล หรือการเลือกคำเครื่องหมายจากการสนทนาทางโทรศัพท์จำนวนมาก หรือระบบสำหรับการป้อนข้อความเสียง

สัญญาณของการจำแนกประเภทของระบบรู้จำเสียงพูด

แต่ละระบบดังกล่าวมีงานบางอย่างที่ได้รับการออกแบบมาเพื่อแก้ไขและชุดแนวทางที่ใช้ในการแก้ไขปัญหา ลองพิจารณาคุณสมบัติหลักๆ ที่ใช้ในการจำแนกระบบการรู้จำคำพูดของมนุษย์ และคุณสมบัตินี้จะส่งผลต่อการทำงานของระบบอย่างไร

ขนาดพจนานุกรมแน่นอนว่ายิ่งขนาดของพจนานุกรมที่สร้างขึ้นในระบบการจดจำมีขนาดใหญ่เท่าใด ความถี่ของข้อผิดพลาดในการจดจำคำโดยระบบก็จะยิ่งมากขึ้นเท่านั้น ตัวอย่างเช่น สามารถจดจำพจนานุกรมที่มี 10 หลักได้เกือบจะไม่มีข้อผิดพลาด ในขณะที่อัตราข้อผิดพลาดเมื่อจดจำพจนานุกรมที่มี 100,000 คำสามารถเข้าถึง 45% ในทางกลับกัน แม้แต่การจดจำพจนานุกรมขนาดเล็กก็อาจทำให้เกิดข้อผิดพลาดในการรู้จำจำนวนมากได้หากคำในพจนานุกรมนี้คล้ายกันมาก
การพึ่งพาผู้พูดหรือความเป็นอิสระของผู้พูดของระบบตามคำจำกัดความ ระบบที่ขึ้นอยู่กับลำโพงได้รับการออกแบบมาให้ใช้งานโดยผู้ใช้คนเดียว ในขณะที่ระบบที่ขึ้นอยู่กับลำโพงได้รับการออกแบบให้ทำงานกับลำโพงใดก็ได้ ความเป็นอิสระของผู้พูดเป็นเป้าหมายที่ยากต่อการบรรลุผล เนื่องจากเมื่อฝึกระบบ ระบบจะถูกปรับตามพารามิเตอร์ของผู้พูดที่กำลังฝึกตัวอย่างอยู่ อัตราข้อผิดพลาดในการรู้จำของระบบดังกล่าวมักจะสูงกว่าอัตราข้อผิดพลาดของระบบที่ขึ้นอยู่กับผู้พูด 3-5 เท่า
แยกคำพูดหรือต่อเนื่องหากในการพูดแต่ละคำถูกแยกออกจากกันด้วยส่วนของความเงียบ พวกเขาก็จะบอกว่าคำพูดนี้แยกจากกัน คำพูดต่อเนื่องเป็นประโยคที่พูดตามธรรมชาติ การรับรู้คำพูดต่อเนื่องนั้นยากกว่ามากเนื่องจากขอบเขตของคำแต่ละคำไม่ได้กำหนดไว้อย่างชัดเจนและการออกเสียงของพวกเขาถูกบิดเบือนอย่างมากเนื่องจากเสียงพูดที่พร่ามัว
วัตถุประสงค์.วัตถุประสงค์ของระบบจะกำหนดระดับนามธรรมที่ต้องการซึ่งระบบการรู้จำเสียงพูดจะเกิดขึ้น ในระบบคำสั่ง (เช่น การโทรออกด้วยเสียงในโทรศัพท์มือถือ) การจดจำคำหรือวลีมีแนวโน้มที่จะเกิดขึ้นจากการจดจำองค์ประกอบเสียงพูดเดียว ระบบการเขียนตามคำบอกด้วยข้อความจะต้องมีความแม่นยำในการรู้จำที่มากขึ้น และส่วนใหญ่จะพึ่งพาไม่เพียงแต่สิ่งที่กำลังพูดอยู่เท่านั้น แต่ยังขึ้นอยู่กับความเกี่ยวข้องกับสิ่งที่พูดก่อนหน้านี้เมื่อตีความวลีที่พูดด้วย นอกจากนี้ ระบบจะต้องมีชุดกฎไวยากรณ์ในตัวซึ่งข้อความที่ออกเสียงและจดจำได้ต้องเป็นไปตามนั้น ยิ่งกฎเหล่านี้เข้มงวดมากเท่าไร ระบบการจดจำก็จะยิ่งง่ายขึ้นเท่านั้น และชุดประโยคที่สามารถจดจำได้ก็จะยิ่งจำกัดมากขึ้นเท่านั้น

ความแตกต่างระหว่างวิธีการรู้จำเสียงพูด

เมื่อสร้างระบบรู้จำเสียงพูด คุณต้องเลือกระดับนามธรรมที่เหมาะสมสำหรับงาน พารามิเตอร์ของคลื่นเสียงที่จะใช้ในการจดจำ และวิธีการจดจำพารามิเตอร์เหล่านี้ พิจารณาความแตกต่างที่สำคัญในโครงสร้างและกระบวนการทำงานของระบบรู้จำเสียงต่างๆ

ตามประเภทของหน่วยโครงสร้างเมื่อวิเคราะห์คำพูด สามารถเลือกแต่ละคำหรือบางส่วนของคำพูด เช่น หน่วยเสียง ได-หรือไตรโฟนี และอัลโลโฟน สามารถเลือกเป็นหน่วยพื้นฐานได้ โครงสร้าง ความเก่งกาจ และความซับซ้อนของพจนานุกรมขององค์ประกอบที่ได้รับการยอมรับนั้นเปลี่ยนแปลงไปขึ้นอยู่กับส่วนโครงสร้างที่เลือก
โดยการระบุคุณสมบัติลำดับการอ่านค่าความดันคลื่นเสียงนั้นซ้ำซ้อนมากเกินไปสำหรับระบบจดจำเสียง และมีข้อมูลที่ไม่จำเป็นจำนวนมากซึ่งไม่จำเป็นสำหรับการจดจำหรือแม้แต่เป็นอันตราย ดังนั้นเพื่อแสดงสัญญาณเสียงพูดจำเป็นต้องเลือกพารามิเตอร์บางตัวที่แสดงสัญญาณนี้อย่างเพียงพอเพื่อการจดจำ
ตามกลไกการทำงานระบบสมัยใหม่ใช้แนวทางต่าง ๆ อย่างกว้างขวางในกลไกการทำงานของระบบการจดจำ วิธีการเครือข่ายความน่าจะเป็นประกอบด้วยความจริงที่ว่าสัญญาณเสียงพูดถูกแบ่งออกเป็นบางส่วน (เฟรมหรือตามลักษณะการออกเสียง) หลังจากนั้นจะมีการประเมินความน่าจะเป็นซึ่งองค์ประกอบของพจนานุกรมที่ได้รับการยอมรับในส่วนนี้และ (หรือ) สัญญาณอินพุตทั้งหมด เกี่ยวข้องกับ วิธีการที่ใช้การแก้ปัญหาผกผันของการสังเคราะห์เสียงคือธรรมชาติของการเคลื่อนไหวของข้อต่อของระบบเสียงนั้นถูกกำหนดจากสัญญาณอินพุตและหน่วยเสียงที่ออกเสียงจะถูกกำหนดโดยใช้พจนานุกรมพิเศษ

อัปเดต:ย้ายไปที่ "ปัญญาประดิษฐ์" หากมีความสนใจผมจะเผยแพร่ต่อที่นั่น

โปรแกรมรู้จำเสียงเชิงพาณิชย์ปรากฏขึ้นในช่วงต้นทศวรรษที่เก้าสิบ โดยปกติจะใช้โดยผู้ที่ไม่สามารถพิมพ์ข้อความจำนวนมากได้เนื่องจากอาการบาดเจ็บที่มือ โปรแกรมเหล่านี้ (เช่น Dragon NaturallySpeaking, VoiceNavigator) แปลเสียงของผู้ใช้เป็นข้อความจึงทำให้มือของเขาผ่อนคลายลง ความน่าเชื่อถือในการแปลของโปรแกรมดังกล่าวไม่สูงมาก แต่ในช่วงหลายปีที่ผ่านมาก็มีการปรับปรุงให้ดีขึ้นเรื่อยๆ

การเพิ่มพลังการประมวลผลของอุปกรณ์มือถือทำให้สามารถสร้างโปรแกรมสำหรับพวกเขาด้วยฟังก์ชั่นการรู้จำเสียง ในบรรดาโปรแกรมดังกล่าวเป็นที่น่าสังเกตว่าแอปพลิเคชัน Microsoft Voice Command ซึ่งช่วยให้คุณทำงานกับแอปพลิเคชันจำนวนมากโดยใช้เสียงของคุณ ตัวอย่างเช่น คุณสามารถเล่นเพลงในเครื่องเล่นของคุณหรือสร้างเอกสารใหม่ได้

โซลูชันคำพูดอัจฉริยะที่สังเคราะห์และจดจำคำพูดของมนุษย์โดยอัตโนมัติเป็นขั้นตอนต่อไปในการพัฒนาระบบเสียงเชิงโต้ตอบ (IVR) การใช้แอปพลิเคชันโทรศัพท์แบบโต้ตอบในปัจจุบันไม่ใช่เทรนด์แฟชั่น แต่เป็นความจำเป็นที่สำคัญ การลดภาระงานของผู้ปฏิบัติงานและเลขานุการคอนแทคเซ็นเตอร์ การลดต้นทุนแรงงาน และการเพิ่มประสิทธิภาพการทำงานของระบบบริการ เป็นเพียงประโยชน์บางส่วนที่พิสูจน์ความเป็นไปได้ของโซลูชันดังกล่าว

อย่างไรก็ตาม ความก้าวหน้าไม่ได้หยุดนิ่ง และเมื่อเร็วๆ นี้ ระบบการรู้จำเสียงพูดอัตโนมัติและการสังเคราะห์เสียงพูดอัตโนมัติได้เริ่มนำมาใช้ในแอปพลิเคชันโทรศัพท์แบบโต้ตอบมากขึ้นเรื่อยๆ ในกรณีนี้การสื่อสารกับพอร์ทัลเสียงจะเป็นธรรมชาติมากขึ้นเนื่องจากการเลือกในนั้นสามารถทำได้ไม่เพียงแค่ใช้การโทรออกด้วยเสียงเท่านั้น แต่ยังใช้คำสั่งเสียงได้ด้วย ในขณะเดียวกัน ระบบการจดจำก็ไม่ขึ้นอยู่กับผู้พูด กล่าวคือ จดจำเสียงของบุคคลใดก็ได้

ขั้นตอนต่อไปในเทคโนโลยีการรู้จำเสียงถือได้ว่าเป็นการพัฒนาสิ่งที่เรียกว่า Silent Speech Interfaces (SSI) ระบบประมวลผลคำพูดเหล่านี้มีพื้นฐานมาจากการรับและประมวลผลสัญญาณเสียงพูดในระยะแรกของการเปล่งเสียง ขั้นตอนในการพัฒนาการรู้จำเสียงนี้เกิดจากข้อเสียเปรียบที่สำคัญสองประการของระบบการรู้จำสมัยใหม่: ความไวต่อเสียงรบกวนมากเกินไป รวมถึงความต้องการคำพูดที่ชัดเจนและชัดเจนเมื่อเข้าถึงระบบการรู้จำ แนวทาง SSI คือการใช้เซ็นเซอร์ใหม่ที่ไม่ได้รับผลกระทบจากเสียงรบกวนเป็นส่วนเสริมให้กับสัญญาณเสียงที่ได้รับการประมวลผล

ปัจจุบัน การใช้ระบบรู้จำเสียงพูดมี 5 ประเด็นหลัก:

การควบคุมด้วยเสียงเป็นวิธีหนึ่งในการโต้ตอบและควบคุมการทำงานของอุปกรณ์โดยใช้คำสั่งเสียง ระบบควบคุมด้วยเสียงไม่มีประสิทธิภาพในการป้อนข้อความ แต่สะดวกในการป้อนคำสั่ง เช่น:

ประเภทของระบบ

ปัจจุบัน มีระบบรู้จำเสียงสองประเภท - ระบบที่ทำงาน "ตามไคลเอนต์" และที่ทำงานบนหลักการ "ไคลเอนต์-เซิร์ฟเวอร์" เมื่อใช้เทคโนโลยีไคลเอนต์-เซิร์ฟเวอร์ คำสั่งเสียงจะถูกป้อนบนอุปกรณ์ของผู้ใช้และส่งผ่านอินเทอร์เน็ตไปยังเซิร์ฟเวอร์ระยะไกล ซึ่งจะถูกประมวลผลและส่งคืนไปยังอุปกรณ์ในรูปแบบของคำสั่ง (Google Voice, Vlingo ฯลฯ ) ; เนื่องจากมีผู้ใช้เซิร์ฟเวอร์จำนวนมาก ระบบการจดจำจึงได้รับฐานการฝึกอบรมจำนวนมาก ตัวเลือกแรกใช้ได้กับอัลกอริธึมทางคณิตศาสตร์อื่นๆ และหาได้ยาก (ซอฟต์แวร์ Speereo) - ในกรณีนี้ คำสั่งจะถูกป้อนบนอุปกรณ์ของผู้ใช้และประมวลผลที่นั่น ข้อดีของการประมวลผล "บนไคลเอนต์" คือความคล่องตัว ความเป็นอิสระจากความพร้อมในการสื่อสารและการทำงานของอุปกรณ์ระยะไกล ดังนั้น ระบบที่ทำงาน "บนไคลเอนต์" จึงดูน่าเชื่อถือมากกว่า แต่บางครั้งก็ถูกจำกัดด้วยพลังของอุปกรณ์ที่ฝั่งผู้ใช้