สถานะของการรู้จำเสียงของ Linux

การรู้จำเสียงใน Linux จะติดตามแพลตฟอร์ม Windows และ Mac เนื่องจากทั้ง Microsoft และ Apple ได้ลงทุนเวลาและค่าใช้จ่ายจำนวนมากในการเพิ่มซอฟต์แวร์สั่งงานด้วยเสียงหรือระบบสั่งงานด้วยเสียงลงในระบบปฏิบัติการหลัก

แม้ว่าสถานการณ์จะไม่เลวร้ายสำหรับ Linux เช่นเดียวกับเทคโนโลยีที่ล้ำสมัยมากมาย แต่จักรวาลโอเพนซอร์สที่ฟรีและโอเพนซอร์สยังคงอยู่เบื้องหลังโดยเฉพาะอย่างยิ่งกับเครื่องมือสั่งการด้วยเสียง

Native Linux Speech Recognition

ไม่มีการแจกจ่าย Linux มุ่งเน้นไปที่การรู้จำเสียง อย่างไรก็ตามแอปที่รองรับความสามารถในการรู้จำเสียงต้องอาศัยไลบรารีโอเพนซอร์สจำนวนหนึ่งซึ่งรวมถึง Sphinx, Kaldi, Julius และ Mozilla Deepspeech

Negativespace / Mockup รูปภาพ

ไลบรารีเหล่านี้อาศัยคลังคำพูดเพื่อเสนอรูปแบบของเสียงในการฝึก AI ดังนั้นจึงแปลคำพูดเป็นข้อความได้อย่างถูกต้อง อย่างไรก็ตามโครงการโอเพนซอร์สมีความซับซ้อนน้อยกว่า (เนื่องจากมีส่วนร่วมในการฝึกอบรม AI เพียงเล็กน้อย) ซึ่งหมายความว่าแอปแปลงข้อความเป็นคำพูดสำหรับ Linux ส่วนใหญ่มักจะทำให้การแปลงไม่สมบูรณ์ โดยปกติแล้วพวกเขาจะทำความสะอาดอย่างละเอียดจนไม่ชัดเจนว่าคำพูดเดิมเป็นอย่างไร

ตัวเลือกสำหรับ Linux Speech to Text

ใช้หนึ่งในห้าเส้นทางการแก้ปัญหา

พึ่งพาแอพ Linux ดั้งเดิมที่มีอยู่ในที่เก็บของการแจกจ่ายของคุณหากมีปรากฏขึ้น
Amazon ทำให้ Alexa พร้อมใช้งานสำหรับ Linux รวมถึง Raspberry Pi คุณจะต้องทำการปรับแต่งแบบกำหนดเองจำนวนมากเพื่อให้การจัดเรียงนี้ใช้งานได้ แต่จะได้ผล
เข้าถึง Google Speech API ในเบราว์เซอร์ของคุณผ่าน DictationIO บริการนี้ใช้สำหรับการป้อนตามคำบอกเท่านั้น คุณไม่สามารถใช้คำสั่งเสียงได้ ขับเคลื่อนโดย AI ของ Google ดังนั้นคุณภาพจึงดี

ใช้บริการเช่น Alexa หรือ Google Assistant เป็นยูทิลิตี้คำสั่งเสียงสำหรับ Linux ผ่านบริการ Triggercmd Triggercmd ทำงานบนคอมพิวเตอร์ของคุณ ใช้เพื่อเรียกใช้ Alexa หรือ Google Assistant และให้เครื่องมือเหล่านั้นรันสคริปต์ Bash เฉพาะตามคำสั่งของคุณ พูดว่า "OK Google ขอคำสั่ง trigger เพื่อเปิดเครื่องคิดเลข" Google Assistant ทำหน้าที่เป็นตัวกลางกับ Triggercmd เพื่อเรียกใช้สคริปต์ Bash ที่ระบุโดยวลี "เปิดเครื่องคิดเลข"
ใช้ Wine หรือเครื่องเสมือนกับซอฟต์แวร์สำหรับ Windows เช่น Dragon NaturallySpeaking ด้วยการปรับแต่งที่ถูกต้องคุณสามารถใช้เอ็นจิ้น Dragon สำหรับการถอดเสียงได้แม้ว่าโซลูชันนี้จะใช้ไม่ได้กับแอปพลิเคชันคำสั่งเสียง