“Siri,今天天气怎么样?” “好的,Google,把音乐调小(xiǎo)一点!” “Alexa,再帮我订一双那款蓝色运动鞋!” 这些语音响应技(jì )术化身為(wèi)语音助手,早已成為(wèi)我们日常生活的一部分(fēn)。语音控制之所以能(néng)顺利执行,得益于在其背后运行着的复杂软件程序。要正确解读语音指令,众多(duō)准备工(gōng)作(zuò)、高性能(néng)计算机以及人工(gōng)智能(néng)均不可(kě)或缺。
人脑可(kě)以不费吹灰之力地解读一个简单的要求、一个短句,建立起逻辑关联,并对其作(zuò)出响应。但对机器而言,这一过程要复杂百倍。要想通过语音去控制技(jì )术设备,必须经历若干步骤。 “给我支筆(bǐ)!” 这样一句简单的指令,背后的计算机处理(lǐ)流程却十分(fēn)复杂。首先,要将这句语音指令转换為(wèi)文(wén)本。在通过频率模式识别指令词语的过程中(zhōng),语言识别软件必须要克服诸多(duō)挑战,例如模糊的发音、同音异义词以及不同的音调或方言等。通过将这些词语与存有(yǒu)大量词汇示例及对应频率模式的庞大数据库进行比对,判断出指令使用(yòng)的具(jù)體(tǐ)词语。 下一步是推断句子的含义。為(wèi)此,语言识别软件会将文(wén)本发送至语言接口,语言接口会核对其是否含有(yǒu)特定关键字。在此之前,编程人员必须事先确定所有(yǒu)必要的术语与命令(称為(wèi)“意向”)以及它们的同义词,并定义其指向的行為(wèi)。例如,“给”会被识别為(wèi)将一个物(wù)體(tǐ)传送至某一特定位置的请求,而“我”一词则会被理(lǐ)解為(wèi)“给”这个动作(zuò)的对象,即某个人或目标。 一旦语言接口识别了句子的含义,就会提供上下文(wén)对象,即设备控制系统所需的软件代码。為(wèi)了给机器下达一个清晰的指令,人工(gōng)智能(néng)现在要开始使用(yòng)其他(tā)软件。这个软件可(kě)以分(fēn)析上下文(wén)对象的内容的同时通过不同的传感器收集关于设备位置与环境的信息。软件中(zhōng)包含许多(duō)模块,其中(zhōng)存有(yǒu)指定给特定动作(zuò)的不同解决方案。 BionicWorkplace 的语音控制,仿生學(xué)习网络的最新(xīn)项目 程序综合所有(yǒu)这些信息构建一条命令(例如,机械手臂该如何运动以及向哪个方向运动),然后将命令发送给设备控制器。传感器技(jì )术会根据命令识别铅筆(bǐ)在书桌上的具(jù)體(tǐ)位置,以及机器要采取何种路線(xiàn)才能(néng)拿(ná)起它,并将其递给某个人。软件逐渐學(xué)习适合各种动作(zuò)的最佳解决方案,并在下一次做动作(zuò)时加以运用(yòng)。 所有(yǒu)这些复杂的流程必须在转瞬间完成,因為(wèi)人类希望设备能(néng)够迅速作(zuò)出正确响应。经过三十年的应用(yòng)实践,语音识别功能(néng)已然相对稳定,但要让人类与机器像与邻居一般自如交流,在机器语音控制方面还有(yǒu)很(hěn)多(duō)的研究与开发工(gōng)作(zuò)要做。识别和解读语音
借助人工(gōng)智能(néng)找到最佳解决方案