笔趣阁 > 武侠修真 > 万物起源 > 第45章 :杜氏语音输入法

看更多诱惑小说请关注微信  npxswz    各种乡村  都市  诱惑      杜怀安认真分析各字发音的波形,发现所有声音的波型都是由一小段波形不断重复所构成的,因此他猜想是不是可以把这小段波形当成汉字的识别特征,这一研究下去他更是发现这些这一小段波形不仅仅能当作汉字的识别特殊,其实还可以分解为更短的部分,而通过分析这些最小的单位可以得出声音的发音规律,所有的汉字加起来的声音虽然不少,但杜怀安直接用声母乘以韵母再加上每种拼音有四种音调这样算了算,也发现不会超过3276种声音,再除去一些声母跟韵母不能组成拼音,这一来绝对不超过三千种声音,因此他完全可以拿本字典来,一种一种声音分析,找到各种字音的特征以区分开各个汉字。

    通过最后的分析,杜怀安有了一个方案,首先,除杂音的方式有所改变,因为杜怀安发现杂音跟汉字发音有很大的不同,各声音特性区别较大,根本不用什么处理,只要让把软件设计成只认识汉字声音就行了,那些跟汉字波形区别很大的杂音软件就不理它们,这样杂音就不会再影响到输入了,而通过分析最小的声音波形单位,杜怀安也找出了各个汉字的特征,这个最小的波形单位杜怀安把它们称之为声音识别码,各人的单调差异也就是这个声音识别码长短的区别而已,声音识别码长声音波形的频率就小调就比较低,所以男声跟妇声对比,由于女生音调高是女声的声音识别码较短,为了解决不同音调同一个字声音不同的问题,杜怀安设法把单个声音识别码提出来,然后通过一定的方式使得所有的声音识别码长度一致,这样音调对声音判别的影响就取消了。

    而且由于判断声音不象发音那样需要还原出原声,因此杜怀安在判断声音的时候只需识别出声音识别码的几个点的波形振幅就行了,然后通过这几个点的振幅比例识别出这个字是什么,比如说有一个字,他在第一点的振幅是5,第二点是8,第三点是1,那只要有一个声音识别码中这三个点的振幅比例是5:8:1就可以判定这个声音识别码是属于这个字的了,这样就可以识别出这个字了,当然这只是举个例子而已,真正识别的时候不可能只取三个点而已,那样认字会非常不准的,而且这些点的选择也经过杜怀安的精密计算,尽可能使得不同的声音小型的振幅不同,而且不要考虑到杂音的情况,如果取的点太简单了杂音也可能会符合识别的条件,那就不能正确认出汉字了,通过杜怀安的不断分析试验,终于找到了合适的点,要知道取的点少了不行,多了又浪费,所以这花费了他不少时间,当然现在这些可是杜怀安的专利,这里就不透露了。

    杜怀安正式开始为各汉字的语音定点取样时才发现,原来汉语所有的拼音不加声调才一共415个,加上四个声调相组合也就是1000多个,比最初他所想的不3000多个少了很多,这也省了杜怀安很多功夫,当然他做这声音取样的工作也找了不少人,通过不同人的声音来分析使得识别更准确,他同一宿舍的三个哥们是最先遭殃的,每当杜怀安完成一部分的字后又开始了对几个舍友的折磨,叫他们三个用不同的语速和不同音调念出一些字音,他还不满足,还找同班的同学也来试试,为了这个软件他这段时间来省吃俭用才买了一个质量不错的录音机,他一有空就拿出来叫人对着录音机说话,不好陈经这个学期又忙着制作智能系统,所以又是一个学期都没进教室,这才成了0411班唯一幸免的人。

    好在杜怀安上个学期的时候为了学习需要,他已经跟大四毕业的学长低价买了一台二手电脑,不然他还真没法把这个软件继续做下去,这耗费的时间也太长了,总不能一直用别人的电脑来做吧。

    在杜怀安不懈的努力下,他的软件终于初步完成,对着话筒说话已经可以识别出同音的字来了,在读出声音的时候基本都能正常列出这个声音的汉字来,但是汉字中同音的字太多了,如果软件只是做成这样的话那还要选字,不然的话只能录入字库中的第一个同音字,因此还有不少工作要做,首先杜怀安想到的就是通过词语来减少同音字的数量。

    为此杜怀安做了一个词库,基本上把所有常用词语都放到里面去了,而且一些比较常用的语句比如:“大家好”、“吃了没”、“同志们辛苦了”这类的,这样一设置,选字的情况大大减少了,只要是组成词语的基本上没什么生字的情况出来,但是这样还是有一些字是单个出现的,杜怀安也只能通过整句分析,分析这些字在句中属于什么位置是名词、动词还是形容词,用来作主语还是谓语或从语连接语,然后再找最吻合的字显示出来,软件的设置就是在有半秒以上的停顿时就当成是一句,说完一句之后才选字,当然如果一句下来没错的话就不用选了。

    做完这些之后杜怀安试用发现,软件需要选字的情况已经很少了,这不比拼音输入法,虽说有些拼音输入也有整句输入的功能,但是,拼音输入法是没有输入音调的,因此输入每个拼音都是四种音调,别看这只是比语音输入多了四倍的字,但一组合成词语和句子那重复的机率就差别极大了,学过排列组合就知道,如果仅仅两个字那就是4x4也就是16倍的差距,但是如果更多呢?如果有n个字组成一句那拼音输入就比语音输入多了4的n次方重复机率,这就是两者差别,所以虽说杜怀安的这个语音输入软件仅仅是刚完工,但是用来输入汉字是极少需要选字。

    做出软件后杜怀安连想都不想就直接命名为杜氏语音输入法,接着就上传到圈圈科技的程序商店上去了,他就坐等月底圈圈科技给他的帐号划钱了。

(https://www.bqduo.cc/biquge/15_15733/c4620369.html)


1秒记住笔趣阁网:www.bqduo.cc。手机版阅读网址:m.bqduo.cc