智能语音拼写软件肯定需要一个大的词汇库。
那样的词汇库,并不是单单指文字的词汇库,更重要的每一个字在各地的普通话中可能出现的地方口音。
比如普通话大部分中国人会说,但是真正说得标准的人并不占优。特别没有几个人能真正将所有汉字都会读,更不会要说是说得标准。另外有很多字是多音字,语音拼写又必须兼顾效率和准确。
所以一个庞大的词汇库是肯定很需要的。而这个数据库因为涉及到音轨数据,数据量也比文字要大得多。
那最好是利用一个云计算技术进行解决。将全国所有人针对各个词组的口音和错误方式都收集起来。甚至是可以用方言进行创作。
所以这个智能语音拼写软件,唐浩泽真心不是很很急。其实也急不来。
不过该做的,也应当提前做起来。
他提议说:“我们可以邀请用户录制我们指定的文章音轨文件。参与的人,可以在网站上给予一定的奖励。”
向子荣听他这话,也明白他话里所指。他皱眉说:“如果通过那样收集数据模板。我们的工作量会很大。”
“反正我们也不急于求成。收集到足够的数据后,在综合分析并且建立模板。”
向子荣想了想,说:“好,我回去让人选择几篇合适的文章先试一下。”
“阅读的文章,可以选择一些名篇。不需要他们用朗读的方式。而是用说话的方式。流畅就好。”唐洪泽想一下,建议说。“比如说用鲁迅先生的文章。还有一些古文,比如《爱莲说》、《长歌行》等等中学课本上的文言文或者长诗。”
向子荣一听,笑着说:“这个主意不错。”
中学语文课本收录的鲁迅先生的文章和文言文,有不少是要背诵的。文言文就不用说了,那与现在的语言习惯有很大的不同,朗读和背诵并不容易。而鲁迅先生的文章读起来都会觉得有些拗口,背诵起来肯定不好受。
所以在中学时代有一句名言:一怕周树人,二怕文言文。
有那样的文字的阅读数据,应当可以建立不少的模板。
两人又就这个问题谈了一会,向子荣才离开了。
没几天,圈子网集团又制造出一个大新闻。
《是圈子网还是是疯子网?》
以上是《计算机世界》刊登的一篇文章的标题。
该文的作者在文章中指出:“圈子网的将批评是做污蔑或者诽谤的。将无意的过错当做罪过。编者注意到在圈子网集团已经向法院起诉中的被告名单中,发现了几个著名的博【2】客主。他们都是比较著名的公共知识分子。公共知识分子存在的意义就是向公众传播知识,对公共事务进行分析……”
然后又说:“编者还注意到,当圈子网某个子网站涉嫌传播淫【2】秽视频事件发生后,对圈子网做出了批评,但是在圈子网澄清之后,不少因此被告的人在不久之后就删除了自己的言论。这不能说那些被告没有过错,但是知错能改,善莫大焉。圈子网悍然将他们也诉诸法庭,未免太过不近人情……”
最后的结论还听辛辣:“……我们注意到,仅仅三天时间,圈子网集团在全国范围内就该时间针对个人提起的诽谤诉讼案高达六百多起。具圈子网集团的公告,似乎还会有更多。这种做法看似保护了圈子网集团的权益。但是以言入罪,与古代的文字狱有何差别?圈子网集团这种疯狂的行径,无疑会极大损害网络发展。”
唐浩泽看过这篇文章后,嗤笑一声。
文字狱?这是将圈子网集团当做野猪皮人了?
他不屑于回应。不过圈子网集团的公关部不是吃素的,当即发表了一份声明。
“我们注意到某计算机权威报刊报刊登的某位著名水军头目的文章。改文章声称圈子网集团的维权行动是疯子行为,将会危害中国网络的自由发展。对此我们不仅不敢苟同,更觉得极其荒诞。圈子网集团在第一时间要求所有人停止对我司的诽谤和污蔑。但是在事情得到澄清后,依然有不少人拿了钱而继续在网络上,继续有针对性、有目的性地散播谣言,继续污蔑诽谤圈子网。而现所有被起诉的人,我们都有证据显示他们是拿钱办事的。
“至于说批评,如果是符合客观事实的,我们会虚心接受批评,更会认真改正。但是某些所谓公知分子的批评,我们是敬谢不敏的。公知分子的可敬之处勿用赘言,但绝对不... -->>
本章未完,点击下一页继续阅读