明日へ連れて

个人微信公众号:shaoyanshaoyu_
摄影爱好者
偶尔写点小文章

任意文章小说,这款APP都能帮你念!


不知道有没有人跟我一样,在清醒的时候,总想做点什么事儿,不管是玩手机、玩电脑、看书还是什么,总之就是不喜欢闲着。除了睡觉,我总想让眼睛或耳朵接触些什么,更充分地利用自由的时间。

平时如果是等车或长途旅行,我会选择带上kindle看电子书,但有时碎片时间特别零碎,而且可能是在路上或在做饭,没法看书或玩手机。以往这时候我会选择听听音乐放松一下,但听久了也会觉得有些无趣。正当我为如何更好的打发碎片时间而发愁的时候,我发现了一个神器,它叫做讯飞有声——一款有声阅读APP。


这款APP支持你复制或导入任何内容,由人工合成的语音为你朗读。也就是说,无论是小说、新闻还是公众号文章,只要是文字,这款APP就能轻易地将文字信息转化为声音信息,而且支持选择多种风格的主播,朗读的声音很接近真实的人声。不同于我六年前用过的静雅思听这类有声读物网站,只能去搜索自己想听且已有的音频,讯飞有声最具吸引力的一点是:只要有了文字,它什么都可以给你读!是不是很棒棒!

这款APP的slogan是:

完美切中我的需求!

微信、资讯、小说,任何文字都!可!以!

走着听,躺着听,坐着听,任何姿势都!可!以!

这个软件配上我的Bose无线耳机,解决了我的两大难题:想听什么就听什么,想怎么听就怎么听。

最关键的是,你可以选择任意自己想听的东西,不一定非要是知识性的内容,只要能让自己开心就好。当然你也可以强制性地让自己接受想要学习的信息,比如我会经常听36氪和运营研究社的文章,这些是跟我本职工作相关的,有必要吸收一些。但实际上,我更喜欢听严肃八卦、新世相、再深一点之类的公众号,情感类或者娱乐类,放松心情,也不用在意听漏了一句话之类的,抓住主要意思即可。我去云南旅游前,就是这些语音朗读的文章陪伴着我收拾完一大箱行李的,解放双眼的感觉太好了。

不过,具有一定深度的文章,我不建议纯用这种形式,因为听是一个比较浅的吸收知识的形式,难以留下让你思考的时间,听者往往十分被动,有可能过耳即忘。建议可以先听一遍,然后再去看原文,有效提取全文的精华部分。

我目前已经累计收听了六个半小时,一百来篇文章。一篇才耗时三四分钟,听起来很轻松。不过,听其实比起阅读要慢得多,虽然可以调整语速,但我也不会调到二倍速听,仅仅是比正常语速要快一点点,但它本来就是用来打发零碎时间的,聊胜于无嘛。


最方便快速的方式是复制链接,讯飞提供了两种方式读取链接中的文字。

1)复制链接-打开APP-自动识别链接并提示朗读


2)通过桌面小组件一键朗读

我常用的是上述两种方式,但它还有更为强大的功能,在官方APP Store的介绍中可以看到它支持的文档类型相当丰富。



再来看看通过拍照变语音的黑科技吧,这可谓是OCR(Optical Character Recognition,光学字符识别)识别功能+语音合成的完美结合!

该图来自科大讯飞官方文章

我比较喜欢水哥的声音😀适合听悬疑小说和科技类文章,情感类则可以换成女声。

虽然是人工智能阅读,但大部分时候你不会觉得跟谷歌娘一样生硬,更偏向真实的人声,仿佛它就是你的专属贴身主播。

唯一的问题是有些多音字会读错,或是断句出现问题,有时会出现很好笑的读法,比如一些流行语之类的,等待大家自己发现~

主界面提供了调节语速、定时、查看原文、播放顺序选择及添加背景音乐等功能,在阅读时根据文章类型的不同加入不同的背景音乐营造氛围效果很不错哦。


讯飞或其他企业使用的智能语音是如何做到无限接近于真人朗读的呢?

我查阅了一些关于“语音合成”的文章,太技术流的我也看不懂,我摘要了一部分内容,大致可以了解其中一种技术(端到端语音合成)的基础原理。

语音合成(Text to Speech Synthesis,TSS)是一种将文本转化为自然语音输出的技术,语音合成系统分为前端和后端,前端负责分词、词性、多音字标注等文本特征信息提取(因为人朗读时是先有一个理解文本的过程的,因此系统需要做类似的处理工作,使得无论发音吐字还是语调停顿等,都更像是真人而非纯机器朗读的效果);后端模块根据前端提取的文本特征完成语音生成

传统TTS技术是基于参数合成和拼接合成的,近年来,基于神经网络(Neural Network)架构的深度学习(Depp Learning)方法的崛起,使得原本在传统专业领域门槛极高的TTS应用上更接地气,现在已产生了一种新的方法Tacotron——一种端到端的TTS生成模型。

所谓“端到端”,就是直接从字符文本合成语音,打破了各个传统组件之间的壁垒,使得我们可以从<文本,声谱>配对的数据集上,完全随机从头开始训练。

所谓的<文本,声谱>配对,就是要让机器学会将每一个包括空格和标点在内的字符[a-z1-5 ,.;:],对应到(mel或线性)声谱的某几帧。

Tacotron 把文本符号作为输入,把幅度谱作为输出,然后通过 Griffin-Lim 进行信号重建,输出高质量的语音。同时,由于Tacotron 模型是逐帧建模,因此合成效率得以大幅提升。这就是语音合成背后的技术基础。


我曾经是一个忠实的某主流输入法的用户,某天看到一条热门微博,是讯飞的发布会,发布会上介绍了讯飞语音输入法,我尝试着试了下这项黑科技,当天就卸载了原先的输入法,改投讯飞的怀抱。

不得不说,讯飞语音输入太强大了,官方宣传是1分钟最快能输入400个字,我们公司今年的年中大会上,就在舞台上配置了一左一右两个大屏幕,可以将发言者说的话实时转换成文字出现在屏幕上,超酷!我曾用语音输入法写了好几个月的日记,体验太棒了(除了偶尔会识别不出语音这个问题)。被他们的语音技术深深折服的我,现在又爱上了讯飞有声这个软件,想想真是有缘。

语音交互在慢慢改变我们的生活,我成为了受益者,感谢科技给我带来的一切便利,希望未来各种新技术能带给我更多惊喜,提升工作、生活和学习的效率!

1. 语音合成技术简介(https://m.elecfans.com/article/800052.html)

2. 一个基于Tensorflow框架的开源Tacotron实现(https://m.elecfans.com/article/659379.html)


评论
热度(2)

© 明日へ連れて | Powered by LOFTER