沈 浩 杨莹莹:人工智能为媒体赋能

发布时间:2019-05-22浏览次数:1755文章来源:人民网-新闻战线

语音技术

  人工智能语音技术主要包括语音识别和语音合成,它是一种“感知”的智能。自动语音识别(ASR/AVR)是基于训练的自动语音识别系统,将物理概念上的音频信息转换为机器可以识别并进行处理的目标信息,如文本。语音合成技术是通过深度学习框架进行数据训练,从而使得机器能够仿真发声。一些智能语音开放平台也提供了智能语音服务。以科大讯飞构建的智能语音开放平台为例,科大讯飞的语音输入法准确率已经能达到98%,并且输入的速度提高到了每分钟400字。越来越多的媒体开始使用科大讯飞的语音技术。

  随着语音转换技术的日渐成熟,“语音-文本”双向转换技术在媒体中的应用成为可能。例如将语音识别技术在采编环节中使用,生成文本稿件并进行二次编辑。运用人工智能智能语音编译系统,将现场的语音报道生成文字版,大大提升了编辑人员原本耗时的整理工作的效率。将媒体的视音频内容转化成为文本素材,提升了媒体稿件、节目素材管理的效率。由于需要应对媒体音频和视频文件声源的复杂性和不可控性,虽然目前生成的文字稿件并不完美,但也在不断地提升和改善。

  语音合成技术可以基于深度学习模型,把媒体报道的文章从文字版转换成语音版,并且接近于逼真的人声。甚至可以根据不同受众群体的需求,针对性地生成特定的声音供用户收听,打造更贴切、更有亲和力的语音体验。

人脸与人体识别技术

  人脸识别是人工智能的应用中最为人所熟知的,它属于计算机视觉领域(CV)。目前人脸识别技术的主要应用包括人脸检测与属性分析、人脸对比、人脸搜索、活体检测、视频流人脸采集等方面。谷歌、苹果、Facebook、亚马逊和微软等互联网巨头争相在这一领域的技术和应用方面抢夺先机,纷纷推出相关的技术应用并不断突破创新。2018年5月的媒体报道称,亚马逊积极推广名为Rekognition的人脸识别服务,该解决方案可以在单个图像中识别多达100个人,并且可以对包含数千万个面部的数据库执行面部匹配。Facebook使用简单的人脸检测算法来分析图像中人脸的像素,并将其与相关用户进行比较,为上传到平台上的每张图片提供了自动生成的标记建议,取代了手动图像标记。

个性化推荐技术

  传媒领域的大部分产品如电影、新闻、书籍、音乐、广告、文化活动等都致力于吸引受众阅读,聆听和观看媒体生产的内容。发现目标群体并把内容传播给该群体是能否达成媒体传播效果的关键一环,而个性化推荐技术解决了这一难题。这是目前在媒体中应用较为成功的人工智能技术,在媒体的内容分发过程中,个性化推荐技术为用户提供个性化体验,针对每个特定用户量身定制推荐内容,减少搜索相关内容所花费的时间。与此同时,对于人们所担忧的,由于算法主导的精准分发过程只推荐感兴趣的内容,会导致用户陷于信息茧房的问题,研究人员目前也在试图改进算法,开发“戳破气泡”的应用技术。例如BuzzFeed推出的“Outside Your Bubble”、瑞士报纸NZZ开发的“the Companion”程序、Google的“Escape Your Bubble”等。

预测技术

  现在已经开发出来的一些强大的基于人工智能的预测技术,让我们可以“预知未来”。通过时间序列(TS)建模来处理基于时间的数据,以获得时间数据中的隐含信息并作出判断。按照一定时间间隔点来收集数据,再对这些数据点的集合进行分析以确定长期趋势,以便预测未来或进行相应的分析。

  当拥有时间相关数据时,时间序列模型将派上用场。例如,可以使用时间序列数据来分析某一家媒体下一年的用户数量、网站流量、影响力排名等,从而在广告投放方面作出合理决策。另外,如何及时地抓住社会热点是新闻机构所面临的重要问题,人工智能预测技术通过对海量的热点内容的模型进行训练和分析,建立热点模型,可以实现对于热点趋势的预测。

媒体需要思考的问题

  人们越来越清晰地看到人工智能给媒体带来的意义与价值。在融合的时代背景下,媒体迫切需要人工智能带来推动媒体变革的潜力。与此同时,我们也不能认为人工智能可以解决媒体变革中的一切问题,技术并不是一块现成的、可以直接拿来享用的蛋糕,在媒体应用人工智能时,还需要着手考虑许多问题。

数据的完备性

  媒介体系内部和外部都会产生大量的数据碎片,虽然目前数据量庞大,看似拥有海量的数据资源,但是生产的数据与可以用于人工智能的培训数据之间的匹配度还有待提升。在深度学习算法中,需要用大量的数据训练算法才能产生有意义的结果,数据的不完整性会导致准确性的下降,而准备这样的数据集的成本很高。为了实现大量的用户行为数据的积累,提高数据的完善程度,媒体需要构建大规模的数据体系和战略。为了实现人工智能在媒体中的进一步部署,媒体需要具备完备的数据源和处理更为庞大的数据系统的能力。