• / 25
  • 下载费用:12 金币  

普遍通用听见智能会议系统建设规划设计(一体机~).doc

关 键 词:
普遍 通用 听见 智能 会议系统 建设 规划 设计 一体机
资源描述:
#* 听见智能会议系统 建设方案 安徽听见科技有限公司 2017 年 1 月 #* 目录 1.项目概述 .1  1.1. 建设背景 1  1.2. 建设重要性 1 2.建设内容及目标 .1 3.产品施工条件 .2 4.建设方案 .2  4.1. 系统概述 2  4.2. 软件详细配置 4 4.2.1中文语音转写引擎 4 4.2.2应用系统基本功能 4 4.2.2.1.用户管理 5 4.2.2.2.音频采集处理 5 4.2.2.3.实时语音转写 5 4.2.2.4.历史语音转写 5 #* 4.2.2.5.内容编辑 6 4.2.2.6.效果优化 7 4.2.2.7.内容展示 7 4.2.2.8.内容管理 8 4.2.2.9.全文检索 8  4.3. 硬件设备配置 9 4.3.1一体式智能会议主机 9 4.3.2应用端主控电脑 10 5.项目报价 .10 #* 1. 项目概述 1.1.建设背景 随着信息时代的到来,海量语音的获取 和存储能力愈发强大,基于会议办公的实 际场景,会存在需要大量的人力投入、工 作效率不高的情况、语音技术在会议场景 中的应用质量和效果不高。 因此,结合会议会务场景对语音技术的 实际应用需求,开展了基于会议场景下的 语音技术应用关键技术研究,突破语音合 成、语音识别、语音转写等核心技术,提 升语音技术在会议会务场景中的应用水平, 切实提升日常会议办公的工作效率和效果。 1.2.建设重要性 语音识别(Speech Recognize )技术, 是让机器通过识别和理解过程使之听懂人 类语言的技术。语音识别技术是信息技术 中人机交互的关键技术,目前已经在呼叫 中心、电信增值业务、企业信息化系统中 有了广泛的应用。随着语音识别在语音搜 #* 索、语音控制等全新应用领域的深入应用 ,语音识别技术被业界权威人士誉为有可 能引发人机界面领域革命的关键技术。近 年来,语音识别技术取得了长足的进步。 智能会议系统是基于语音识别技术所研发, 可满足会议演讲、会议研讨、沟通交流、 大型会议等一系列需要进行实时文字转写 的场景。 此部分项目的实施主要解决会议记要整 理时间长、会议中心思想因记录人员的理 解而可能出现的偏差、会议录音及关键点 难以查找等问题。项目建成后当天即可完 成所有相关会议记要的整理工作,同时, 每一个人的发言均可记录在纪要当中,可 有效减少因不同原因造成的会议中心内容 理解的偏差,提升纪要整理的效率。 2. 建设内容及目 标 本项目计划选取 1 个会议室分别部署单 机版听见智能会议系统,进行基于会议场 景下的新型语音转写技术的应用,实现会 #* 议过程中音频实时转写成文字,辅助会议 记录人员进行纪要的整理与校正,实现快 速成稿,在整体上打造样板化智能语音转 写会议室。 3. 产品施工条件 听见智能会议系统的部署环境整体要求 如下: 电源 机柜要 求 音频接 口 麦克 风 视频接 口 环 境 指 标 要 求 1.5KW 高度: 6U 深度: 500MM 对应机 柜托盘 一个 需提供 一路音 频接口, 支持卡 侬公或 大三芯 或双莲 花 需配 置麦 克风 对每 个说 话人 声音 进行 采集 如需上 屏,需 提供投 屏接口, 支持 HDMI 或 VGA 详细说明如下: 环境要求 智能会议系统采用专业定制一体机的硬 #* 件形态,一体机的安装机柜需要 6U 空间, 安装于正常室外室内即可,设备深度为 500MM,系统本身局域网组建自带,网络 带宽在 100M 以上,主控 PC 需要连接局 域网下使用,整套设备局域网下运行即可。 同时需要 1.5KW 电源。 音视频需求 该系统是基于音频基础上实现语音转写, 麦克风等音响设备利用会议室现有环境。 为实现对现场音频的采集,需要现场音 响设备(调音台或相关音频设备)提供会 议话筒音频供转写,同时设备接口支持卡 侬公、大三芯(6.5) 、双莲花输入。 如有展板上屏需求,需要会议室内配有 投影仪或者电视机,且具备 VGA 或者 HDMI 接口任意一种,展板通过连接投影 仪或者电视机进行投屏展示。 4. 系统连线图 听见智能会议系统的配套硬件设备,其 形态为:通过国家 CCC 认证和专业定制一 体机+应用端主控电脑。一体式智能会议主 #* 机为讯飞听见专业定制设备,集成了包括 服务节点、应用节点、声卡、显示器、路 由器等部件,用于部署引擎等核心能力软 件,并提供录音服务处理、数据传递等能 力;主控端笔记本电脑主要用于部署客户 端软件,控制会议的开始和结束,提供软 件各个功能的操作。会议室现场的发言音 频输出给一体机,同时如需显示,一体机 支持显示输出,主控电脑通过网线与一体 机连接,整套产品即可使用。 一体机整体外观图示意图及背后面板图 如下: #* 参数说明: 整机电源:AC 100-240V 700W; 服务器节点:XEON 2.6G 20M 2011P 8CORE,E5-2620 V3*2;32G DDR4 REG/ECC;接口 2*千网口( Intel I210AT ) ,1* RS232,GPIO,Watch dog,VGA- 切换器;USB:6*USB(前 置1*USB2.0+ 后置(2*USB 2.0/2*USB 3.0) ; 应用节点:CORE 3.2G 6M 1151P 4 CORE I5-6500;8G DDR4,2*千兆网 口( Intel 82579V )1*千兆网口( Intel 82579V ) ,1*RS 232,1*VGA,1*PS2 ,外接 :DVI 转 HDMI; 坦克声卡:一个麦克风输入并自带音 量增益旋钮,XLR/6.3mm混合式接头 一 #* 个乐器输入并自带音量增益旋钮, 6.3mm接头 4个模拟输入(RCA接头) 一组唱盘输入并内建RIAA等化放大及 自带音量增益旋钮 6个模拟输出(RCA 接头) 一个耳机接孔(6.3mm接头)并自 带音量增益旋钮 一个光纤数字输出/输 入 一个同轴数字输出/输入 一组MIDI I/O。 产品连线说明: 本产品为一体机形态,只需要接通一根 电源线、一根音频线、一根视频线,并通 过一根网线连接主控,就可使用。 #* 5. 建设方案 5.1.系统概述 听见智能会议系统由软件、硬件共同构 成,实现在会议场景下的实时音频或录音 采集,并通过语音识别技术实时转化为文 字。用户可以通过系统提供延时播放、按 句回听、重点标记等功能方便快速整理出 会议材料;并且通过系统提供的语气词过 滤、自动分段等功能自动优化文字结果; 同时,用户可以使用全文检索功能方便检 索历史音频。系统具备会议音频管理、即 时校对编辑、敏感词屏蔽、转写文字实时 直播等基本功能。 一体机 主控电脑 实时字幕 麦克风 #* 5.2.性能参数 系统关键性能指标如下: 1)转写结果能够实时上屏展示; 2)转写结果能够音字对照、编辑校正; 3)普通话转写指标:安静环境下的标准 普通话转写正确率≥90%; 4)系统响应指标:常规页面操作的响应 时间≤5 秒; 5)转写效率指标:实时语音转写效率 ≤500 毫秒。 5.3.软件功能配置 5.3.1. 中文语音转写引擎 听见智能会议系统需要解决语音转换成 文字的问题。机器语音识别技术是一种实 现从“声音”到“文字”转换的技术,通 过将人的语音直接转换成相应的文本。语 音识别技术的研究工作开始于上世纪五十 年代。Bell 实验室的研究人员利用模拟元 器件提取了语音信号元音共振峰频率变化 的信息,有史以来第一次实现了识别十个 英文数字的语音识别系统-Audry 系统。八 #* 十年代,Bell 实验室的 Rabiner 等科学家将 原本艰涩难懂的隐马尔科夫模型(Hidden Markov Model-HMM)理论工程化,形成 了较为完善的概率统计模型体系,识别性 能也得到了很大的提高。2006 年以来 Deep Learning 理论和技术成为了模式识别 领域的一个热门研究方向,G. E. Hinton 等 深入研究了深度置信网络(Deep Belief Network-DBN)以及深度神经网络(Deep Neural Network-DNN)等模型结构,微软 通过与 Hinton 合作率先将 DNN 应用于语 音识别任务,识别性能取得了显著提升。 此后谷歌、蒙特利尔,以及 IBM 又将循环 神经网络(Recurrent Neural Netwok- RNN)成功应用于语音识别领域,特别是 长短时记忆(Long-Short Term Memory) 神经网络结构,取得非常出色的语音识别 性能。加上目前图形处理器(GPU)计算 能力的提升,以及互联网时代大规模标注 数据获取成为可能,基于深度学习的语音 识别技术已经在多个领域达到实用水平。 传统的语音识别技术主要用于解决人与 #* 机器的交互问题。而在会议场景需要需要 转成文字的音频内容是人与人之间交互, 听见智能会议系统需要基于机器语音识别 技术构建语音转写引擎。听见智能会议系 统构建的语音转写引擎需要能够实时、高 效的把人与人之间交流的语音转换为文字 的能力,具体包括中文语音转写引擎与英 文语音转写引擎,本系统需要完成中文语 音转写引擎的建设。 5.3.2. 应用系统基本功能 听见智能会议系统,可以实现在会议、 教学、演讲等场景下的实时音频或录音采 集,并通过语音识别技术实时转化为文字。 用户可以通过系统提供延时播放、按句回 听、重点标记等功能方便快速整理出会议 材料;并且通过系统提供的语气词过滤、 自动分段等功能自动优化文字结果,可人 工进行角色分离;同时,用户可以使用全 文检索功能方便检索历史音频。 5.3.2.1. 实时语音转写 听见智能会议系统需要通过对实时音频 #* 流信号的处理完成从信号获取、转换、处 理、识别、输出、展示等一整套流程动作, 需要由强大的音频采集处理模块。系统讲 通过使用特定的录音服务,通过麦克风收 集后,送达后台服务端完成编码工作,实 时上传到系统,供后续的转写文字等功能 使用,同时保存到内容管理模块中。 系统通过专业麦克风对会议全程进行高 保真录音,并针对连续中文语流进行实时语 音转写识别,并持续进行转写结果文本内 容的输出。 5.3.2.2. 历史语音转写 相比于实时语音转写模块,历史语音转 写模块提供对于已经录制好的历史音频需 要转写情况下的解决能力;用户可以通过 系统提供的功能按钮,导入历史音频并实 现快速离线转写;支持音频批量导入。 #* 图:历史音频转写编辑效果图 5.3.2.3. 内容编辑 在实时语音转写过程中用户可以实时对 转写出的文本结果进行编辑,并进行重点 内容标记。在实时编辑的过程中采用延时 播放的策略,用户可以在查看到转写文本 之后及时根据听到的音频进行文本校对编 辑。用户也可不戴耳机直接听现场的实时 音频。支持选择查看原始结果,对比修改, 方便快捷,会议结束后即可直接成稿,并根 据重点内容,整理导出会议纪要。具体功 能包括: 延时播放:在实时语音转写过程中,识别 结果展现之后再开始连续播放音频,即用 户在看到转写文本的时候,同步听到对应 #* 的音频,使得校对和编辑更加便利。 重点内容标记:在实时语音转写过程中 或者暂停和结束时,用户均可以选中文本 来进行重点内容的标记,已标记的文本也 可以进行修改和标记取消,方便整理会议 纪要,会议结束会后即可或直接成稿。 音字对照:在实时语音转写暂停的时候, 用户如果对于有些内容没有听清,对于文 本内容不确定的情况下,双击原始结果即 可听到文本对应的音频,方便用户对写结 果进行编辑,尤其是不小心误删除了编辑 文本,可以通过回听原始结果来进行回溯。 实时语音转写结束状态时, 原始结果及编 辑结果均可双击进行音频回听。 图:实时语音转写效果图 #* 5.3.2.4. 效果优化 在实时语音转写过程中,听见智能会议 系统通过提供语气词过滤、自动分段等功 能自动优化文字转写和显示结果。具体包 括: 自动分段:在会议内容实时语音转写成 文字的过程中,为了方便用户编辑何查看, 系统提供根据 VAD+固定字数和 VAD+固 定关键词两种自动分段方式。系统提供 最 佳的默认自动分段方式,用户也可根据实 际情况进行设置。 语气词过滤:用户可以在实时语音转写 开始前或者进行文稿整理时可以根据需要 选择是否开启语气词过滤按钮,若开启按 钮可将语气词和多余的词汇去除,以保证 文稿的规整。语气词过滤只针对新转写的 结果,已经修改过的内容不支持过滤。 关键词优化:用户可通过关键词优化功 能将此次会议相关的关键词进行添加,能 有效提升该关键词的识别准确率。实时转 写过程中用户也可添加关键词,并且可以 实时生效,后续识别结果可得到有效优化。 #* 5.3.2.5. 内容展示 系统通过提供展板上屏等形式进行实时 语音转写结果的展示。具体功能包括: 实时上屏:通过展板上屏展示中实时语 音转写结果。并且,字体颜色和展板背景 颜色可以根据实际情况需要进行调整。 图:展板效果图 上屏后台修改:如果在实时转写过程中 使用了实时上屏功能,希望保障上屏效果, 那么可以使用上屏后台修改功能进行展板 端的结果纠正。在开始时点击展板按钮, 调出展板,此时该展板端会同步出现识别 文字。如果在转写过程中出现明显错误或 #* 不适宜展示的词语,则可以在主控端进行 展板编辑,可以修改或删除,修改之后按 Enter 键则修改的内容会同步到现场的投 影屏幕上。 5.3.2.6. 内容管理 所有通过听见智能会议系统转写的实时 录制的音频文本数据和本地上传的音频文 本数据系统都会以列表形式进行管理,后 台通过分布式存储集群实现高效安全存储, 整个过程用户无感知。用户可以通过内容 管理模块随时查看和编辑,并且可以根据 名称等信息快速检索。此外,编辑后的全 文本、重点文本以及音频、某一角色的文 本,用户都可以快速导出,方便快捷。 系统通过自然语言理解、语音识别和语 义分析技术理解用户意图,执行用户的检 索指令(包括语音、文本等) ,实现资源文 本内容的语音搜索服务能力,不仅能检索 文本资源,也能根据文件名对音视频内容 进行搜索。该服务在传统的文字输入搜索 方式基础上,不仅能支持搜索语音时的相 对自由表述,也应当能够支持传统文字检 #* 索时的相对自由表述。 5.4.硬件参数配置 听见智能会议系统的配套硬件设备,具 体包括:一体式智能会议主机、应用端主 控电脑。产品参数如下: 名 称 参数配置 数 量 单 位 定 制 一 体 机 讯飞听见专业定制一体式智能会 议主机,提供 4U 设备形态,集成 了包括服务节点、应用节点、声 卡、显示器、路由器等部件。 服务节点配置:2*E5-2620V3 2.6GHZ/32G/900G*3 SAS 10KRPM +raid5/1*USBkey+3*USB2.0/100 0M NIC; 应用节点配置:Intel Core i5/8G/500G SATA 7200RPM/VGA+HDMI\DVI\DP/ 3*USB2.0/1000M NIC; KVM 控制器:二路信号切换, 1 台 #* 支持一键切换服务端、应用端信 号源;键鼠支持切换使用二切一。 声音采集工作站:DMX 6Fire USB,单路声卡 支持路由功能,提供三个连接外 网标准网络 LAN 接口、1 个标 准网 WAN 口,配备 1 个加密狗。 主 控 电 脑 华硕 PRO453U。cpu:Intel Core i5-6200U 2.3GHz,内存: 8G,硬 盘:500GB SATA,显卡: 2GB 独 显(满足同等配置均可) 1 台 本产品为软硬件一体的离线式单机产品, 主机采用专业定制一体机,按照每天八小 时的应用数据进行估算,产品可满足 2 年 的数据存储,产品的容量空间可以通过历 史会议信息删除得到释放(数据建议定期 导出本地备份) 。 6. 项目报价 序 类 模 功能描述 数 单价 小计 #* 号 别 块 量 1 语 音 识 别 转 写 引 擎 智能中文连续语音 识别转写引擎,实 现对普通话连续语 音的实时转写,并 提供对已转写文字 的后处理及字音同 步对齐能力。 1 套 ¥300,000.00 ¥300,000.00 软 件 应 用 终 端 软 件 部署在主控笔记本 上的客户端软件, 提供实时速录、历 史录音整理、会议 信息管理、用户管 理、上屏展示、会 议编辑及效果优化 等功能。 1 套 ¥100,000.00 ¥100,000.00 3 硬 件 一 体 式 智 能 专业定制一体式会 议主机,集成服务 器、声卡、局域网、 KVM 显示等能力, 用于安装部署智能 1台 ¥93,000.00 ¥93,000.00 #* 会 议 主 机 语音转写引擎及应 用系统,为会议提 供稳定的转写服务。 4 应 用 端 主 控 电 脑 华硕 PRO453U,Intel® Core® i5-6200U 2.3GHz/8GB/Intel 500GB SATA/Intel® HD Graphics 520 集 显+Nvidia GeForce 920M 2GB 独显(满足同等配 置均可) 1 台 ¥5,000.00 ¥5,000.00 5 质 保 服 务 1、 提供首次上门安 装、调试;2、 提供 系统使用培训;3、 提供每年两次的软件 版本升级及升级后培 训;4、 提供每年一 次的移机安装服务; 1 年 免费 免费 #* 5、提供 7*24 小时的 故障现场处理及远程 技术支持服务。 合计(元) ¥498,000.00
展开阅读全文
  语墨文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:普遍通用听见智能会议系统建设规划设计(一体机~).doc
链接地址:http://www.wenku38.com/p-120459.html

                                            站长QQ:1002732220      手机号:18710392703    


                                                          copyright@ 2008-2020 语墨网站版权所有

                                                             经营许可证编号:蜀ICP备18034126号

网站客服微信
收起
展开