内蒙古大学考研丨内大多篇论文被顶级世界会议ICASSP选用_语音…(内蒙古大学考研官网)
原标题:内蒙古大学考研丨内大多篇论文被顶级世界会议icassp选用
内容发布【小白杨内大考研真题辅导】
专心内蒙古大学考研,全平台同名
重视咱们获得内大免费真题及报考资讯
迩来,2022年ieee音频、语音与信号处置世界会议(2022 ieee international conference on acoustics,speech, and signal processing, icassp 2022)发布选用告诉,我校蒙古文智能信息处置技能国家当地联合工程研讨中心(蒙古文信息处置技能自治区要点实验室)有6篇论文被接录入用(包括协作),触及智能语音交互领域的语音增强、语音鉴伪、语音辨认等研讨领域。icassp是由ieee电气电子工程师学会主办的信号处置领域的顶级世界会议,是ieee下语音方向最具代表性、最高荣誉的会议,在世界上享有盛誉并具有广泛的学术影响力。
工程研讨中心高光来教授、张学良教授、飞龙教授带领团队多年来关于语音辨认、语音组成、语音增强与别离等领域进行了深化的研讨,提出了一系列立异性办法,在taslp、icassp等语消息号处置领域世界顶级期刊和会议宣告论文20多篇,而且研发的蒙古语语音辨认、蒙古语语音组成和语音增强等智能体系已实践落地使用,对国家和自治区智能语音工业打开起到了活泼推进作用。
在工程研讨中心主任高光来教授的带领下,近几年团队规划和质量稳步前进,引入和培育了张怀文研讨员(快马方案b1岗)、刘瑞研讨员(快马方案b1岗)、张晖副教授等一批优良的年青教师,并变成了工程研讨中心中心骨干力气。当前,工程研讨中心专业技能人员29人,其间教授10人、研讨员2人,副教授7人、副研讨员1人、博士生导师7人,27人具有博士学位,具有层次高、世界化和年青化的特征。
近几年,跟着工程研讨中心不断地缔造与打开,在科技立异、产学研联系和人才培育方面获得了一系列可喜的成果,为我区甚至全国多言语智能信息处置、大数据云核算效能供给了技能支撑。
paper 01
alignment-learning based single-step decoding for accurate and fast non-autoregressive speech recognition
作者:王勇和, 刘瑞, 飞龙,张晖,高光来
单位:内蒙古大学
这篇文章提出一种根据对齐学习的非自回归transformer(al-nat)语音辨认办法。受端到端模型中编码器ctc的输出和方针序列具有单调有关性这一实际的启示。咱们将编码器ctc的输出作为解码器的输入,并界说了一种对齐丢掉函数用于最小化该输入和方针序列之间的对齐本钱矩阵。咱们的办法不需要长度猜测机制,在辨认精确率宽和码速度方面比较已有的nat模型获得了显着前进。此外,为了学习上下文常识以前进辨认精确率,咱们进一步在编码器宽和码器端别离添加了轻量级3-gram言语模型。实验成果标明,别离在编码器宽和码器端添加言语模型对辨认功能有很大前进。
paper 02
a complex spectral mapping with inplace convolution recurrent neural networks for acoustic echo cancellation
作者:张成刚, 刘晋江, 张学良
单位:内蒙古大学
这些年,深度学习技能被引入到声学回声消除(aec)中,并获得了显着的作用。可是关于根据深度学习办法的aec来说,最重要的疑问是在多样性场景下模型的泛化才能。与大大都处置整个频段的办法不一样,这篇文章提出了用于端到端aec的原地卷积递归神经网络(icrn),它使用原地卷积和通道级的时刻建模来保证近端信号信息得到保存。此外,这篇文章选用复数频谱映射与多使命学习战略,获得非常好的泛化才能。在多个不匹配的场景下进行的实验标明,所提出的办法优于早年的办法。
paper 03
drc-net: densely connected recurrent convolutional neural network for speech dereverberation
作者:刘晋江, 张学良
单位:内蒙古大学
根据作者之前在时频域上运用inplace crn模型对每个频率点进行单独处置得到的显着功能前进。在这篇文章中,该办法将单频点特征作为根柢的处置单元,这使得模型可以共同rnn在时频域中对频率维度和时刻维度的处置方法。在此基础上,该办法将卷积神经网络(cnn)和rnn紧密联系起来作为一种根柢的时频域处置单元,究竟得到了密连循环卷积神经网络(drc-net)。drc-net有用交融了rnn的无限冲击呼应特性和cnn的有限冲击呼应特性,使得功能得到了显着前进。实验成果标明,不管对错因果版另外drc-net仍是因果版另外drc-net,语音去混响的功能都优于sota基线模型。
paper 04
a robust deep audio splicing detection method via singularity detection feature
作者:张康豪1, 梁山2, 聂帅2,何树林1,潘家慧1,张学良1,马浩鑫2, 易江燕2
单位:1内蒙古大学, 2我国科学院主动化研讨所
这篇文章关于编造语音中的半真半假音频辨别提出了一种使用高频独特性检测特征和序列信息进行音频鉴伪的办法,以抵偿关于半真半假音频检测办法的缺失。给定其时待检测的音频,该办法首要对音频进行小波分化,并获取分化后的高频分量进行重构,获取出音频中的高频独特点以及骤变特征。然后使用长短时回想模块(lstm)进行序列建模,进行初步的独特点上下文建模以及定位。为了消除音频本身存在的固有独特点烦扰,该办法组合了线性频率倒谱系数(lfcc)作为弥补。该办法不只完成了关于半真半假音频数据的辨别,一起也对编造的音频片段进行定位。所提办法为一种新式的进犯方法——半真半假音频供给了一种有用办法,且实验成果标明,相关于已有鉴伪办法,该办法在精度和鲁棒性方面都有了很大的前进。
paper 05
alleviating the loss-metric mismatch in supervised single-channel speech enhancement
作者:杨洋, 张晖, 张学良, 张怀文
单位:内蒙古大学
在这篇文章中,作者研讨了有监督的单通道语音增强体系的丢掉-衡量不匹配疑问。大大都现有的语音增强体系的功能并不令人满足,因为它们根据经历选择的丢掉函数与不可以微的评价方针存在语义上的间隔,又称丢掉-衡量不匹配疑问。在这项作业中,作者提出了一种简略而有用的办法,为真实的前端语音增强场景生成适合的丢掉函数,以减轻丢掉-衡量不匹配的疑问。具体来说,该办法选用了函数滑润技能,经过一组基函数及其线性组合来迫临不可以微的评价方针。实验成果标明,由该办法生成的丢掉函数可以协助语音增强体系在大大都评价方针上获得更显着的功能。
paper 06
attention-based fusion for bone-conducted and air-conducted speech enhancement in the complex domain
作者:王鹤鸣1, 张学良2, 汪德亮1
单位:1俄亥俄州立大学,2内蒙古大学
骨传导 (bc) 麦克风经过将人类头骨的振荡变换为电信号来捕获语消息号。bc 传感器对噪声不活络,但带宽有限。另一方面,传统或空气传导 (ac) 麦克风可以捕获全频带语音,但简略遭到布景噪音。咱们经过运用实施凌乱频谱映射的卷积循环网络联系 ac 和 bc 麦克风的优势。为了非常好有利地势用来自两种麦克风的信号,咱们选用了根据留心力的交融以及前期交融和晚期交融战略。实验证明晰所提出的办法优于其他迩来联系 bc 和 ac 信号的语音增强办法。此外,咱们的增强功能显着优于传统的语音增强对应物,特别是在低信噪比场景中。
内容发布【小白杨内大考研真题辅导】
专心内蒙古大学考研,全平台同名
重视咱们获得内大免费真题及报考资讯回来搜狐,查看更多
责任修改:
发表评论