近日,由中国信通院、中国人工智能产业发展联盟(AIIA)、语音之家共同主办的“人工智能合成数据”主题沙龙成功召开。会议旨在进一步调研产业界在合成数据方面的现状,探讨合成数据如何助力人工智能产业有序健康发展。
作为AI数据服务领域知名品牌,标贝科技受邀出席会议,联合创始人&CTO李秀林博士围绕《合成数据的应用探索》进行主题分享,与百余位业内人士一起在线探讨交流了AI语音合成在产品服务以及模型训练上的应用和落地。
合成数据 助推人工智能产业蓬勃发展
(资料图)
Gartner 2022 年人工智能创新技术成熟度曲线(GartnerHype Cycle)发布,“以数据为中心的人工智能”被列为 2022年人工智能技术和应用四大创新之一,其中“合成数据”作为人工智能的创新方式之一,正处于期望膨胀期。伴随着机器学习模型对海量数据的依赖日益增加,使得合成数据市场需求持续增长。
合成数据是计算机模拟或算法所生成的带有注释的信息。在真实数据稀缺或敏感的领域,可通过合成数据的方法训练AI模型。换言之,合成数据是在数字世界中创建的数据,而不是从现实世界中采集或测量的数据。
虽然合成数据不包含任何现实世界现象或事件产生的数据,但从数学和统计学上反映了真实数据信息,并可以满足现有真实数据中[穆向禹1]很少出现但很关键的特定情景需求或条件,是数据科学领域中快速发展的趋势和新兴工具。
目前,合成数据已在自动驾驶、数字医疗领域[穆向禹2]广泛应用,成为人工智能数据一个颠覆性的新来源。根据研究公司Cognilytica发布的一份报告,合成数据生成的市场在2021年增长到1.1亿美元以上,预计到2027年底将增加到11.5亿美元。
高质量合成数据 加速人工智能产业应用落地
会上,李秀林博士指出,对于人工智能模型训练来说,合成数据非常重要。在训练人工智能(AI)模型时,企业往往会遇到没有足够量的数据、数据生产成本高昂,或采集的数据涉及隐私、公平等问题[穆向禹3]的挑战。在这种情况下,合成数据为训练符合道德标准、高质量的 AI 模型提供了另一种机会。
例如,在对皮肤视觉诊断中,使用手机等非专业设备拍摄皮肤的图片,难以完整的表现皮肤的颜色、皮肤表面特质变化、光照条件等特点。而基于Unet结构的pix2pix图像风格迁移网络,可以控制变量,如不同类型的皮肤、病变,为病理判断提供有效的参考依据。
在自动驾驶领域里,由于自动驾驶要求的能力,数据采集加工的数据量巨大。通过对数以百万计的车辆偏离轨道的场景进行合成生成图像,获得现实场景下几乎不可能捕捉到、或者[穆向禹4]只存在于极度危险场景下才能存在的图像和视频,极大提升并改善了自动驾驶系统的训练效率与效果。
在多风格音色生产项目中,由于不同的人有不同的音色、说话方式,同一个人在不同语境下也会有不同的语气语调。传统的音色采集通常由专业主播和剪辑人员完成,录制加工流程复杂,费时费力。通过语音合成技术,可以快速生成自然真实、充满感情和表现力的合成音色。
标贝科技作为行业领先的智能语音交互与AI数据服务提供商,深耕智能语音交互领域多年,始终致力于语音合成技术的创新研发和商业化应用。随着自身技术不断迭代升级,构建了丰富的合成语音数据库,包括超过100余种不同语言和场景的自有版权商业化发音人,覆盖男声、女声、老人、童声等多种音色,支持中文、英文、中英混读、小语种、方言等语种。凭借自然流畅的韵律、丰富的音色层次感和多维情感表现力等优势,充分满足智能客服、媒体新闻、有声阅读、车载互联、泛娱乐等领域语音需求。
随着市场对更仿真、更个性的声音需求,标贝科技基于核心的深度神经网络技术模型,创新打造了情感合成、声音转换、声音复刻等个性化声音定制方案,帮助加速语音产品的落地。
未来,人工智能的迅猛发展,合成数据将迎来更大需求市场。标贝科技将持续加码自主研发投入,打造更智能、更场景化的语音合成服务,实现技术创新和商业化应用的双赢。