Johan Schalkwyk 是一位计算机科学家,以其在人工智能领域,特别是在语音技术和大型语言模型方面的工作而闻名。他曾在 Google 担任重要职务,为语音搜索和多模态 AI 等领域做出贡献,目前担任 Sense 的战略顾问,专注于能源转型的人工智能,并且最近加入了 Meta Superintelligence Labs。[1] [2] [36]
Johan Schalkwyk 在比勒陀利亚大学获得了机器人工程硕士 (M.Eng.) 学位,专注于强化学习。他于 1993 年完成了该项目,GPA 为 4.0。[39]
Johan Schalkwyk 在 Google 工作了很长时间,并在 AI 领域被公认为 Google Fellow。他在 Google 的工作涵盖了人工智能和机器学习领域的几个关键领域。作为语音领域的技术主管,他指导了语音识别和合成技术的战略研究投资。这一领导为诸如 2008 年推出的全球首个语音搜索体验 Google 语音搜索等创新做出了贡献。他还为推进设备端处理以及在包括 Google Assistant 和 YouTube 在内的各种 Google 产品中应用神经模型等概念发挥了作用,从而将支持范围扩展到 80 多种语言。后来,在 Google DeepMind,他参与了多模态感知和大型语言模型的开发,包括为 Gemini 系列模型做出了贡献。[1] [2]
2024 年 5 月,Schalkwyk 加入了 Sense 公司,这是一家专门从事家庭和电网嵌入式智能的公司,担任人工智能战略顾问。在这个职位上,他专注于利用人工智能和机器学习来支持全球能源转型。他在 Sense 的咨询工作旨在开发新的工具,供公用事业公司和消费者使用数据和机器学习来管理能源需求、提高效率和增强电网安全性。Sense 利用机器学习为消费者提供有关其家庭能源使用情况的实时见解,并为公用事业公司提供电网智能,用于故障识别、功率流跟踪和电气化规划等任务。[1] [37] [38]
2025 年 6 月,马克·扎克伯格宣布成立 Meta Superintelligence Labs (MSL),这是 Meta Platforms 内部的一个新组织,专注于开发人工超智能。Johan Schalkwyk 被任命为加入该计划的关键新团队成员之一。MSL 的成立是为了容纳从事基础模型(包括 Llama 软件)、产品和基础人工智能研究项目的各个团队。MSL 的成立以及招募像 Schalkwyk 这样的顶尖 AI 人才,是 Meta 在快速发展的人工智能领域展开竞争的一部分努力。[40] [41]
Johan Schalkwyk 合作撰写了大量计算机科学领域的研究论文,重点关注语音识别、自然语言处理和机器学习等领域。他的出版物跨越数十年,并发表在著名的会议和期刊上。
主要出版物包括对以下内容的贡献:
- 2020 – 至今
- Gemini 1.5: 解锁跨数百万个上下文标记的多模态理解。 CoRR abs/2403.05530 (2024) [3]
- 将语音编码器与下游文本模型耦合。 CoRR abs/2407.17605 (2024) [4]
- SLM:弥合语音和文本基础模型之间的细微差距。 ASRU 2023: 1-8 (2023) [5]
- Lego-Features:导出用于流式传输和审议 ASR 的模块化编码器特征。 ICASSP 2023: 1-5 (2023) [6]
- Google USM:将自动语音识别扩展到 100 多种语言。 CoRR abs/2303.01037 (2023) [7]
- AudioPaLM:一种可以说话和聆听的大型语言模型。 CoRR abs/2306.12925 (2023) [8]
- Gemini:一系列功能强大的多模态模型。 CoRR abs/2312.11805 (2023) [9]
- 2010 – 2019
- 用于大词汇量语音识别的格生成。 ASRU 2017: 228-235 (2017) [10]
- Google 的语音研究以实现通用语音界面。 鲁棒语音识别的新时代,利用深度学习 2017: 385-399 (2017) [11]
- 用于键盘手势解码的长短期记忆神经网络。 ICASSP 2015: 2076-2080 (2015) [12]
- 使用循环神经网络学习语音识别的声学帧标记。 ICASSP 2015: 4280-4284 (2015) [13]
- 语音查询优化。 INTERSPEECH 2012: 2462-2465 (2012) [14]
- 一种基于滤波器的算法,用于有效组合有限状态转换器。 Int. J. Found. Comput. Sci. 22(8): 1781-1795 (2011) [15]
- 用于开发的语音搜索。 INTERSPEECH 2010: 282-285 (2010) [16]
- 用于移动语音输入的按需语言模型插值。 INTERSPEECH 2010: 1812-1815 (2010) [17]
- 用于语音搜索的查询语言建模。 SLT 2010: 127-132 (2010) [18]
- 用于有效组合加权有限状态转换器的滤波器。 CIAA 2010: 28-38 (2010) [19]
- 2000 – 2009
- OpenFst。 FSMNLP 2009: 47 (2009) [20]
- 移动媒体搜索。 ICASSP 2009: 4897-4900 (2009) [21]
- GOOG-411 上 what-with-where 的语言建模。 INTERSPEECH 2009: 991-994 (2009) [22]
- 用于加权有限状态转换器的广义组合算法。 INTERSPEECH 2009: 1203-1206 (2009) [23]
- 声学上未缩减和缩减词的识别中的语义上下文效应。 INTERSPEECH 2009: 1867-1870 (2009) [24]
- 部署 GOOG-411:数据、测量和测试方面的早期经验。 ICASSP 2008: 5260-5263 (2008) [25]
- OpenFst:一个通用且高效的加权有限状态转换器库。 CIAA 2007: 11-23 (2007) [26]
- 使用有限状态转换器的动态语法进行语音识别。 INTERSPEECH 2003: 1969-1972 (2003) [27]
- 1990 – 1999
- 通用语音工具:CSLU 工具包。 ICSLP 1998 (1998) [28]
- 使用口语对话系统进行美国人口普查的实验。 Speech Commun. 23(3): 243-260 (1997) [29]
- CSLUsh:一个可扩展的研究环境。 EUROSPEECH 1997: 689-692 (1997) [30]
- 具有低存储要求的说话人验证。 ICASSP 1996: 693-696 (1996) [31]
- 构建 10,000 个口语对话系统。 ICSLP 1996: 709-712 (1996) [32]
- 使用类似音节的单元进行语音识别。 ICSLP 1996: 1117-1120 (1996) [33]
- 检测电话语音中的冒名顶替者。 ICASSP (1) 1994: 169-172 (1994) [34]
- 美国人口普查的语音应答问卷原型。 ICSLP 1994: 683-686 (1994) [35]
他的工作包括对 OpenFst 库的贡献,OpenFst 库是一个用于构建和操作加权有限状态转换器的工具包,该转换器广泛用于语音和语言处理应用程序。[26] [20]