Sapien 是一个 Web3 平台,它将数据标记与游戏化相结合,为组织 AI 模型训练中的数据创建了一个互动环境。它利用全球贡献者网络,为各个行业提供准确且可扩展的数据标记服务。Trevor Koverko 是 Sapien 的联合创始人之一。[1][2]
Sapien 成立于 2023 年,正在构建一个人力数据标记员网络,以支持医疗保健、Web3、教育和大型语言模型 (LLM) 等各个行业的 AI 模型开发。该平台采用游戏化和区块链激励措施,以确保标记员的高度参与并保持数据质量。Sapien 为数据标记提供了一个可扩展的解决方案,将客户与能够处理任何规模或复杂性项目的各种熟练标记员联系起来。这种方法有助于组织克服数据标记挑战,加速 AI 开发并实现业务目标。Sapien 的平台旨在为 AI 模型训练提供高质量、多样化和准确的数据,使其成为数据管理和标记工作中的关键合作伙伴。[3]
Sapien 是一个 Web3 平台,它使用公会、头像和排行榜等元素对数据标记进行游戏化,并奖励参与者贡献积分。该平台利用全球网络来组织 AI 训练的数据,允许用户在参与类似游戏活动的同时赚取收益。用户可以完成图像、文本、音频和视频等领域的各种标记任务,并根据其工作的质量和数量赚取积分。这些积分可以兑换未来的奖励。该平台还具有级别和公会系统,用户可以在其中通过挑战来提升等级、解锁奖励,并与公会中的其他人合作来完成复杂的任务。[2][9]
数据标记是机器学习中的一个基本过程。它涉及使用相关标签注释原始数据(例如图像、文本和音频),这些标签定义和分类它们包含的信息。将非结构化数据转换为结构化格式使机器学习算法能够解释和学习数据。[4]
数据标记包括各种方法,包括标记图像以识别对象或特征,将文本分类为预定义的类别或提取特定信息,将音频文件中的语音转换为文本,以及识别和标记视频序列中的对象、动作或事件。数据标记质量直接影响 AI 模型的准确性和可靠性。高质量的标记可确保模型在准确、多样化和具有代表性的数据上进行训练,这对于做出精确的预测和决策至关重要。标记的精确性和一致性,包括多样化的数据,以及减轻偏差对于开发强大而公平的 AI 模型至关重要。[4]
强化学习 (RL) 通过允许系统与其环境动态交互并通过反馈优化行为来增强 AI 训练。将人类反馈 (HF) 纳入 RL 可加速学习过程,因为它提供了高质量的自适应指导,从而减少了对大量数据集的需求,并改善了对复杂、细微任务的处理。这种方法支持动态的、上下文的学习,通过专注于高价值样本而不是需要详尽的数据标记,使其更有效率。RLHF 通过利用实时专家输入,以减少数据需求来实现更准确、更具成本效益的 AI 训练。[5][6]
2024 年 4 月 10 日,Sapien 宣布成功完成种子轮融资,筹集了 500 万美元,Primitive Ventures、Animoca、Artichoke Capital、Digital Strategies 和 Yield Guild Games (YGG) 等投资者参与了投资。这笔资金将加速 Sapien 的使命,即通过其游戏化的数据标记平台为训练 AI 模型提供可扩展的高质量注释服务。[7]
"我们很高兴在构建世界上最大的 'Sapiens' 网络(我们为全球数百万为当今最重要的 AI 模型提供支持的人类所使用的品牌)的道路上获得投资者的支持。这笔资金将使我们能够扩大我们的团队,扩展我们的前端标记基础设施,并为我们不断增长的企业客户列表提供更高质量的数据。" - Sapien 联合创始人 Trevor Koverko。
2024 年 6 月 24 日,Sapien 与 Yield Guild Games (YGG) 合作,Yield Guild Games (YGG) 是一个 Web3 公会协议,使公会能够在链上形成和扩展。此次合作旨在通过将零工工作机会整合到链上游戏生态系统中来改变数据标记行业。[8]