为AI工作的人丢失了数据标签

日期:2025-06-14 浏览:

最初与Dingjiao One(Dingjiaone)的实习生一起|编辑陈丹| Wei Jia在798附近的一家咖啡店里,在谈话期间,AI Data Lageller Liao Zai一再提到咖啡机器人。在这个覆盖近3,000平方米的咖啡馆中,许多咖啡师在中央圆形岛上工作,但最明显的是带有人形手臂的咖啡机器人。据说机器人的脸是根据咖啡店老板建模的。如果三到四年前返回的时间,Liao Zai不认为机器人可以煮咖啡,他不会进入AI赛道。他出生于1999年,在初级学院拥有学位,并在深圳的一个基于系统的单位工作。因为他不希望自己的生活是这种方式,所以Lia Zai离开了与建筑设计相关的课程。后来,他从设计师进入AI行业,并最终成为主要制造商的外包数据标记。职业生涯发生了变化,狮子Zai的inco我也有所增加,他的每月薪水从3K增加到今天的13k。在差距期间的苏打也试图进入这个行业。从985年的硕士学位毕业后,他的工作良好,但是由于去年与老板发生冲突而辞职后,他进入了一个漫长的职业窗口。苏打还考虑了过去六个月来改变轨道的问题。当前的热人工智能行业对他很兴奋,数据标记曾经考虑过职业变革的方向之一。但是经过兼职工作,苏打水给出了这个想法。 “这是一种纯净的大脑 - 燃烧的大脑,没有向上运动的空间。”他说“固定一个”。“模型。 到目前为止,随着Big Model的开发从“共享基础参数”转变为“联系方案”,对这类工作的需求也会改变。标签位置不再是“批次大对“就像过去一样,但已被更垂直的需求和更强大的专业阈值所取代。刘Zai(Lia Zai)成功改变了,而苏打(Soda)撤退了,在此AI波中有两个典型的脚注。 “螺钉螺钉”的三个姿势:数据标记的隐藏分层 如果您想进入AI行业,数据标签可能是最锁定的位置 - 您可以在Internet上找到一部分工作。 “ Finfocal One”经历了Pathe视频的兼职项目,回顾了一个众包平台,其任务是标记自动售货机的数据。在正式获得工作之前,求职者必须首先进入小组进行培训周期 - 标记500个视频,并且在通过评估之前,准确性的速度超过90%。接收订单后,正式将收费以基于零件的产品的形式收取。每订单的费用从0.04元到0.1元,如果标记错误,价格将被扣除。 每一块都是关于t的EN秒长,有必要区分自动售货机提取的客户的类型和数量。任务似乎很简单,但并不容易。多种饮料和零食的包装非常接近,与此同时,夜晚的光线破坏很容易犯错。通过“固定焦点一个”尝试标记20个视频,这些视频需要25分钟,只有14个完全正确。 负责团队培训的老师反复鼓励一切:起初具有高错误率是正常的,但最终将更多,准确性更高。练习后,他们每天最多可以弥补3,000个视频。 但是从事兼职工作的人在社交媒体上抱怨:我真的做得太久了,我的眼睛无法忍受。在标有11个小组的近200人组中,人们继续撤退并加入,例如没有停止的虚拟装配线。 苏打属于类似的微信组。 此后不久,他看到了由大型国内制造商发布的数据,标记了新兵平台上的兼职工作。基本或经验没有限制。唯一的门槛是教育 - 应该是硕士学位或超过985/211。 这项兼职工作是为大型模型思维过程和输出结果评分。如果输出结果正确,如果他们照顾用户的感受和感受,以及思维过程是合乎逻辑有效的,等等。一切都需要考虑。 苏打菜通过了放映后,还将其拉到一个微信组。同样,在正式订单之前需要培训和测试。 汽水收到了一个价值十二页的文件,详细介绍了不同的评分和判断测量。根据这个评分系统,他或她将需要在达到标准后收到订单之前进行两到三个测试标准试验。测试通过后,应在正式标签过程中确保精度。如果准确率低于平均水平,它将失去适应性,需要进行排练。 根据苏打水的观察,他的小组测试的通过率不高。 “这项工作的困难是记忆和理解的成本特别高。在标记之前,您必须首先理解并记住他们的评估系统和标记标准。”使苏打更加不舒服的是,这些标准不是固定的。有时,当面对类似的问题和答案时,他以相同的思维方式得分,但结果完全相反。 这就像编写没有通常答案的测试论文一样。您无法通过自谋职业或学习提高准确性。您可以拖延大脑和身体力量的旋转和耗尽,而获得的奖励很少。 Soda告诉“ Dingjiao One”,这项兼职工作也将被指控以基于作品的指控,而得分的费用仅为3-7元。 幸运的是,比汽水,Liao Zai没有严格KPI和分析标准。 Liao Zai参加了中国另一家主要的互联网制造商的外包项目。他领导了一个由10个标记的团队。在项目中,许多小组审查,识别和识别大公司大型模型的标签政策。 Liao Zai将分配需要每天标记的任务,然后告诉团队成员。具体的政策和判断标准以确保客观性。除了数据注释外,他还需要与KOUPODUCT算法和产品团队进行对话,并根据流动和流动的评论来调整模型的评论和识别。 Liao Zai将以咖啡机器人为例。如果您想用AI煮咖啡,则需要在整个链接中说出来,包括如何种植咖啡树,哪些类别的咖啡豆,什么是分子结构,如何磨碎等等。 三种类型的数据注释几乎可以在此职业后面几乎形成不可见的铺设:自动售货机注释测试“物理strengtH +的注意”,并通过重复和实践提高效率;评估大型模型的思维和输出结果的过程需要强大的理解和记忆,例如回答没有通常答案的测试论文;对大型模型的评估将在注释之外进行过程和沟通工作的范围,并且具有一定程度的自主。 人们经常将数据注释与“螺钉”与AI管道进行比较。从狮子Zai的角度来看,即使他拧紧螺丝,他至少知道使用哪种工具以及如何使用它来变得更好。 令人尴尬的位置:重要但廉价 杰克逊(Jackson)站在工业连锁店之上,可以评估更完整的装配线中数据注释的重要性。 杰克逊(Jackson)毕业于海外一所著名的大学,现在正在上海技术公司接受基本模型培训。他在“固定焦点”中说,模型培训主要由三个零件:预训练,管理精致而增强的研究研究。预培训所需的数据量通常超过十个TB,主要来自公共爬行者数据,模型综合数据,第三方获得数据或企业拥有的数据。这个阶段少于宣传。 数据注释者主要在最后两个阶段进行中介。 管理微调(SFT)的目的是使预先实现的通用语言模型适应特定的活动或对话场景,从而使其产出与人类期望更一致。简而言之,在输入特定数据后将模型“如何回答”指向模型。 人类反馈(RLHF)增强的主要研究是使用人类偏好数据优化模型的输出质量。 以更清晰的方式说,SFT是为学习和模仿AI编写答案。在帮助RLHF的同时,在给予人工智能后,选择了一个与人类偏好相符的答案。 狮子Zai的大部分工作属于前者,难以衡量;苏打水的作品是后者,可以通过作品进行评估。简单的数据收集(例如上述自动售货机标签)将被AI替换。 杰克逊(Jackson)介绍了一些自动化方法可以在维修和强化阶段使用,或者可以使用其他模型生成的数据,但是内容的变化,准确性和专业精神可能并不像手动标记的数据那样不同。就像EK产生的深度内容一样,可以看见。 “最好的效果肯定是所有标记的Manu -Manong,但是(AI(AI)老板比制作Perpektong模型更关注成本。可以接受的是可以与模型合成次优版本是可以接受的。” 根据杰克逊的估计,完整的维修和加强培训需要数十万个数据,并且该模型将被更新和迭代,并且数据需求将呈指​​数累积。根据他的观察目前,只有少数领先的制造商拥有在中国生产Manu -Data注释的财务资源,而大多数其他团队都使用其他人的模型来生成数据。 根据公众信息,AI对AI的投资在2024年达到800亿,而这一数字在2025年翻了一番,达到1600亿。 但是,即使是顶尖球员也应该照顾各个方面。作为受控成本的一部分,主要制造商选择了数据注释以外包和众包的形式执行,这是标准的。 苏打水的兼职工作量约为每天3-4个小时。他计算了每小时的薪水,该工资仅在30-60元之间。 Soda说,您应该仔细考虑所有三四个小时,并且不能挤压任何水分。这样的努力和奖励如果您对这个行业不感兴趣,真的很难留下来。 但是,苏打水所在的微信集团仍在每天进入人们。 “如果您不这样做,有些人愿意这样做,所以价格自然不会更高。” 问题的本质不是数据的注释并不重要,但是这种类型的工作缺乏技术障碍。大型模型的生成和优化是一个非常精致的过程。每个数据都像布娃娃中的针迹或斑马中的头发,很难认识到它的整体意义。在这条装配线中,标记很难通过个人功能积累“独家福利”,并且很容易更换。 没有障碍,很难拥有议价的力量。 从招聘网站的公共信息来看,兼职数据标记的每日薪水主要在120-500元之间,外包职位的每月工资主要在介于9-17k。许多主要工厂的每月薪水在15-25k之间。与技术职位和算法位置相比,付费水平不高。 由自己训练的AI取代:谁可以打破金字塔? 由于缺乏增长,苏打最终投降了她的兼职工作,不打算提交任何数据来标记相关职位。结果,他还咨询了一位参与对AI数据的标签多年的朋友。 在大型模型变得流行之前,这个朋友加入了中国的一个大型团队模特,并最终搬到了另一个大型工厂。许多人嫉妒他,因为风暴袭击了乔阳的行业和高昂的职位,但他建议苏打水很好地提出这一职位。由于工程师在数据标签上的职业生涯的发展有限,因此很难跳入AI行业的真正主要联系。 杰克逊也有类似的看法。 金字塔将分布描述为分布的金字塔当前的AI实用:标记了塔的底部,腰部是应用,然后调整和训练后良好。塔尖顶是模型和预训练的主要设计。 “现在,实际上是指所有内容的背景,很难从塔楼的底部通过层进行层。” 所谓的背景是指学术背景资格。例如,在许多职位上,教育是一个艰难的门槛。杰克逊坚持认为,应用程序水平需要学士学位,微调和培训后阶段的硕士学位,而基本模型通常是医生。 以他的算法帖子为例。寻找工作取决于许多规模:教育,实习,竞争和纸张。 AOF圈在学术背景下特别重要。如果您没有好论文,即使您从我们毕业,您也很难加入大型工厂的AI团队LL-班级学校。 他总结说:“大多数站在金塔之上的人都是来自领先学校的医生,他们仍然需要发表很多论文。” 同时,由标记训练的模型正在与标记悄悄竞争。 AI是否会取代它,并成为标记头上挂着的一把ga刀? 杰克逊指出,在一些成熟的文本模型中,模型的数据取代了80%的Manu通知。其背后的逻辑是,当模型不强的时候,就有很大的注释。如果模型的能力通过更多的注释变得更强,那么Popeai在这项工作或字段中具有注释者。 这发生在海外一些高科技公司。 根据彭博社的说法,苹果公司于2024年1月关闭了与Siri的人工智能业务相关的团队。他们最初负责监视,审查,提供和理解用户与Siri接触时生成的数据数据的需求。由于SI自动标签功能的提高,特斯拉(Tesla)列出了200名美国员工,他们标志着改善辅助系统的视频。 另一方面,大公司战略的变化也会影响职业标签的前景。 在2023年初,主要的大型模型是所有巨型技术争夺投资的战场。 Baidu,Byte,Alibaba和Tencent等MBIG制造商押注具有备受瞩目的自发开发的大型模型,并且数据注释已成为必不可少的主要位置。 但是在2024年,比赛降低了很多。许多主要制造商逐渐调整了重点,并开始从“创建具有较大参数的模型”转变为“制造真正实施的模型”。 这种转变直接影响基本数据标签作业的工作供应和预算维修。因此,可以压缩用于支持模型中主要大型训练的数据注释要求。将来,在企业中需要的不再是成千上万的“可以标准化数据的人”,而是“了解商业和模型的人”。 当然,Thedemand并没有完全丢失。一方面,杰克逊解释说,随着AI技术的发展和大型模型的进一步实施,将会发展大量的应用程序方案。每当出现新场景时,您都需要找到某人标记数据。对数据注释的需求仍然以多种方式存在。另一方面,根据Tsinghua大学发布的“智能数据行业发展观察报告”,2024年有工作需求的企业将为45至2023.7公司上升到1,195。根据IDC数据,人工智能基本数据服务的市场规模在2025年将超过120亿元人民币,2019年至2025年的年平均复合增长率(CAGR)约为47%。 但是,这些增长不仅仅是“水平ps adding”,也就是说新方案带来的数据标签需求的扩展,而不是作为向上的作业渠道本身打开的“标记”。对于大多数培训师而言,他们正在做的事情仍在为组装线工作。 狮子Zai(Lia Zai)是AI的“抢夺”,对他未来的职业充满信心。 在到达北京之前,Liao Zai在上海的一家设计公司担任设计师两年。当时,AI对设计行业的影响开始了,Liao Zai工作的公司必须在AI中进行更改,并决定创建客户服务模型。他自愿参加,这个AI项目为他打开了一个新世界的大门。 后来,他辞去了公司辞职,并更加系统地了解了AI。在今年的春季庆祝活动之后,加入了他现任公司。不管他每天上班多晚,Liao Zai都会学到与AI相关的两个小时的内容。他还开设了一个小的帐户“幻想兔子”,以记录他的AI经历。 “一切t在交换期间,刘扎伊一再引用这句话。 咖啡店的工作人员会偶尔发送一些新产品来测试它们,并且服务精心且合适。醒目的咖啡机器人在下午没有喝一杯咖啡。至少在这个阶段,机器人不仅仅是这家咖啡馆的装饰。尽管未来是不可阻挡的,但人类倡议始终是关键。 *标题的图片和文本中随附的图片来自Pexels。在文章中,Liao Zai,Soda和Jackson都是NG的化名。回到Sohu看看更多

0
首页
电话
短信
联系