奇幻城国际官网

官方微信:   
当你们狂热追捧人工智能时,想过背后的高职生
时间:2017-12-22 09:39  编辑:admin
 

  当你疯狂地追求人工智能时,想想背后的高职生吧

  [编者按]人工智能正在逐渐隐藏起来,揭示其核心,至于人工智能技术的确切影响和工作,人类的观察和理解变得越来越具有挑战性,但当我们看到这些时,对大多数人来说,人工智能是指“科幻小说”这个名词,代表着与小说电影中的人类相似或温和或冷酷的机器人,稍微有些熟悉,印象就变成了一个冰冷的GPU阵列,一个复杂的多层神经网络,还有一大堆名词,除了那些可以接触到他们的工程师,他们是科学家,也许这个印象需要再次刷新 - 人工智能,真的需要很多一个秦娇今年刚刚从电话中心转到了一个“数据处理”公司,今年刚过30岁,虽然业内人士之间没有什么区别这两个工作。她按照甲方的要求和自己的工作步调,把人力安排在一个又一个的项目上。公司成立不到一年的时间,目前大部分业务都是标注数据,也就是根据项目方的要求,人为的为图片,视频和语音内容加标签,标记。 AI公司将采用标注的数据来训练算法模型,然后应用于图像识别和语音识别等不同领域。一般来说,数据的注释越准确,数字越多,模型越好。自然,产品的效果会更好。一旦你问质量,你没有太多的人均产出。平均有40个熟练的工匠可以假设只有图片中的物体需要被标记,标记和上下文,才能标记40张图片。如果要描绘建筑物边缘等复杂的细节,每天打10张纸就已经是极限了。图片是一种简单的注释方法,但要处理的数据通常是“10,000”。最新的需求是6万张图片,在7天内完成。从理论上讲,这个命令要求214人共同工作七天,秦娇手下只有不到一百人,其中一些人还要完成其他项目。秦娇好几次在电话的另一端放了一个急躁的表情,“你告诉他,要我死好。与ImageNet相比,拥有1500万注释图像的数据集只有60,000幅图像显得非常小。但是大多数人可能很难想象,来自167个国家的48940名工作人员花了两年时间清理,整理和标记在互联网上收集的近十亿个图像,以获得这一千五百万个图像数据集。他们花费的时间和人力远远超出了一般的项目。利用庞大的数据和开源数据,ImageNet很快成为研究图像识别的首选。无论是Andrew Ng还是Jeff Dean,这个领域的研究人员都使用过ImageNet,但是ImageNet有自己的弱点,注释框太大,注释和错误很少,所以很难用来训练算法模型的实际应用,AI公司必须找到方法来积累更加详细,准确的数据以适应他们的应用,在初创招聘工程师的需求中,有时候“收集注释数据的能力”有时候写在里面,高质量的注释数据在一定程度上决定了AI公司的竞争力,虽然互联网确实创造了大量的内容,但是标注这种需要耐心和专注的“小东西” ,人们的帮助。其次,在专业数据标签公司出现之前,众包平台往往是大多数公司的选择。人们认为更灵活的众包方法可以适应不稳定的数据需求,降低拥有成本。众所周知的数据众包平台据说拥有5000多名数据标记专家,他们可以在一天内处理超过200万条数据,并“提供稳定的数据标记服务”。数据注释是所有数据众包平台的核心业务,除了数据清理,数据收集等外,还可以从单天数据比例(400数据/人)推测其标签的质量可能不是说得那么可靠。由于涉众众多,职业背景和工作能力参差不齐。 “收集的标签内容嘈杂甚至错误,不能直接作为正确的标签是不争的事实”。如何解决众包平台的质量缺陷已成为近年来的一个话题。也可以通过数据交换平台购买贴标签的软件包。但是这个问题似乎又回来了,为什么人工智能公司想要标记他们自己的数据:不同的应用方向需要不同的数据内容,甚至标记方法也不同。秦娇目前所瞄准的公司就是市场 - 一家人工智能公司所需要的数据是同时针对需求和标注质量量身定做的。大多数人工智能公司和众包平台无法同时满足这三个要求,导致专业数据标签公司的诞生。这个“数据处理”公司的第一层和第二层都是负责注释数据的员工。为了满足不同的订单要求,员工分为不同的小组:一些小组负责描述图片中的身体关节,将复杂的瑜伽姿势抽象成点和线,并且可以用来训练识别人体的模型;一些团体为了交通车辆,摩托车,自行车和行人的边界交通图片,标明旅行的方向和是否有障碍物,这些图片被用来培养智能安全摄像头的识别能力;有些群组需要没有不同的建筑物的写照把一排一排的静止图像的边缘逐一分割,标记成不同的色块,这种类型的数据用于自动驾驶车辆的环境感知;有的是扫描雷达障碍物的三维线条逐一回归到真实的物体,长方体是建筑物,绿树,这些内容将被用来训练雷达数据和现实世界的相关性,有时并不容易标签工作。例如,除了图片外,还有一个负责视频标签的工作人员。他们需要从每个视频中提取10帧,在近两帧中注释对象的方向和坐标变化。这些数据可以用来训练机器对物体连贯性的感知,也可以用来训练机器来预测物体位置的变化,像大多数制造业一样,这里的每一个小组都有自己的经理。项目经理,然后是像秦娇这样的少数几个高层管理人员之一,员工的“生产”内容将由质量管理人员验证,待所有产品合格后交付给项目业主。严格的流程和管理体系,确保贴标效率和质量的稳定。 “很多人认为大数据是呼叫中心,我们开发的大数据是不同的,只有在贵州做数据整理。秦娇对公司目前的业务非常自豪,这些结构化的数据将成为公司在这一波人工智能领域的基石,不仅帮助他们提高模型的准确性,提高产品的可靠性,甚至影响其发展轨迹和融资过程,“数据处理”公司距“大数据之城”贵阳50多公里,是一个只接受科技企业的“数字城镇”,完成率定居点刚刚达到了一个较低的水平,由于地理位置偏远,地理位置不便,公园非常安静,小城镇就是这样一座彩色尖顶小楼,绿色浓郁,幽静而有趣,虽然位于山上,镇上隔壁有一所大型职业学校,学校的学生构成了现在的主要公司员工来源。学生除了上课以外,每天工作6个小时左右,“易管理,尽职”是秦教对这些学生的评价。新建高职院校的目的是教育穷人,大部分学生来自贫困山区。学校将提供许多补贴和奖学金。数据处理公司的兼职锻炼所赚的钱不仅足以维持生计,还有一些学生也拿出一部分资助家庭使用。偶尔,这个工作可以成为职业跳板。 “我们的学生坚定而勤奋,有的去北京实习,因为他们熟悉标签工作,比那些返回北京做相同实习的人更严重。学校走廊的墙上也有很多类似的学生案例。描述学生“学前状态”的字眼不可避免地含有“贫困”,“双重死亡”,“残疾”等字眼,其中一张照片显示了坐在寨楼木地板上的父亲,母亲和学生。在昏暗的空间后面没有装饰品;另一张照片上的学生抱着生病的兄弟;还有一张无表情的照片。学生坐在床的同一个地方,背景是有黑白报纸的墙后来他们都努力改变自己和家人的命运,这个工作的机会和奖励可以带给学生,数据处理公司的首席运营官李铮也是如此,但与秦娇相比,数据标记行业充满了信心,他似乎有点担心,他毕业于北京航空航天大学,清楚地意识到现阶段的数据标注仍然是一个劳动密集型行业,与Sout没有什么不同h工厂。学生只是价值链底部流水线加工的一部分。只有前进到寻找更深入的商业模式,才能脱离已经火热的数据处理行业。摸索了近一年,李征在内的数据收集在内的一些业务扩张。所谓收藏资料,是指自拍符合项目方要求的人像照片,如正面,45度,60度以及佩戴各种装饰照片等。这些图像可以用来训练计算机识别不同状态下同一人脸的准确性和相关性,也是目前大多数面向计算机视觉公司的需求。有时,面部表情也要求数据处理公司在数据收集要求期间在他们自己的工作室完成了几个订单。主角当然还是学生,他们排队进入工作室,按照拍摄后的要求摆出几张照片,然后戴着口罩,太阳镜,帽子继续拍摄。一套照片往往包含10件,每天可以拍摄100多套。这套标准程序和足够的样本量(在学校至少有一千名学生)确实与收集或拍摄自己的安全公司相当有竞争力。另外,他们也可以用小语言进行语料库收集。位于西南,靠近东南亚,当地的人际关系和频繁的业务联系可以提供很多便利。 “处理绝对不是这样的。”李铮很坚定“最近我们正在培训一些技术人员,我们知道通过与项目合作伙伴进行更好的沟通,更好地描述需求,我们可以更好地理解技术的需求。”这四个“标注真的很难。”提到“数据标记“中国科学院首席科学家尹相智忍不住笑了起来。几个月前,中国研究院的数据刚刚举行了一场大数据应用大赛,包括在复杂图像中识别动物,通过行车记录仪图像恢复现场和其他环节的驾驶操作。在这个通过货架图片自动计算产品货架库存的测试中,他们以1600多张真实货架图片为原始数据。竞争的目的是实现图像识别,这往往需要大量的样本,少于两千个“小数据样本”。为了使比赛的难度不那么“不正常”,他们还向参赛者提供了“罚标”后的架子图片。所谓的优良标志是小吃,方便面,方便面要仔细划分边缘。图片的左侧是从真实货架的照片中舀出的同类产品的片段;右边是架子上不同产品的标签,每种灰色对应一种商品。 “最大深度学习的问题仍然是样本的数量,如何通过一个小样本学习”。通过这个挑战的技巧之一是保持基于边际作物提供的1000多幅图像的原始图像,通过数据增强技术达到数十万,然后根据这些增强的图像建模可以减少错误。精细的标记不仅有助于解决稀疏样本的问题,而且激发传统上需要数十万图片的模型来训练模型。不过,优良的打标并不容易,超过一千张图片的标注花费了12个半月,标志着团队成员的工作“几乎崩溃”。如果有人能够承受这个“崩溃”工作的复杂标签,并且能够很好地满足复杂的标签要求,人造数据标签能否成为一个长期的发展? “不久的将来需求量还是很大的,”尹相智想了一会儿。 “但是在这个行业里,可能只有五年,每个人都在想着各种各样的方式,比如开源,比如小样本学习。除了小样本学习之外,人们正在思考数据是否可以合成。图像识别领域的研究人员正在尝试使用图形来生成真实的,非常相似的图像,以便真正的训练图像。从理论上讲,这种方法可以直接用注解产生大量的数据,但不能是“真实的”,而是需要图形化的进展。 ImageNet的创始人李菲菲也意识到精细标记的力量,正在开展一个名为“Visual Genome”的项目.Visual Genome拥有更多,更窄的盒子,更详细的术语以及位置和行动关系。在Visual Genome中有108,000个图像,对于注释这个微不足道的麻烦的数据,每个从业人员都有自己的看法,有人是秘密的,把主题转换成互联网是最大的数据集;但是事实上大家都知道,收集的数据是不能用的直接有些人是坦诚的,需要大量的数据,学生的工作是兼职或是由其员工诠释的,不满的质量促使一些公司简单地设立了数据标注部门;同时透露如果合适的关键词,淘宝可以找到但是,大家都乐观地认为,五年内不再需要人力,无监督学习,小样本或自动数据生成我会做更多。这些人能不能把自己贴上精心标注,精美的标注图片,在电脑五年后,真的不再需要它们了?在“负责标记数据的大公司”中有五位知名人士?共有21个回复。大公司的受访者表示,他们“为全体员工发起了数万人的人际关系”,或“在劳动力成本相对较低的分支机构安排工作”。小公司“把数据传送给所有部门隔壁的妇女”,或者“自己省钱”。除了外包公司是最常见的选择。招聘网站上的招聘要求也可以通过一个或两个瞥见。在智联招聘中输入“数据维度”,找到60个直接相关的职位。可以找到近400个纳闽网络 - 管理外包团队等相关职位也包括在内。兼职作为豆瓣集团和百度贴吧的主题,也从画面写软文,写小说,写评论,开始兼职招聘数据标签。看来在目前的热点人工智能行业,涌现出大量的初创企业,数据标注是一件好事。 2009年,张彤禾曾在“工作女郎”中形容一群流离失所者,独自一人来到东莞的苦女。在18或19岁时,他们在学校里昼夜工作。流水线上的女人不知道她们在做什么,也不知道自己的工作“秋西”是“质量检测”。无论工作还是生活环境都相当糟糕,连夜间的小吃街改善生活,往往缺乏精神上的娱乐。但是,与农民工的刻板印象不同的是,他们既不是短视也不是压抑。他们不在乎15人共用一个房间,50人共用一个厕所。他们的想法是,为房子省下多少钱,如何升职,或只是跳到一个更有前途的岗位上多久?留下什么周末来学习电脑,英语或其他什么?与生产的产品分离,丧失了幸福的“资本主义的悲哀”就失去了,“分离”并不一定改变自己的社会地位,而是改变自己的思想,做出不能代表制造业本身的东西,这些钱花在哪里,学到什么技能,以及如何改变。“我们手上的iPod,脚上的耐克和肩膀上的教练几乎改变了数百万人的工作,婚姻,生活和思想“数据标签也许也是如此,这些带给从业人员的变化已经足以鼓舞人心地探索这个行业的存在及其长期发展的理由,但我们仍然不能忘记这些人的奉献精神。虽然不清楚,但从来没有提到过。 [编者按/刘凯]注:本文转载自机器之心,若侵权,请联系我们IT时代网(关注微信公众号ITtime2000,定期推送,互动带福利惊喜)全部原创文章版权所有,未经许可,转载请注明来源:创世纪100创业投资基金成立于2015年,领导硅谷,专注于TMT早期项目投资,LP来自政府,互联网IT,知名媒体公司和个人。信息技术,通信,互联网,知识产权等方面的100个风险投资基金拥有自己独特的视角和丰富的资源,决策速度快,投资快,是百强基金制造商最显着的特色。是的,人们只是设定一个目标,谁说就一定要做啊。支持董小姐来自:董明珠:卖5000万块格力手机是目标,不是必需的r to achieve - Sharp IT IT IT IT IT IT IT IT IT IT Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro Ro 。 。来自:iQIYI将于2018年上半年召开IPO百度继续持股之后 - 锐利 - IT网络青春村翠花翠每天的信息已经暴露在这个智能时代,没有真正的隐私来自:有没有最安全的产品WIFI WPA2协议漏洞 - 清晰度 - IT时代有没有必要争取年轻的村翠翠什么全屏的战斗,一个手机是她最重要的配置,不要把马车从前:为了全屏和配置成千上万的机器真的需要抢购这个行程时髦吗?锐利 - IT网络