亿欧智库 人工智能产业综述报告出炉
|
人工智能在近年来的崛起,得益于爆炸式增长的数据库和越来越强的计算力的助推,将多层神经网络给推到了镁光灯之下。而关于深度学习,还有一个有趣的现象:互联网为数据的流动和汇合提供了载体,但深度学习在互联网的应用(广告、推荐等)上取得的提高,没有语音图像这些领域那样显著。 原因在于语音图像的数据,我们完全可以通过主动的语料收集,让每个iPhone、甚至每个摄像头都尽可能充分覆盖到,但对于互联网上的社会行为的收集,诸如“点击与否”、“阅读与否”、“参与互动否”,对于每一个个体的每一个当下环境来说,都是很不确定的数据。总的来说,深度学习需要能标注、有大量标注数据来作为模型进化的需要。 拥有1500万张标注图片的数据集ImageNet是来自167个国家的48940名工作者,花费了2年时间——清理、分类、标记了近10亿张通过互联网搜集到的图片,才得到这个数据集。但ImageNet还只是一个通用性质的数据集,初创公司要在特定领域建立自己的壁垒,比如说医疗,就需要对该领域进行数据采集,而后进行数据标注,越细化越好。 在知乎「大公司里面有人专门负责标注数据吗?」问题下,共有 21 个回答。来自大公司的回答者们表示曾「发动全部门人对几万张图进行人肉打标」,或是将工作「安排在人力成本比较低的分公司」。小公司们则将数据「交给隔壁全是女性的部门标」,或是「省钱就自己人标了」。除此之外,交给外包公司是频率最高的选项。 从招聘网站发布的职位需求也可略窥一二。在智联招聘中键入「数据标注」,可以找到 60 个直接相关职位。在拉勾网则能找到近 400 个——管理外包团队等相关职位也被算入其中。 某种程度上,判断一家企业是不是核心在做人工智能,可以查看它每个月花费在数据标注上的金额。 深度学习并不是人工智能的全部创新,它依赖标注数据和计算力。在上下波动的舆论大背景之下,随着时间的推移人工智能技术呈正相关发展趋势,希望这份报告能在下一个舆论冬季到来之前,协助您审视整个当下的局面,希望能为人工智能的发展尽一份力。 (编辑:无忧刷机网 - 51刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
