冷门项目：数据标识项目——人工智能背后人工

当前位置鱼摆摆网 > 资讯 >

冷门项目：数据标识项目——人工智能背后人工

作者：肖钦 2019-12-14 08:15

来源：冷门哥

今天聊一聊我最近要上的一个项目——大数据标识。

我这边场地已经在装修中，等场地装修好之后，会雇一些员工，培训之后就正式开始，时间预计是一个月左右。

我前面提到过的，这个项目任何人可以在家通过电脑来兼职做。

为了打消大家的顾虑，以为又是什么兼职刷单、打字员骗局，所以我先交代一下项目原理，下面涉及的内容，我进行的简易化描述（我本身也是这个行业的门外汉），目的是让大家明白其中的道理，相关的专业术语和名词用的如果不准确，相关的专业人士请见谅。

人工智能的概念很早就提出，标准概念大家自行百度，简单来说，就是通过程序和设备的集合来替代各种各样的人（脑）工活动。

早些年的人工智能，可以理解为“算法驱动”。

某款人工智能是否强大，全仰仗这款程序的算法工程师有多强大。

例如人脸识别：

某款人脸识别程序是否能准确的识别人脸，核心在于它的识别算法,工程师会编写一段复杂的代码，代码里面包含了对人脸的描述：什么是眼睛、什么是嘴巴、肤色、耳朵位置等等，这个算法描述的越全面、越准确它的识别度就越高。

再例如象棋。

算法工程师先预设一下象棋的规则和对局步骤，系统根据设定好的程序来进行对应操作。算法工程师的象棋水平越高，自然机器的水平就越高。

在人脸识别中，算法工程师的识别算法，必须要考虑各种性别、肤色、国际、地域、年龄条件，才有可能精准的识别出每一个人，单看描述就知道这有多么的难。

而象棋程序中，假设算法工程师自己的象棋水平一般，自然这款程序的象棋水平也就一般，同常情况下都要借助象棋大师的帮助才有可能写出一款较强的程序。

人工智能这种早期的算法驱动模式，决定了人工智能不会有超越人的表现，因为它所有的行动标准和思维逻辑都是由人给予的。总结起来，人能控制并且明白其中的算法，自然这种人工智能不能超越人类，也就造成了人工智能在那些年的发展缓慢。

但是这种情况在近几年有了根本性改变，某位大神科学家，发明出了一种基于模拟人脑的“深度学习”算法，最可怕的是这种算法目前还是“开源”的。

导致现阶段的人工智能，变为了“数据驱动”

这个算法怎么理解呢？

依旧是人类识别：不再需要找专业的算法工程师来进行复杂的程序定义，你只需要放足够多的人脸照片给机器，让机器自己通过“阅读”大量的人脸，来自己总结识别人脸的方法。先上100万张各式各样的人脸图片给机器，机器自己去理解什么是鼻子、眼睛、嘴巴，从而自己进行识别，假设识别度还不够高，再上500万张图片，让机器继续学习。

理论上，只要给予机器足够的学习资料（即各种人脸数据），最终机器的识别率能达到100%。

在象棋领域，无所谓程序员象棋技艺的好坏，你只要给机器进行足够多的“对局练习”，机器会自己学习和领悟，哪一步棋怎么走，是否更好的走法，理论上，只要机器进行了足够多的“对局练习”，机器的象棋技艺可以无限提高。16年的围棋人机大战中，阿尔法狗就是一款基于“深度学习”的象棋机器人，在足够多的练习下，这歀机器已经可以和人类最顶级棋手对决，在第四局输掉一场之后，它连夜又进行了几十万局的训练，至此之后，不管是李世石还是柯洁，阿尔法狗一局未落。

至此，可以说人工智能开启了新篇章，所以那个时候的人机大战才那么引人关注。

给予机器足够的医学文献，就能诞生医疗机器人。

给予机器足够的路况资料，就能诞生无人驾驶机器人。

给予机器足够的气象资料，就能诞生天气预报机器人。

而人在其中，根本理解和控制不了机器自己通过学习总结得出的那套算法，以前很多只能存在于科幻电影的人工智能场景，现在接着“深度学习”算法，已经变得越来越现实，就此，也就衍生出了一个新的行业，也是我今天给大家介绍的这个项目：数据标注。

前面已经解释了，即将爆发的基于数据驱动的人工算法，本质就是用大数据来喂养机器。

但是目前现有的这些数据，还都是“原材料”，需要有人工做初级的“加工”，才能成为真正可用的机器训练的“食物”。

还是以人脸识别举例，虽然目前已经有大量的人脸图片，但是，这些图片还不能直接用于机器训练，因为每一张图片中，除了人脸，还包含了其他的背景和元素，这些数据都是无用的，录入的时候反而会干扰机器的学习，所以需要人工来进行可用数据的提取工作，即数据标注/数据提取。

我直接用图片要说明：

假设某人工智能，要学习人脸识别，我们会拿到原始图片，即一张张人脸的图片，我们要用鼠标，勾出其中真正能用于机器识别的区域，勾出眼、鼻、嘴等。