热门文章
在人工智能中使用数据时要记住的5件事
发布时间:2018-10-30 分类:交通百科
在新兴的数据驱动和人工智能驱动的经济中,数据是公司最重要的战略资产之一。需要数据来衡量业务策略的效率,并从其操作中得出见解,同时还需要培训机器学习算法。获取数据对公司来说不是问题,问题是他们能不能得到正确的数据,并且能够为他们提供一个非常想要的竞争优势。
许多公司没有意识到,他们正坐拥一堆糟糕或肮脏的数据,这些数据包含大量缺少的字段、格式错误、大量重复或不相关的信息。根据研究估计,美国经济的不良数据每年造成的损失高达3.6万亿美元,尽管如此,许多经理人仍确信,他们坐拥数据的金矿,而实际上他们没有任何有价值的东西。
公司拥有的数据可能不一定是糟糕的,只是解决问题的方法可能不完整而已。最初的系统通常是用来收集人类驱动的解决方案所需的数据,将其转移到AI人工智能驱动的解决方案可能需要填补空白。虽然人类可以快速评估这些数据并解决问题,但自动化系统需要自动处理数据的方式。
1、专注于产品
寻找好的数据应该从产品本身开始,为了获得好的数据,公司应该设计产品,为用户提供正确的激励来贡献他们的数据。良好的可用性和用户体验将鼓励用户贡献有价值的信息。
您可以始终争取用户在循环模式,在这种模式中,用户必须放弃他们的数据,以使用您的产品的功能。这正是谷歌和Facebook获取大量数据以换取服务的方式。用户甚至没有意识到,他们是完全免费地放弃他们的数据,为先进的机器学习算法提供动力,并不断改进软件。
构建伟大产品的最佳方法是在收集急需的数据的同时提供迭代式的改进,你可以从亚马逊Alexa的进化过程中看到这一点。它背后的团队意识到了一般语音识别和识别一组简单的预定义命令的能力之间的区别。当许多其他公司在采用通用语音识别和维护会话的能力方面苦苦挣扎时,Alexa团队将重点放在了一组简单的命令和简单的脚本对话上。
Alexa团队通过以低廉的价格提供一个非常简单的解决方案,并征服了市场,从而做到了这一点。专注于具体的、简单的用例,并加以完善,才能赢得最终的胜利。
2、以正确的数据类型为目标
我们以一家公司为例,该公司想要制造一种能自动将图书馆书籍放到书架上的机器人。它有大量关于实际书内容的数据,它知道作者的名字和书出版的年份。但是,在现实中,这些数据不足以自动安排账簿。
机器人只能利用现有的数据找到合适的书架来放书。但是,它不知道这本书的尺寸,所以机器人很难判断这本书是否能放进书架上。
公司从来没有想过收集这些信息,因为图书馆工作人员可以很容易地找出这本书是否适合空间。现在这家公司需要一个全新的数据集,这是它没有的。这意味着该公司必须为机器人配备某种评估书籍测量值的方法。虽然这并非不可能,但项目预算和时间表将发生变化。
这就是为什么你应该经常问自己,你是否有正确的数据类型,这有助于解决问题。
3、了解其局限性
通常情况下,公司认为所有的机器学习工程师都有一根神奇的魔杖,可以解决所有与数据相关的挑战,这与事实相去甚远。自动评估物理对象的大小和重量的能力将需要一套非常不同的技能和能力,那些能够训练机器人找到合适的书架的人或系统,与那些能够建立起衡量和衡量书籍的能力的人或系统是不同的。
这种资源规划应该在项目开始时就开始,而不是在机器人被毁在不适合书架的书堆下时开始。
4、利用现有的专门知识
人工智能系统只有在工程师的努力下才能做得更好,智能解决方案的开发需要专家输入来理解和帮助解释现有数据,并找出它们用来解决问题的原则。即使是DeepMind的AlphaGo零的最新突破也不是一个绝对的展示,围棋游戏的规则是明确的,不能被对手打破。尽管这台机器没有经过人类专家的训练,但游戏规则被编程到了代码中,所以它可以通过自己的游戏来提高技能。开发这个软件的工程师在编写程序之前就成为了游戏规则方面的专家。
在AlphaGo Zero这个案例中,我们没有专门的专家,因为游戏环境非常明确,一个人可以在一个晚上就学会完整的规则。在现实生活中,工程师几乎不可能花一晚上时间成为供应链、隐私法或涡轮机工程方面的专家。通常,人工智能项目要么需要一组定义良好的不可破规则,要么需要一个有标签的数据集。通常情况下,每一个拼图都有一点点,要想弄清楚如何组合这个拼图的各个部分,仍然需要专家的投入。
5、管理数据并关闭循环
总有一天,当应用程序越来越流行时,它可能会开始生成大量数据。为了避免陷入数据混乱,您应该从一开始就引入高效的数据仓库策略。无论您的公司选择哪种数据平台,您都应该在数据获取过程的每个阶段建立高效的数据收集、清理和数据冲突流程。一旦你有了一个好的产品,一个源源不断的数据流入和一个有效的数据管理基础设施,就会更容易创建一个自我实现的好数据预言。
利用您的产品用户提供的数据可以改进人工智能平台和应用程序特性,并鼓励客户贡献更好的数据。这将创建一个自我支持的数据生成系统,这将使您的公司成为一个真正的数据驱动企业。