重新考虑机器学习的时间:大数据血管关闭了菜单

什么尺寸的大事开始?小的


机器学习(ml)可能是下一个大型™,但尚未企业技术新闻主流企业采用。尽管 令人闷吸的预测者宣布 50%的组织在2017年与ml作出神奇地改变自己, 更多的大葱观察员 将数字更接近15%。这是慷慨的。

ML(及其亲吻堂兄AI)最终应该重塑企业计算,但现在许多因素都处于途中。他们中最突出的?技能。

教学机

多年来市场炒作大数据,吹捧其改变的能力......一切。然而,到Hadoop,Kafka,Spark和其他奇怪的大数据项目中,我们在调查告诉我们在超越后,我们无处可行。

为什么?事实证明大数据很难。

ML,在许多方面是大数据革命的延伸,甚至更难。正如Gartner分析师的尼克·赫德克尔都指出,而希望为大数据的希望永恒:“只有15%的组织才能生产。”哦,机器学习? “用ml可能会低得多。”

即便如此,公司也一直期待着未来的乐观日子。响应Belatrix软件 民意调查,81%的受访者宣布:“机器学习将在未来五年内对其组织产生一些影响或重大影响。”鉴于对运营效率等事物的影响,肯定这些企业已经旋转了ML项目?不。只有18%的受访公司令人困扰开始,而40%的人正在踢众所周知的轮胎,只需42%即可诚实地承认:我们正在用ml做蹲下。

打破ml神话

这种不作为的一部分归结为ML(和AI)神话与现实之间的大规模差距。作为扩大合作伙伴的David Beyer 把它放了:“太多的企业现在正在投球ai,几乎就像它包括电池一样。”这是危险的,因为它引导公司过度投资(然后面对巨大的幻灭),或者当最轻微的实际研究时揭示毫无疑问揭示ML非常努力,而不是平均Python工程师在业余时间旋转。

ML成功的一个门控因子是数据。为了妥善培训模型,企业需要“一定数量的数据”作为尼尔劳伦斯,亚马逊大学机器学习教授, 把它放了。他说,不仅仅是任何令人沮丧的良好算法,“进步就越多,通过数据的可用性而不是算法的改进”。

不幸的是,很少有企业具有如此大量的数据。那些那样, lement. yandex数据厂首席运营官亚历山大khaytin,被生活在不同地方的数据被推迟。 “随着数据经常在单独的存储和处理系统中窥探,数据的聚合可能是耗时和困难的。”

获取所有在统一锁定步骤中行进的数据以及更多问题等待。例如,喜欢积极的生产实验。根据Khaytin的说法:“当涉及规定的分析时,业务影响的衡量标准只能通过实际应用在真实业务流程中应用机器学习模型来真正评估。

“对于大多数公司来说,通常在他们的数字转型开始时,发射大型机器学习项目的前景,尚未在以前的审判中展示其价值可能是令人生畏的。”

最后,甚至超过这些障碍的公司甚至经常在所有人的最难斗争中失败。就像它之前的大数据一样,ML需要一个实验文化。大多数公司都很乐意谈论数据驱动,但实际上很少有珍贵。多年来,执行唇部服务到大数据之间存在差距,但随后忽略不加强胆压本能的数据(62%的人承认这一数据失明,其他38%可能撒谎)。

毫克人也不是文化,不好的问题。

请问,先生,我想要更多的机器学习专家

如果有更多的人知道如何建模,也许ml不会是这样的野兽,但是,野兽是,野兽,野兽,有一个缺乏专家。当我问Gartner分析师Merv Adrian时,ML Paltry成功率的最大原因,他的回应是 不确定。 “对我来说,这主要是关于技能。缺少技能。”

恢复其中一个毫升大师的努力是多么努力?配音它们准 - “数据科学家”, Ben Lorica和Mike Loukides 涂上一些令人沮丧的照片,了解这些数据驱动的产品人士。

“他们经常在科学中有博士学位,具有大量实践经验,在规模上与数据合作。他们几乎总是强大的程序员,而不仅仅是R或其他统计包的专家。他们了解数据摄取,数据清洁,原型,带来的数据原型为生产,产品设计,建立和管理数据基础设施等等。在实践中,他们结果是Archetypal Silicon'Valley Unicorns':罕见,很难雇用。“

Ovum分析师Tony Baer 坚持希望 那是:“就像在数据科学计划上膨胀的高校一样,历史将重复在这里,”学校驾驶更多机器学习培训。也许,但它可能过于乐观,相信学术培训可以提供所需的专业知识。作为洛里卡和罗克斯的压力,机器学习是一个实际的纪律,并没有在课堂环境中容易捡起。也许是因为这个原因,培训努力经常失败。刚刚询问摩托罗拉解决方案主体数据工程师Steve Varner,他“试图在Spark Mllib上培训50个软件工程师”但被迫得出结论:“它没有那么好。”

但是......有希望。

我不认为这意味着你认为这意味着什么

一方面,大多数是作为“机器学习”的性生活的东西真的不是。作为Basecamp数据科学家Noah Lorang 已推理:“正在进行的数据科学”繁荣的肮脏的小秘密是,大多数人谈到的是数据科学就是实际需要的企业......有一个非常小的业务问题是最好的解决问题机器学习;他们中的大多数只需要良好的数据,并了解它最能使用简单方法获得的意味着什么。“

Beyer同意,承认自己的“肮脏的秘密”。 “只需应用简单的回归分析,可以解决许多[所谓的ml]问题。”

在此主题之后,即使是那些正确计入“机器学习”的应用程序也包括非ML Savvy工程师可以解决的许多组件。根据洛里卡和洛克斯:“在任何应用中,严格”机器学习“的部分相对较小:有人需要维护服务器基础架构,观看数据收集管道,确保有足够的计算资源等等。”

将ML工程师视为将ML胶水粘合到更广泛的应用中。它们可能参与原始架构和应用程序的开发,但它们负责在陈旧时恢复ML模型。它们不是寻求数据的重要性的数据科学家。他们是那些,因为Lorica和Loukides说明,其“目标是建立可以分析数据的机器并产生结果:创建一个有效的神经网络,可以调整以在输入上产生可靠的结果。”

简而言之,ML工程师在组织内部不需要成为成功攻击ML问题的组织内。我们还需要重置对企业内部ML手段的预期:企业想要做的大部分可能会用一系列“if /然后”语句来解决,而不是一些数据吞噬ML算法。

这变得尤其如此 - 更有可能会产生初始ML的成功 - 如果组织将与他们的ML项目开始小,并且随着他们的内部人才改善而扩大规模。 ®

我们将在10月份覆盖机器学习,AI和分析 - 以及伦敦伦敦的道德。完整的细节,包括早鸟票, 就在这儿.


咬住它的手©1998-2021