当前位置:主页 > 聚焦 >

谷歌的Snorkel DryBell是企业数据管理的未来吗?

时间:2021-01-07 12:48:07

  对于清理企业数据并将其集成以使其更有用的软件工具来说,总是有一个丰富的市场。有了“数据就是新油”的口号,从甲骨文到塔伦德,大大小小的销售商比以往任何时候都有更好的销售渠道。

  

谷歌的Snorkel DryBell是企业数据管理的未来吗?

  但如果什么都不需要清理呢?如果从某种意义上说,数据中最有价值的部分可以转移到机器学习模型中,而不改变数据本身,那该怎么办?

  谷歌人工智能团队周四与布朗大学(Brown University)和斯坦福大学(Stanford University)合作推出的一项新技术暗示了这一概念。

  这段代码的名字“DryBell”有点笨拙,它建立在现有的Snukel软件之上,这是一个开源项目,是在斯坦福大学开发的。浮潜可以自动为数据分配标签,这是一种对数据中的内容的分类,从内容存储库到进入数据中心的实时信号。

  

谷歌的Snorkel DryBell是企业数据管理的未来吗?

  这项工作指出,有许多数据不能在防火墙之外使用,但仍然可以用来训练深度学习。谷歌称,这被称为“不可服务”数据,“就像每月的汇总统计数据”或“昂贵的内部模型”。他们认为,所有这些都应该能够被利用,使机器学习变得更好。

  隐含地提出的问题是,是否有任何数据需要清理。相反,它可以简单地成为建筑机器学习管道的一部分,而不需要修改。所需要的只是将基本的Snokel功能工业化,这样它就可以处理更多样化的数据源,并且规模更大,适合企业设置。

  斯坦福大学计算机科学系博士生亚历克斯·拉特纳(Alex Ratner)和谷歌人工智能(Google AI)的卡珊德拉·夏(Cassandra Xia)的博客文章解释了这项工作。还有一篇题为《德国之声:在工业规模部署薄弱监管的案例研究》的论文,其中斯蒂芬·巴赫是主要作者,发表在ar Xiv预印服务器上。

  浮潜方法很容易理解。在传统的机器学习监督学习版本中,输入机器学习系统的数据必须由主题专家标记。人工制作的标签是机器如何学会对数据进行分类的。这对人类来说很费时。

  而是让一组主题专家编写函数,自动为数据分配标签。一个生成神经网络,然后比较多个函数为同一数据生成的标签,这种投票结果导致概率被分配到哪些标签可能是真的。然后使用这些数据及其概率标签来训练逻辑回归模型,而不是使用手工标记的数据。这种方法被称为“弱监督”,与传统的监督机器学习相反。

  谷歌-斯坦福-布朗团队对浮潜进行调整,以更大规模地处理数据。换句话说,斯诺克尔德雷尔就是斯诺克尔的工业化。

  首先,他们改变了DryBell生成神经网络中使用的优化函数,而不是Snukel使用的优化函数。结果是计算标签的速度是他们所写的斯诺克公司通常提供的速度的两倍。

  虽然浮潜打算在一个计算节点上运行,但团队将DryBell与Map Reduce分布式计算方法集成在一起。这使得DryBell能够以“松散耦合”的方式运行在许多计算机上。

  有了这种工业化,团队能够向深度学习系统提供更弱的标记数据,他们写的结果表明,薄弱的监督击败了传统的监督学习,使用手工制作的标签-直到某一点。

  例如,在“主题分类”这一测试任务中,计算机必须在企业内容中“检测到感兴趣的主题”,它们“对”684000个未标记数据点“的逻辑回归模型进行了弱监督”。

  “我们发现,”他们写道,“需要大约80,000个手工标记的例子来匹配弱监督分类器的预测精度。”

  在这一切中,最关键的是不可服务的数据,凌乱的,嘈杂的东西,但在一个组织内是非常有价值的。当他们做了一项“消融”研究时,他们删除了无法提供的训练数据片段,结果并不理想。

  包含不可服务数据的结果是一种“转移学习”。转移学习是一种常见的机器学习方法,机器是在一堆数据上进行训练的,然后能够将其识别推广到来自不同来源的类似数据。

  正如作者所写,“这种方法可以看作是一种新型的转移学习,我们不是在不同的数据集之间转移模型,而是在不同的特征集之间转移域知识。”

  以这种方式传输的好处是获取困在企业中的数据,并赋予它新的效用。他们写道,这是“监管不力的主要实际优势之一,就像在斯诺克尔·德雷贝尔(Snukel DryBell)实施的监管方式一样。”

  然后,想象一下新的企业数据管理任务:在C中编写一些标记函数,基于领域专家的最佳猜测,并利用这些标记函数的输出来训练神经网络,然后继续前进。不再花费亿元清理或规范数据,也不再购买为此所需的专门工具。

  他们写道:“我们发现,标签功能抽象是用户友好的,也就是说,组织中的开发人员可以编写新的标签功能来获取领域知识。

  此外,将标签加以统计的生成模型成为企业数据质量的一种仲裁者,在这个过程中,他们称之为“关键”。

  “确定每个源的质量或效用,并相应地调整它们的组合,本身就是一项艰巨的工程任务,”他们观察到。

  ”使用斯诺克尔·德莱贝尔,这些薄弱的监督信号可以简单地集成为标签功能,由此产生的估计准确性被发现对识别以前未知的低质量来源(后来被确认为此类来源,或者被固定或移除)具有独立的有用性。

  

谷歌的Snorkel DryBell是企业数据管理的未来吗?

  从目前的工作中唯一缺少的是证据,它可以与深度学习神经网络模型一起工作。弱监督一个简单的Logistic回归模型是一回事..对于这样一个系统来说,训练非常深的卷积或递归网络将是一个有趣的下一个挑战。(请注意,斯坦福大学的拉特纳在一条推文中指出,在这篇文章之后,斯诺克尔本身确实与深层神经网络一起工作。进一步的实证研究将显示,斯诺克尔德雷贝尔推广到深层网络的效果如何。

  你认为斯诺克尔和斯诺克尔·德里贝尔能在企业数据管理中找到一席之地吗?让我知道你在评论部分的想法。

热点推荐
1 霍斯金森抨击特朗普在《美国残疾人法案

Cardano 创始人 Charles Hoskinson 对唐纳德特朗普团队在未与该项目协商的情况下,将 ADA 纳入拟议的...

2 英国金融科技公司 Revolut 与前员工就股票

英国金融科技公司 Revolut 与多名前员工爆发争议,起因是这些员工在行使股票奖励后面临高额...

3 Tom Lee回应与Fundstrat展望矛盾争论,强调不

12月21日消息,针对 Tom Lee 及其基金 Fundstrat 分析师对比特币做出相互矛盾的展望,一位自称是...

4 甲骨文(ORCL)12月策略逆转:与OpenAI合作

周五,甲骨文股价上涨7%,此前密歇根州监管机构批准了该公司与OpenAI合作建设的大型数据中心...

5 GeeFi (GEE) 预售成功后,推出全新赠送活动

GeeFi Tech LLC宣布推出一项大型促销活动,以回馈其社区。此前,该项目成功完成预售,筹集资金...

6 Uniswap 价格在 UNI 治理投票临近之际飙升—

随着关键治理投票临近12月25日截止日期,Uniswap的UNI代币正受到越来越多的关注。该提案包括销...

7 5000万枚USDT钓鱼损失受害方正式立案,限

消息,12 月 20 日,据链上研究员 Specter 披露,昨日因网络钓鱼损失 5000 万枚 USDT 的地址在链上...

8 SOL 网络活动放缓,但累积量却在增长——

受市场普遍恐慌情绪的影响,Solana 网络活动有所降温,但链上数据显示,此次放缓是由市场情...

9 法院裁定55万美元加密货币盗窃案不构成

津巴布韦一家法院驳回了对两名被控从眼科专家所罗门古拉马图努医生处窃取价值超过55万美元...

10 Tether CEO发布招聘信息疑似披露将推出手机

12月20日消息,Tether首席执行官Paolo Ardoino在X平台发文表示,Tether已启动招聘一名主管级的软件...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。