Google(Assistant的新功能——Duplex双工技术)

在6月份1400多篇与机器学习相关的文章/项目中,Mybridge选出了10篇最热的文章(入选率为0.7%)。主题包括:Google Duplex、网格单元、神经网络、TensorFlow、Keras、第一解决方案、CVPR 2018等。

在5月份超过1400篇与机器学习相关的文章/项目中,Mybridge选出了10篇最热的文章(入选率为0.7%)。

本榜单主题:Google Duplex、网格单元、神经网络、TensorFlow、Keras、一号解决方案、CVPR 2018等。

Top 10文章由Mybridge AI评选,综合考虑文章分享数量、阅读时间等因素。并使用机器学习算法对文章进行排序。我相信这些文章分享的机器学习经验和技巧是有用的。

1.Google Duplex:通过电话完成现实世界任务的AI系统。

5月份最受关注的是Google Assistant的新功能,——Duplex双工技术,Google在I/O大会上做了演示。

使用Duplex双工技术,谷歌的助手可以用与人类声音非常相似的角色来完成现实世界的任务。在演示中,谷歌首席执行官皮查伊告诉观众你将要听到的是谷歌助理居然打电话给真正的美容院给你安排预约。"当然,助手几乎完美地完成了任务。虽然后来这个演示的真实性受到质疑,但是这项技术还是引起了业界的热议。

在这篇文章中,谷歌首席工程师Yaniv Leviathan和工程副总裁Yossi Matias详细介绍了谷歌Duplex使用的技术,包括:

Duplex的核心是递归神经网络(RNN),由TensorFlow Extended(TFX)构建。

使用谷歌的自动语音识别(ASR)技术来处理语音并将其转换为文本。

使用连续文本转语音(TTS)引擎和综合TTS引擎(使用Tacotron和WaveNet)的组合,根据情况控制语调。

https://ai . Google blog . com/2018/05/duplex-ai-system-for-natural-conversation . html

2."变脸深度文章人像

Deep Video Portraits是今年8月由斯坦福大学、慕尼黑工业大学等研究人员提交给SIGGRAPH大会的论文。它描述了一种改进的变脸技术,可以复制一个人的动作、面部表情和口型文章中的s脸。

比如替换普通人奥巴马的脸美国深度文章人像可以学习构成脸部的元素,眉毛,嘴角,背景等。他们的运动形式是通过一个目标人物(这里是奥巴马)的文章。

地址:https://arxiv.org/abs/1805.11714

3.使用网格表示在人工智能体中导航。

虽然AI在围棋等很多任务上超越了人类,但太空导航的能力对于人工智能体来说仍然是一个巨大的挑战。DeepMind发表在《自然》杂志上的一篇论文在AI和神经科学领域引起了极大的震动:AI表现出与网格单元格人脑的一部分。

通过一系列实验,研究人员发现网格细胞对于基于矢量的导航非常重要。例如,当网络中的网格单元被切断时,智能体的导航能力将受损,对目标的距离和方向的判断等关键指标将变得不那么准确。这一发现有助于AI可解释性的研究。

地址:https://deepmind.com/blog/grid-cells

4.如何用Python从零开始构建神经网络

这是一个入门教程。初学者可以从本教程开始,了解深度学习的内部运作。

什么是神经网络?许多介绍性文章会将其与大脑进行比较,但如果我们抛开神经网络和人脑之间的类比,将其描述为给定输入和预期输出之间映射的数学函数,会更好理解。

神经网络包含以下元素:

输入层x

任意数量的隐藏层

输出层

一组权重W和每层之间的偏差B

每个隐层的激活函数。在本教程中,使用Sigmoid来激活函数。

图:2层神经网络的架构

地址:3359 towards data science . com/how-to-build-your-own-neural-network-from-scratch-in-python-68998 a08e 4 f 6

5.对Airbnb上的照片进行分类

Airbnb为数百万民宿提供平台,因此获得了大量民宿的房间详细照片和用户数据。在这个任务中,Airbnb 的数据团队利用计算机视觉和深度学习对民宿的照片进行了分类。

一方面旨在聚集风格相似的房屋,方便用户浏览。另一方面,分类也可以帮助验证房号和房子信息的准确性。该团队表示,通过使用这些图像数据,将会发现更多潜在的信息。

地址:3359 medium . com/Airbnb-工程/编目-列表-照片-at-airbnb-f9483f3ab7e3

6.Loc2Vec:用三重损失网络学习位置嵌入

这是一个以智能手机的传感器数据作为输入的平台,如加速度计、陀螺仪和位置信息,并从中提取行为洞察。它是用来了解用户的并且能够预测和解释事情发生的原因。

这个平台的一个重要组成部分是场馆映射算法。场馆地图的目标是找出你想去的地方。

地址:3358 www . sentiance . com/2018/05/03/loc 2 vec-learning-location-embedding-w-triple-loss-networks/

7.在浏览器中使用TensorFlow.js进行实时人体姿态估计。

这是来自TensorFlow博客的教程。与Google Creative Lab合作,发布了PoseNet的TensorFlow.js版本。PoseNet是一个机器学习模型,可以在浏览器中实时估计人体姿态。

PoseNet可以使用单姿态或多姿态算法检测图像和文章中的人,所有这些都可以在浏览器中实现。

波西内特的姿态估计分两个阶段进行:

RGB图像被输入到卷积神经网络。

模型输出中的姿态、姿态置信度得分、关键点位置和关键点置信度得分通过单姿态或多姿态解码算法进行解码。

PoseNet返回每个检测到的人的置信度值和每个检测到的手势的关键点。

https://medium . com/tensor flow/在浏览器中进行实时人体姿态估计-tensorflow-js-7dd0bc881cd5

8.基于Keras的多标签分类

这是一个关于多标签分类的Keras教程,包括以下四个部分:

讨论多标签分类数据集(以及如何快速构建自己的分类数据集)。

本文简要讨论了SmallerVGGNet,它是Keras神经网络体系结构,将用于实现多标签分类。

实现SmallerVGGNet,使用多标签分类数据集对其进行训练。

最后,对样本图像进行网络测试,并讨论一些注意事项。

https://www . pyimagesearch . com/2018/05/07/multi-label-classification-with-keras

9.谷歌地标搜索挑战:第一种解决方案解读

四个月前,谷歌在Kaggle发布了谷歌地标检索挑战赛。参与者被要求在所有图像数据集中检索包含给定图像中的标志的图像。

本文是第一队的总结的解决方案,包括两个主要部分:

首先创建一个高性能的全局描述符,可以将数据集中的图像表示为奇异向量);

然后,创建一个高效的框架,将这些向量与最有可能的图像进行匹配,最后提交给记分牌。

下面是一个流程图,标出每一步的LB分数。

https://www . ka ggle . com/c/landmark-retrieval-challenge/discussion/57855

10.学会夜视

本文是美国伊利诺伊大学香槟分校(UIUC)与英特尔实验室的合作论文,提出了一种基于全卷积网络端到端训练的微光图像处理模型。这种网络直接对原始传感器数据进行处理,基本不使用传统的图像处理流程。

两个新的大型数据集

伯克利大学发布大型驾驶文章数据集BDD100K

伯克利大学发布了BDD100K,这是迄今为止最大、最多样化的驾驶文章数据集。这些数据主要有四个特点:大规模、多样化、在真实街道采集、带有时间信息。利用这个数据集,你还可以参加2018年在CVPR举行的自动驾驶比赛。

地址:http://bair.berkeley.edu/blog/2018/05/30/bdd/

x射线数据集

由安德鲁领导的斯坦福大学ML团队发布了迄今为止最大的医学图像数据集Mura(Musculo skeletal radio graphs)。该数据集包含来自12,173名患者的14,863项研究的40,000多幅多角度放射影像。x射线图像包含人体上肢的七个部分:肘部、手指、前臂、手、肱骨、肩膀和手腕。最近,该团队基于这个数据集发起了一项识别挑战:MURA骨骼X射线深度学习竞赛。