现在知道还不算晚,输入示例自动生成代码,谷歌开源这项神器要火

新闻 前端
操作张量并非易事,因为它需要很多先决条件,例如跟踪多个维度,Dtype兼容性,数学正确性和张量形状等。

 操作张量并非易事,因为它需要很多先决条件,例如跟踪多个维度,Dtype兼容性,数学正确性和张量形状等。当然最大的挑战还是从数百种可用选项中确定正确的TensorFlow操作。

[[344525]]

假如不需要你进行对张量操纵进行编码,你只需要通过一个说明性的例子来演示,有个工具就能生成相应的代码,你会选择这个工具么?如果会的话,谷歌的TensorFlow Coder(TF-Coder)可以帮你实现这一点。

TF-Coder是一个程序合成工具,可以帮助你编写TensorFlow代码,首先,这个工具需要输入所需张量变换的输入-输出示例。然后,它会运行一个组合搜索来查找执行转换的TensorFlow表达式。TF-Coder的输出是真实的TensorFlow代码,你可以直接将它用在你的项目中。

接着,我们再来详细介绍一下TF-Coder是如何帮助你编写TensorFlow代码。

在TensorFlow中的编程示例

假如你想将包含 M 个元素的向量(下例中指‘rows’)和包含 N 个元素的向量“想加”,生成一个包含所有成对和的 M x N 矩阵。你可以提供一个输入输出示例(如M=3和N=4),而不需要深入研究TensorFlow文档来找出如何做到这一点。

输入张量:

  1. inputs = { 
  2.  
  3. 'rows': [102030], 
  4.  
  5. 'cols': [1234], 
  6.  

所提供的输入张量对应的期望输出张量:

  1. output = [[11121314], 
  2.  
  3. [21222324], 
  4.  
  5. [31323334]] 

给定这些信息(默认情况下已经输入到TF-Coder Colab中),TF-Coder工具会在零点几秒内自动找到合适的TensorFlow代码:

  1. tf.add(cols, tf.expand_dims(rows, 1)) 

上面的问题非常简单,只是通过示例来说明编程的思想。TF-Coder对于更难的问题也很有用。

TF-Coder帮助你找到要使用的正确函数

假设我们正在处理一个数学问题,比如商品的价格,数据集中范围很广,从$10以下到$1000以上。如果这些价格被直接用作特征,那么你的模型可能会对训练数据中的特定价格过度拟合。

假如要处理这些问题,你可能需要使用bucketing将数字价格转换成类别特征。使用bucket边界 [10, 50, 100, 1000] 意味着低于10美元的价格应归入bucket 0,10美元至50美元的价格应归入bucket 1,依此类推。

选择bucket边界之后,如何使用TensorFlow将实际价格映射到bucket索引?诸如给定以下bucket边界和物品价格:

  1. # Input tensors 
  2.  
  3. boundaries = [10501001000
  4.  
  5. prices = [15350901001001

计算每个项的bucket编号:

  1. # Output tensor 
  2.  
  3. bucketed_prices = [102234

尽管TensorFlow提供了各种bucketing操作,但要找出哪个特定的操作执行这种确切的bucketing可能比较棘手。由于TF-Coder可以通过行为识别数百个张量操作,你可以通过提供一个输入-输出示例来查找正确的操作:

  1. # Input-output example 
  2.  
  3. inputs = { 
  4.  
  5. 'boundaries': [10501001000], 
  6.  
  7. 'prices': [15350901001001], 
  8.  
  9.  
  10. output = [102234

很快,TF-Coder就会输出如下解决方案:

  1. tf.searchsorted(boundaries, prices, side='right'

TF-Coder通过聪明的方式结合函数

现在我们来考虑另一个问题:计算一个0-1的张量,它能识别输入张量每一行中的最大元素。

  1. # Input tensor 
  2.  
  3. scores = [[0.70.20.1], 
  4.  
  5. [0.40.50.1], 
  6.  
  7. [0.40.40.2], 
  8.  
  9. [0.30.40.3], 
  10.  
  11. [0.00.01.0]] 
  12.  
  13. # Output tensor 
  14.  
  15. top_scores = [[100], 
  16.  
  17. [010], 
  18.  
  19. [100], 
  20.  
  21. [010], 
  22.  
  23. [001]] 

注意,如果同一最大元素在一行中出现多次,比如在第三行scores中,那么应该只标记第一个最大元素,以便top_scores的每行只有一个结果。

和上个问题不同的是,这里不存在可执行该计算的 TensorFlow 函数。在文档中搜索「max」,你可能找到 tf.reduce_max、tf.argmax 和 tf.maximum,但也不清楚到底该用哪一个?tf.reduce_max 输出 [0.7, 0.5, 0.4, 0.4, 1.0],tf.argmax 输出 [0, 1, 0, 1, 2],tf.maximum 不合适,因为它只能容纳两个参数。这些函数似乎都与该示例的期望输出关联不大。

对于此类问题,TF-Coder也可以快速解决。你可以把这个问题写成输入输出例子的形式

  1. # Input-output example 
  2.  
  3. inputs = { 
  4.  
  5. 'scores': [[0.70.20.1], 
  6.  
  7. [0.40.50.1], 
  8.  
  9. [0.40.40.2], 
  10.  
  11. [0.30.40.3], 
  12.  
  13. [0.00.01.0]], 
  14.  
  15.  
  16. output = [[100], 
  17.  
  18. [010], 
  19.  
  20. [100], 
  21.  
  22. [010], 
  23.  
  24. [001]] 

TF-Coder结合使用tf.one_hot和tf.argmax,得出一个解决方案:

  1. tf.cast(tf.one_hot(tf.argmax(scores, axis=1), 3), tf.int32) 

通过对TensorFlow操作组合的详细搜索,TF-Coder经常会找到类似这样的优雅解决方案,这可能会简化并加速TensorFlow程序的开发。

关于TF-Coder的用法还有很多,这里就不一一列举了,相信你已经见识到他的强大了,最后附上TF-Coder相关地址:

Github地址:https://github.com/google-research/tensorflow-coder

Google Colab 试用地址:https://colab.research.google.com/github/google-research/tensorflow-coder/blob/master/TF-Coder_Colab.ipynb

 

责任编辑:张燕妮 来源: 开源最前线
相关推荐

2011-09-06 17:05:16

移动广告

2020-08-28 15:28:29

代码开发工具

2018-05-29 10:16:40

超融合IT厂商产品

2022-03-25 14:24:18

谷歌自然语言算法

2020-05-29 15:36:38

开源神器 工具

2020-05-15 08:18:51

TFPyTorch深度学习

2020-12-31 11:55:56

PythonPlaywright微软

2021-03-24 10:48:32

谷歌开源代码

2012-08-20 08:58:40

2017-11-09 19:15:25

2017-06-09 14:45:14

前端深度学习

2018-09-02 15:43:56

Python代码编程语言

2019-07-16 08:09:32

开源技术 趋势

2020-05-25 20:46:59

Python编程语言程序员

2024-02-05 12:45:33

AI训练

2016-05-20 00:55:59

谷歌IO大会

2010-01-18 09:43:53

李开复谷歌

2015-08-11 09:51:06

谷歌重组Alphabet

2024-02-23 09:02:21

前端开源项目

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT
点赞
收藏

51CTO技术栈公众号