|
|
|
|
移动端

现在知道还不算晚,输入示例自动生成代码,谷歌开源这项神器要火

操作张量并非易事,因为它需要很多先决条件,例如跟踪多个维度,Dtype兼容性,数学正确性和张量形状等。

作者:猿妹来源:开源最前线|2020-09-29 10:52

操作张量并非易事,因为它需要很多先决条件,例如跟踪多个维度,Dtype兼容性,数学正确性和张量形状等。当然最大的挑战还是从数百种可用选项中确定正确的TensorFlow操作。

假如不需要你进行对张量操纵进行编码,你只需要通过一个说明性的例子来演示,有个工具就能生成相应的代码,你会选择这个工具么?如果会的话,谷歌的TensorFlow Coder(TF-Coder)可以帮你实现这一点。

TF-Coder是一个程序合成工具,可以帮助你编写TensorFlow代码,首先,这个工具需要输入所需张量变换的输入-输出示例。然后,它会运行一个组合搜索来查找执行转换的TensorFlow表达式。TF-Coder的输出是真实的TensorFlow代码,你可以直接将它用在你的项目中。

接着,我们再来详细介绍一下TF-Coder是如何帮助你编写TensorFlow代码。

在TensorFlow中的编程示例

假如你想将包含 M 个元素的向量(下例中指‘rows’)和包含 N 个元素的向量“想加”,生成一个包含所有成对和的 M x N 矩阵。你可以提供一个输入输出示例(如M=3和N=4),而不需要深入研究TensorFlow文档来找出如何做到这一点。

输入张量:

  1. inputs = { 
  2.  
  3. 'rows': [102030], 
  4.  
  5. 'cols': [1234], 
  6.  

所提供的输入张量对应的期望输出张量:

  1. output = [[11121314], 
  2.  
  3. [21222324], 
  4.  
  5. [31323334]] 

给定这些信息(默认情况下已经输入到TF-Coder Colab中),TF-Coder工具会在零点几秒内自动找到合适的TensorFlow代码:

  1. tf.add(cols, tf.expand_dims(rows, 1)) 

上面的问题非常简单,只是通过示例来说明编程的思想。TF-Coder对于更难的问题也很有用。

TF-Coder帮助你找到要使用的正确函数

假设我们正在处理一个数学问题,比如商品的价格,数据集中范围很广,从$10以下到$1000以上。如果这些价格被直接用作特征,那么你的模型可能会对训练数据中的特定价格过度拟合。

假如要处理这些问题,你可能需要使用bucketing将数字价格转换成类别特征。使用bucket边界 [10, 50, 100, 1000] 意味着低于10美元的价格应归入bucket 0,10美元至50美元的价格应归入bucket 1,依此类推。

选择bucket边界之后,如何使用TensorFlow将实际价格映射到bucket索引?诸如给定以下bucket边界和物品价格:

  1. # Input tensors 
  2.  
  3. boundaries = [10501001000
  4.  
  5. prices = [15350901001001

计算每个项的bucket编号:

  1. # Output tensor 
  2.  
  3. bucketed_prices = [102234

尽管TensorFlow提供了各种bucketing操作,但要找出哪个特定的操作执行这种确切的bucketing可能比较棘手。由于TF-Coder可以通过行为识别数百个张量操作,你可以通过提供一个输入-输出示例来查找正确的操作:

  1. # Input-output example 
  2.  
  3. inputs = { 
  4.  
  5. 'boundaries': [10501001000], 
  6.  
  7. 'prices': [15350901001001], 
  8.  
  9.  
  10. output = [102234

很快,TF-Coder就会输出如下解决方案:

  1. tf.searchsorted(boundaries, prices, side='right'

TF-Coder通过聪明的方式结合函数

现在我们来考虑另一个问题:计算一个0-1的张量,它能识别输入张量每一行中的最大元素。

  1. # Input tensor 
  2.  
  3. scores = [[0.70.20.1], 
  4.  
  5. [0.40.50.1], 
  6.  
  7. [0.40.40.2], 
  8.  
  9. [0.30.40.3], 
  10.  
  11. [0.00.01.0]] 
  12.  
  13. # Output tensor 
  14.  
  15. top_scores = [[100], 
  16.  
  17. [010], 
  18.  
  19. [100], 
  20.  
  21. [010], 
  22.  
  23. [001]] 

注意,如果同一最大元素在一行中出现多次,比如在第三行scores中,那么应该只标记第一个最大元素,以便top_scores的每行只有一个结果。

和上个问题不同的是,这里不存在可执行该计算的 TensorFlow 函数。在文档中搜索「max」,你可能找到 tf.reduce_max、tf.argmax 和 tf.maximum,但也不清楚到底该用哪一个?tf.reduce_max 输出 [0.7, 0.5, 0.4, 0.4, 1.0],tf.argmax 输出 [0, 1, 0, 1, 2],tf.maximum 不合适,因为它只能容纳两个参数。这些函数似乎都与该示例的期望输出关联不大。

对于此类问题,TF-Coder也可以快速解决。你可以把这个问题写成输入输出例子的形式

  1. # Input-output example 
  2.  
  3. inputs = { 
  4.  
  5. 'scores': [[0.70.20.1], 
  6.  
  7. [0.40.50.1], 
  8.  
  9. [0.40.40.2], 
  10.  
  11. [0.30.40.3], 
  12.  
  13. [0.00.01.0]], 
  14.  
  15.  
  16. output = [[100], 
  17.  
  18. [010], 
  19.  
  20. [100], 
  21.  
  22. [010], 
  23.  
  24. [001]] 

TF-Coder结合使用tf.one_hot和tf.argmax,得出一个解决方案:

  1. tf.cast(tf.one_hot(tf.argmax(scores, axis=1), 3), tf.int32) 

通过对TensorFlow操作组合的详细搜索,TF-Coder经常会找到类似这样的优雅解决方案,这可能会简化并加速TensorFlow程序的开发。

关于TF-Coder的用法还有很多,这里就不一一列举了,相信你已经见识到他的强大了,最后附上TF-Coder相关地址:

Github地址:https://github.com/google-research/tensorflow-coder

Google Colab 试用地址:https://colab.research.google.com/github/google-research/tensorflow-coder/blob/master/TF-Coder_Colab.ipynb

【编辑推荐】

  1. 2020Java调查:中国开发者比例最高,Java8最受欢迎
  2. 如何让自己的开发工具变得更高大上一些?
  3. 10月份开始GitHub把master换成main:这是开发者需要知道的几点
  4. 几行Python代码实现文字识别,你敢信?
  5. 谷歌妥协,将改变平台“抽取佣金”的比例
【责任编辑:张燕妮 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢
24H热文
一周话题
本月获赞

订阅专栏+更多

云原生架构实践

云原生架构实践

新技术引领移动互联网进入急速赛道
共3章 | KaliArch

16人订阅学习

数据中心和VPDN网络建设案例

数据中心和VPDN网络建设案例

漫画+案例
共20章 | 捷哥CCIE

172人订阅学习

搭建数据中心实验Lab

搭建数据中心实验Lab

实验平台Datacenter
共5章 | ITGO(老曾)

111人订阅学习

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微