|
|
51CTO旗下网站
|
|
移动端

1GB文本标记只需20秒!抱抱脸团队发布最新NLP工具

专注NLP的强大团队抱抱脸(hugging face)又发新资源!这一次是帮助NLP过程中,词语切分(tokenization)更快的Tokenizers。

作者:赖可来源:量子位|2020-01-15 11:12

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

专注NLP的强大团队抱抱脸(hugging face)又发新资源!这一次是帮助NLP过程中,词语切分(tokenization)更快的Tokenizers。

只要20秒就能编码1GB文本,适用Rust、Python和Node.js,已经在GitHub上获得了800多星。

前不久,这个团队也凭借自己的技术实力获得了1500万美元的天使投资。

速度快,功能多样

在NLP模型训练中,词语标记和切分往往是一个瓶颈。Tokenizer能够训练新的词汇,并且进行标记。

功能多样:适用于BPE/byte-level-BPE/WordPiece/SentencePiece各种NLP处理模型。

可以完成所有的预处理:截断(Truncate)、填补(Pad)、添加模型需要的特殊标记。

速度超级快:只需要20秒就可以在CPU上标记1GB的文本。

目前适用三种编程语言:Rust/Python/Node.js

使用示例

github的资源页面上提供了在Python上使用Tokenizers的示例,进行简单的设置就可以使用:

也可以用Tokenizers进行新词训练:

虽然目前只可用于三种语言Python、JS、Rust,抱抱脸团队表示,将来会继续升级以适用更多

抱抱脸团队最新进展

抱抱脸团队是一个创业团队。他们的Transformers是github上最火的NLP项目,已经获得了20K星。

作为专注于自然语言处理的创业公司,他们的目标是开发一个可以使用文字、照片、表情包的聊天机器人,名字叫做social AI 。

目前已经经过了三轮融资,共2000万美元。其中,在2019年底的A轮融资中,公司获得了1500万美元,并打算将员工增加两倍。

目前公司尚未盈利。创始人Clement Delangue在获得A轮融资后表示,除了对话AI之外,公司正在构建通用的NLP技术,希望让NLP技术满足公司的多样化需求。

传送门

https://github.com/huggingface/tokenizers

【编辑推荐】

  1. 超强通用编译器优化工具!MIT打造,准确率是传统方法5倍
  2. 2020年,GCC 项目代码终于从 SVN 完全切换至 Git
  3. Mac上程序员很喜欢用10大开发软件
  4. 2019年非常适合C/C++开发人员的IDE
  5. Github标星5300+,专门为程序员开发文档开源管理系统,我粉了
【责任编辑:张燕妮 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

Python应用场景实战手册

Python应用场景实战手册

Python应用场景实战手册
共3章 | KaliArch

118人订阅学习

一步到位玩儿透Ansible

一步到位玩儿透Ansible

Ansible
共17章 | 骏马金龙1

186人订阅学习

云架构师修炼手册

云架构师修炼手册

云架构师的必备技能
共3章 | Allen在路上

132人订阅学习

读 书 +更多

网络管理员考前辅导

本书按照国家人事部、信息产业部全国计算机技术与软件专业资格(水平)考试要求编写,内容紧扣《网络管理员考试大纲》。全书共分为11章,覆...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微