路由变压器
全功能实现。本文提出使用k最近邻居将相似的查询/关键字路由到同一群集中以引起注意。
131k代币
安装
$ pip install routing_transformer
用法
简单的语言模型
import torch
from routing_transformer import RoutingTransformerLM
model = RoutingTransformerLM (
num_tokens = 20000 ,
dim = 512 ,
heads = 8 ,
depth = 12 ,
max_seq_len = 8192 ,
causal = True , # auto-regressive or not
emb_dim = 128 , # embedding fa
1