外观
单词转词元id(BPE)
约 180 字小于 1 分钟
2025-05-23
# 导入tiktoken库,用于处理文本分词和编码
import tiktoken
# 获取GPT-2模型使用的分词器(编码器)
tokenizer = tiktoken.get_encoding("gpt2")
# 定义要编码的测试文本,包含一个特殊符号<|endoftext|>和普通文本
text = (
"Hello, do you like tea? <|endoftext|> In the sunlit terraces"
"of someunknownPlace."
)
# 将文本编码为token id列表,allowed_special参数指定需要保留的特殊符号(此处保留<|endoftext|>)
integers = tokenizer.encode(text, allowed_special={"<|endoftext|>"})
# 打印编码后的token id列表(整数列表)
print(integers)
# 将token id列表解码回原始文本
strings = tokenizer.decode(integers)
# 打印解码后的文本(应与原始文本相同,除了可能的空格合并)
print(strings)
版权所有
版权归属:NateHHX