外观
单词转词元id(BPE)
约 189 字小于 1 分钟
单词转词元id(BPE).py
# 导入tiktoken库,用于处理文本分词和编码
import tiktoken
# 获取GPT-2模型使用的分词器(编码器)
tokenizer = tiktoken.get_encoding("gpt2")
# 定义要编码的测试文本,包含一个特殊符号<|endoftext|>和普通文本
text = (
"Hello, do you like tea? <|endoftext|> In the sunlit terraces"
"of someunknownPlace."
)
# 将文本编码为token id列表,allowed_special参数指定需要保留的特殊符号(此处保留<|endoftext|>)
integers = tokenizer.encode(text, allowed_special={"<|endoftext|>"})
# 打印编码后的token id列表(整数列表)
print(integers)
# 将token id列表解码回原始文本
strings = tokenizer.decode(integers)
# 打印解码后的文本(应与原始文本相同,除了可能的空格合并)
print(strings)
更新日志
2025/6/26 11:30
查看所有更新日志
dfb81
-update于dc6b2
-update于
版权所有
版权归属:NateHHX