tokenization简单来说就是将字符形式的文本转变为一个个离散的数字,比如"WE WOULD LOVE TO HELP" -> [1, 2, 3, 4, 5],其中"WE"对应于1,"WOULD"对应于2,"LOVE"对应于3,"TO"对应于4,"HELP"对应于5,我们把[1, 2, 3, 4, 5]称为tokens。
实际的tokenization过程通常要比上面的例子稍微复杂点,但是基本思路是一样的,都是建立文本和数字之间的一一映射关系,从而将字符串形式的文本变成计算机可以处理的数字。
根据建模单元(即最小的建模单位)的不同,语音中常用的tokenization方式大致有三类:char-based, word-based和subword-based。