tokenization

tokenization简单来说就是将字符形式的文本转变为一个个离散的数字，比如"WE WOULD LOVE TO HELP" -> [1, 2, 3, 4, 5]，其中"WE"对应于1，"WOULD"对应于2，"LOVE"对应于3，"TO"对应于4，"HELP"对应于5，我们把[1, 2, 3, 4, 5]称为tokens。

实际的tokenization过程通常要比上面的例子稍微复杂点，但是基本思路是一样的，都是建立文本和数字之间的一一映射关系，从而将字符串形式的文本变成计算机可以处理的数字。

根据建模单元（即最小的建模单位）的不同，语音中常用的tokenization方式大致有三类：char-based, word-based和subword-based。