Also known as tokenisation
breaking a stream of text up into chunks for analysis or further processing
То́кен (англ. token) — объект, создающийся из лексемы в процессе лексического анализа («токенизации», от англ. tokenizing). В прикладном программировании понятие токена и его лексема могут не различаться. Шаблон токена — формальное описание класса лексем, которые могут создать данный тип токена.
Abstract from DBpedia / Wikipedia · CC BY-SA
Discovered by embedding cosine similarity (sentence-transformers MiniLM, 384-dim).