https://hunterheidenreich.com/posts/nlp-count-vectorization/