自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 Matching datasets and tokenizers
目录
Best practicesStep 1: PreprocessingStep 2: Post-processingContinuous human quality controlWord2Vec tokenizationTokenizer.ipynb代码使用gensim训练word2vec模型Case 0: Words in the dataset and the dictionaryCase 1: Words not in the dataset or the dictionary星空智能对话机器人系列博客Best practices
Raffel等人(
自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 Matching datasets and tokenizers