R语言文本挖掘预测模型案例分析报告knitr:opts_chunk$set(echo=TRUE,message=FALSE,warning=FALSE,cache=TRUE)library(quanteda)library(tm)#Setaparentfolderforthemaindirectorypfolder-/Users/andrewjohnson/Documents/data_science_projects/JHU_Coursera_Capstonedfolder-paste(pfolder,/data,sep=)setwd(pfolder)1项目概况该项目试图建立一个预测文本模型,可以用来预测计算机或移动设备的用户输入的下一个单词。该项目将使用由英语语料库开发的退避模型,该模型具有由网络爬虫收集的超过两百万行文本的样本。自然语言处理中的常见步骤是:1获取和清理数据o示例文本o预处理文本(删除不符合您的目的的数据,如标点,亵渎等)oTokenization(识别要分析的单词和单词的组合)2探索性数据分