在R中如需建构文档词条矩阵的话,如何把在一个doc文档文件中数千篇子文档切分出来?

0
RT,这个文档有一定的结构,其实就是复制粘贴的蓝色标题+‘()’有括号的时间信息+正文,不知道可否用Python或者R进行切分,如果有的话怎么切呀?切出来以后建立成什么样的数据文件才方便用R进行词-文档关系矩阵或者共现矩阵分析呢?
已邀请:

要回复问题请先登录注册