2)第064章 用科学方法解读红楼梦_文娱:开局盘点十大分手诗词
字体:      护眼 关灯
上一章 目录 下一章
  【接下来的一段时间里,我将分若干集,从各个角度出发,来论证《红楼梦》后四十回并不是曹雪芹手笔。

  而本集视频,我们先从文本特征差异研究开始。我将运用统计学方法,并结合R语言技术,对我的观点进行阐述!】

  弹幕上,网友们又蒙圈了。

  “R语言技术?统计学?跟《红楼梦》有什么关系?”

  “什么是R语言?”

  “这不是文学方面的事情么?怎么涉及到数学和计算机技术了呢?”

  “对啊,文学就是文学,怎么能和其他学科混为一谈呢,一看就不靠谱!”

  “继续围观,看这个诗人能扯出什么花样来。”

  ……

  【在大量事件的前提下,无论是在语言表述,还是在写作中,每个人在特定情况下用字或是用词都存在着某种规律。

  这种规律便是个人在说话与写作中所形成的语言表达习惯,即是个人在其特定习惯中所形成特有的文体特征。

  所以,不同的作者在用词频率与用词风格上存在一定的差异性。

  我将运用R语言对《红楼梦》著作进行文本分词和词频统计,从高频词汇和虚字两个研究角度,来分析《红楼梦》前八十回与后四十回在文本特征上的差异性。

  首先,我们率先研究高频词汇。

  在《红楼梦》的高频词汇中,我首先将人名、地名、称谓等剔除掉,以及对“一个”“一面”等表数量的没有实际意义的词汇进行剔除。

  于是,我们得到了65个高频词汇进行文本研究,现制作统计表格。

  如下图!】

  短视频中,贴出一张统计表。

  【高频词汇研究对象表】

  【1,什么;2,我们;3,那里;4,姑娘;5,你们……63,家里;64这话;65到底。】

  短视频解读继续:

  【……我的研究分组方案如下,一至三十回第一组,十六至四十五回第二组,三十一至六十回第三组……,以此类推,一共将《红楼梦》分成7组。

  运用R语言,对各组进行分词,对高频词汇研究对象进行词频统计。绘制高频词汇频数变化折线图。

  如下图所示!】

  话音落,短视频里,贴出了运用R语言绘制出的高频词汇频数变化折线图——一个带有X、Y坐标的七条折线的统计表。

  而此时,网友们全看傻了。

  “懵逼了,这些都啥意思啊?”

  “这能代表啥啊,根本看不懂啊!”

  “诗人你到底啥意思,请你明说行么?”

  “我感觉看了你的视频,受到了侮辱!”

  “你高估我们了!”

  ……

  短视频开始对这一折线图进行讲解:

  【我们可以发现折线图有明显的锯齿形,那么就表明高频词汇在各分组有明显的波动……诸如16(没有)、21(听见)、26(回来)、34(心里)、51(那些)、65(到底)

  请收藏:https://m.yq2.cc

(温馨提示:请关闭畅读或阅读模式,否则内容无法正常显示)

上一章 目录 下一章