创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
爱色堂 基于ALBERT-CRNN的弹幕文本热诚分析 - 猪猪系列

爱色堂 基于ALBERT-CRNN的弹幕文本热诚分析

猪猪系列

猪猪系列

  • 首页
  • 东京热qvod
  • 东京热图片
  • 快播东京热
  • 最新东京热
  • 东京热快播
  • 变态另类
  • 你的位置:猪猪系列 > 快播东京热 > 爱色堂 基于ALBERT-CRNN的弹幕文本热诚分析

    爱色堂 基于ALBERT-CRNN的弹幕文本热诚分析

    发布日期:2025-04-04 18:30    点击次数:69
    0 序文

    跟着数字媒体本领的快速发展,弹幕成为东说念主们抒发不雅点的一个阻难道路爱色堂,深受年青用户的接待,并在哔哩哔哩、爱奇艺和腾讯视频等多个视频平台渐渐流行。弹幕挑剔在发送后径直同步清醒在视频播放过程中,并在屏幕上从右到左如枪弹般缓缓飞过,故网友称之为弹幕。比拟平庸文本,弹幕文本有着其独到的立场,不仅包含较多的收罗词语和字符神色,且存在无数“同词不同义”的情况,给热诚分析带来较大挑战。如“心爱”这个词,在“我很心爱up主的立场”这个句子中暗意一种正向的热诚,但在“男主老是心爱附近短长”这个句子中暗意一种倾向,不带任何情谊色调。传统的弹幕文本热诚分析措施大多利用热诚辞书来判断弹幕文本的热诚极性。文件[1]禁受热诚辞书对弹幕文本中的词汇进行热诚分析,得到词汇的热诚强度并将其累加,从而得出弹幕文本全体的热诚极性。文件[2]针对弹幕文本白话化的特色,成就了收罗弹幕常用词辞书,大略更好地识别弹幕文本中出现的收罗词汇,并通过该辞书蓄意弹幕文本的热诚值,最终利用热诚值对弹幕文本进行分类。连年来,跟着深度学习的发展,越来越多的商榷者将深度学习应用在弹幕文天职析任务中。文件[3]提倡一种基于耀看法机制的长短期缅念念收罗热诚分析模子,用于匡助用户准确地获取弹幕文本中所包含的热诚信息。文件[4]使用双通说念卷积神经收罗对文本进行热诚分析,其中一个通说念为字向量,另一个通说念为词向量,管理了单通说念卷积神经收罗视角单一以及不成充分学习到文本特征信息的问题。文件[5]则提倡一种基于奇异值认识算法的卷积神经收罗模子,使用奇异值认识的措施代替传统卷积神经收罗模子中的池化层进行特征索要和降维,有用提高了弹幕文本热诚分析的恶果。

    诚然以上商榷取得了可以的恶果,但是由于弹幕文本中存在着无数“同词不同义”的情况,以上措施在进行特征索要时无法区分句子中归拢个词在不同落魄文语境中的不同含义,且在进修过程中不成兼顾文本中的局部特征信息和落魄文语义关联,导致其分类准确率相对较低。因此,本文结合ALBERT预进修讲话模子和卷积轮回神经收罗(CRNN)措施来分析弹幕文本的热诚极性,提倡一种弹幕文本热诚分析模子ALBERT-CRNN。利用ALBERT预进修讲话模子获取弹幕文本的动态特征暗意,充分利用了句子中词的落魄文信息,使得句子中归拢个词在不同落魄文语境中具有不同的词向量抒发;使用CRNN对特征进行进修,充分磋商了文本中的局部特征信息和落魄文语义关联,进一步提高了模子在弹幕文本热诚分析任务中的准确率。

    1 相关使命

    深度学习本领在热诚分析中应用的前提是管理词映射问题,行将文本振荡为机器可以识别的数字,常用的措施是针对文本进修词向量。Mikolov等[6-7]提倡Word2Vec模子,其本体为一种神经收罗概率讲话模子,包括CBOW和Skip-Gram两种模子,但通过该模子进修出的词向量为静态词向量,松手了文本中无数词语的位置信息,不成暗意出文本的竣工语义。Devlin等[8]在ELMo[9]和GPT[10]的基础上提倡了BERT预进修讲话模子,该模子通过使用双向Transformer[11]编码器对语料库进行进修得到文本的双向编码暗意,且进修出的词向量为动态词向量,使得句子中归拢个词在不同落魄文语境中具有不同的词向量抒发。

    增大BERT预进修模子的限制能提高下贱任务的恶果,但受蓄意资源的狂妄,所需的进修时分较长,且进一步提高模子的限制将导致显存或内存不及。为此,Lan等[12]提倡ALBERT模子,该模子是基于BERT模子的一种轻量级预进修讲话模子,禁受双向Transformer获取文本的特征暗意,且大大减少了模子中的参数,并在多项当然讲话处理(NLP)任务中取得了最好恶果。为准确判断弹幕文本的热诚倾向,特征分类算法的遴选也尤为阻难。Kim[13]提倡文本卷积神经收罗模子(TextCNN),使用不同尺寸的卷积查对文本局部特征进行进修,驱逐了句子级别的分类任务, 并取得了较好的分类恶果。Socher等[14]将轮回神经收罗(RNN)应用到NLP任务中,在进行文本特征进修时大略较好地利用落魄文信息。但是,传统RNN存在梯度爆炸和褪色问题,处理长序列文本的恶果并不睬念念。Hochreiter等[15]提倡长短期缅念念收罗(LSTM),管理了传统RNN的梯度爆炸和褪色问题。之后,Dey等[16]提倡了门控轮回单位(GRU),在保执LSTM恶果的同期使得模子结构愈加毛糙。

    卷积神经收罗(CNN)诚然大略高效地利用文本的局部特征信息,但无法获取落魄文信息;双向门控轮回单位(BiGRU)诚然大略有用地获取文本的落魄文信息,但由于自己轮回递归的性情,收罗结构复杂度较高,时分代价较大。文件[17]结合CNN和BiGRU的收罗结构上风,提倡基于耀看法机制的CRNN文天职类算法,既能利用CNN进修局部特征的上风,又能利用BiGRU获取落魄文语义信息的上风,提高了文天职类的准确率。但是,由于其在索要文本特征时禁受的是传统的Word2Vec模子,导致其松手了无数词语的位置信息,无法暗意出文本的竣工语义。概述以上商榷,本文将ALBERT预进修讲话模子与CRNN相结合,提倡了一种基于ALBERT-CRNN的弹幕文本热诚分析模子,并通过与其他模子的对比实考据明了其在弹幕文本热诚分析中的有用性。

    2 基于ALBERT-CRNN的弹幕文本热诚分析模子

    本文提倡的ALBERT-CRNN弹幕文本热诚分析措施主要包括以下设施。1) 对弹幕文本数据进行清洗和预处理,筛选出具有热诚极性的弹幕文本数据,并打上相应的标签。2) 使用ALBERT预进修讲话模子获取弹幕文本的动态特征暗意。3) 使用结合CNN与BiGRU的神经收罗模子CRNN对文本特征进行进修,获取每条弹幕文本的深层语义特征。4) 利用Softmax函数对文本深层语义特征进行分类,最终得出每条弹幕文本的热诚极性。

    2.1 ALBERT预进修讲话模子 2.1.1 ALBERT模子结构

    ALBERT预进修讲话模子禁受双向Transformer获取文本的特征暗意,其模子结构如图 1所示。其中,E1, E2, …, EN暗意序列中的每一个字符,经过多层双向Transformer编码器的进修,最终得到文本的特征向量暗意T1, T2, …, TN。Transformer的模子结构为Encoder-Decoder[18-19],ALBERT禁受的是其Encoder部分,该部分由多个沟通的基本层构成。其中,每个基本层包含两个子收罗层:第一个为多头自耀看法机制层;第二个为平庸前馈收罗层。

    2.1.2 ALBERT模子对BERT模子的调动

    为减少BERT模子的参数和增强模子的语义相识智力,ALBERT模子在BERT模子的基础上主要进行了两点调动。最初,ALBERT模子通过镶嵌层参数因式认识和跨层参数分享措施有用减少了BERT模子中的参数,大大缩短了进修时的内存花销,并有用提高了模子的进修速率。其次,为弥补Yang等[20]提倡的BERT模子中NSP任务存在的污点,ALBERT模子通过使用SOP任务代替BERT模子中的NSP任务,提高了多句子输入的下贱任务的恶果。

    2.2 CNN层

    CNN是一种前馈神经收罗,由卷积层和池化层构成。在卷积层中,通过与文本特征暗意矩阵S进行卷积得到新的特征ci,其蓄意公式为

    $ \boldsymbol{c}_{i}=f\left(\boldsymbol{w} \otimes \boldsymbol{S}_{i: i+m-1}+\boldsymbol{b}\right), $ (1)

    其中:i暗意第i个特征值;m暗意卷积聚意中滑动窗口的大小;Si: i+m-1暗意矩阵S中第i行至第i+m-1行的文本特征矩阵;w为卷积核;⊗暗意卷积聚意;f为非线性激活函数;b为偏置值。将滑动窗口应用于各局部文本特征矩阵S1:m, S2:m+1, …, Sn-m+1:n, 最终得到特征向量C,

    $ \boldsymbol{C}=\left(\boldsymbol{c}_{1}, \boldsymbol{c}_{2}, \cdots, \boldsymbol{c}_{n-m+1}\right)。$ (2)

    另外,分别禁受尺寸为3、4、5的卷积查对特征图进行卷积,对每个卷积核近似上述过程,得到各自的特征向量。在池化层中,通过最大池化措施保留权重最大的特征值,并松手其他特征值,蓄意公式为

    $ \boldsymbol{p}_{j}=\max \left(\boldsymbol{c}_{j}\right), $ (3)

    其中:pj暗意特征图中第j个池化区域内最大的特征值。

    2.3 BiGRU层

    GRU是LSTM模子的一个变体,其模子结构如图 2所示。LSTM模子包含三个门蓄意, 即输初学、输外出和渐忘门。GRU模子在LSTM模子的基础上进行了简化,只由zt和rt两个门控单位构成。其中:zt暗意更新门,用于戒指前一时刻的景色信息被带入到现时景色中的进程;rt暗意重置门,用于戒指忽略前一时刻的景色信息的进程。

    基于以上GRU的模子结构,可以得出GRU的前向传播蓄意公式为

    文爱电报 $ \boldsymbol{z}_{t}=\sigma\left(\boldsymbol{W}_{z x} \boldsymbol{x}_{t}+\boldsymbol{W}_{z h} \boldsymbol{h}_{t-1}+\boldsymbol{b}_{z}\right) , $ (4) $ \boldsymbol{r}_{t}=\sigma\left(\boldsymbol{W}_{r x} \boldsymbol{x}_{t}+\boldsymbol{W}_{r h} \boldsymbol{h}_{t-1}+\boldsymbol{b}_{r}\right) , $ (5) $ \tilde{\boldsymbol{h}}_{t}=\tanh \left(\boldsymbol{W}_{\tilde{\boldsymbol{h}} x} \boldsymbol{x}_{t}+\boldsymbol{W}_{\tilde{\boldsymbol{h}} \boldsymbol{h}}\left(\boldsymbol{r}_{t} \odot \boldsymbol{h}_{t-1}\right)+\boldsymbol{b}_{\tilde{\boldsymbol{h}}}\right), $ (6) $ \boldsymbol{h}_{t}=\left(1-\boldsymbol{z}_{t}\right) \odot \boldsymbol{h}_{t-1}+\boldsymbol{z}_{t} \odot \tilde{\boldsymbol{h}}_{t} , $ (7)

    其中:σ暗意sigmoid激活函数;xt暗意现相通刻的输入,在文天职类中暗意第t个词的词向量;ht-1和ht分别暗意前一时刻隐私层景色和现相通刻隐私层景色,$\tilde{\boldsymbol{h}}_{t} $暗意现相通刻新的缅念念;⊙暗意向量的点乘。

    2.4 ALBERT-CRNN模子

    ALBERT-CRNN模子结构如图 3所示,主要由以下6个部分构成:输入层、ALBERT层、CRNN层(包含CNN层和BiGRU层)、全勾搭层、Softmax层和输出层。该模子的使命过程如下。

    设施1  利用输入层将弹幕文本数据输入到模子的ALBERT层中,输入的弹幕文本数据X=(X1, X2, …, XN),其中Xi暗意该条弹幕文本中的第i个词。

    设施2  在ALBERT层对输入的文本数据进行序列化,将文本数据X中的每个词振荡为其在字典中所对应的编号。序列化后的文本数据E=(E1, E2, …, EN),其中Ei暗意文本中第i个词的序列化字符。利用多层双向Transformer编码器对序列化后的弹幕文本进行进修,得到弹幕文本的动态特征暗意。文本特征暗意T=(T1, T2, …, TN),其中Ti暗意文本中第i个词的特征向量。在使用Transformer编码器获取弹幕文本特征时,蓄意现时句子中每个词与其他词之间的互相相关,然后利用这些互相相关去转机每个词的权重,从而赢得句子中每个词的新的抒发。通过此形态进修出的文本特征暗意T充分利用了句子中词的落魄文信息,使得句子中归拢个词在不同落魄文语境中具有不同的词向量抒发,较好地区分了归拢个词在不同落魄文语境中的不同含义。

    设施3  将文本特征暗意T输入到CNN层中, 分别禁受尺寸为3、4、5的卷积查对文本特征进行进修,经池化层降维后分别得到三个文本向量Fc1、Fc2和Fc3, 将三者进行叠加得到向量Fc。为保证池化后的三个文本向量大略互相叠加,在池化层禁受全填充的形态使得池化后的三个文本向量局面沟通。

    设施4  将CNN层的输出Fc分听说给BiGRU层的前向GRU层和后向GRU层,经过多个GRU隐私单位的进修,最终得到两个文本向量暗意,分别记作Fg0和Fg1。

    设施5  将Fg0和Fg1进行叠加得到向量Fg,Fg的维度为2h,其中h为GRU隐私单位个数。通过全勾搭层对Fg进行两次全勾搭,全勾搭层的输出维度为s,s暗意热诚标签的个数。

    设施6  使用Softmax函数对全勾搭层的输出驱逐进行归一化,得到弹幕文本热诚极性的概率分散矩阵L,对L按行取最大值的索引,最终得到弹幕文本的热诚极性。

    上述过程中的设施3和设施4充分利用了CNN进修局部特征的上风以及BiGRU获取落魄文语义信息的上风,从而大略充分磋商文本中的局部特征信息和落魄文语义关联,进一步提高了模子的恶果。

    3 实验部分与驱逐分析 3.1 实验环境与数据

    实验环境如下:操作系统为Ubuntu16.04,CPU是Intel® Xeon® Gold 5218,GPU为NVIDIA Tesla V100,内存为48 GB,使用Python3.6进行算法编程,并使用Tensorflow1.12.0看成深度学习框架。利用收罗爬虫本领分别从哔哩哔哩、爱奇艺和腾讯视频三个视频网站上爬取弹幕文本数据,酿成不同的弹幕文本数据集。对弹幕数据进行清洗,剔撤退不具有热诚倾向的弹幕,并将具有热诚倾向的弹幕分为负向和正向热诚弹幕。数据清洗完成后,哔哩哔哩弹幕数据集共包含5 037个负向热诚样本和5 109个正向热诚样本,爱奇艺弹幕数据集共包含5 014个负向热诚样本和5 115个正向热诚样本,腾讯视频弹幕数据集共包含5 024个负向热诚样本和5 218个正向热诚样本。对以上数据进行预处理,并按照7∶3的比例别离为进修集和测试集。

    3.2 评价方针

    为评价模子的分类恶果,禁受玷污矩阵对分类驱逐进行统计。使用TP暗意施行为正样本且估量为正样本,FP暗意施行为负样本但估量为正样本,TN暗意施行为负样本且估量为负样本,FN暗意施行为正样本但估量为负样本。左证玷污矩阵统计的驱逐,禁受准确率(Acc)、精准率(P)、调回率(R)以及精准率与调回率的统一平均值(F1)对模子恶果进行评价,蓄意公式为

    $ { Acc }=\frac{T P+T N}{T P+F P+T N+F N}, $ (8) $ P=\frac{T P}{T P+F P}, $ (9) $ R=\frac{T P}{T P+F N}, $ (10) $ F 1=\frac{2 \times P \times R}{P+R}。$ (11) 3.3 实验参数

    实验参数主要包括ALBERT模子和CRNN模子的参数。其中ALBERT禁受Google发布的预进修模子ALBERT-Base,其模子参数如下:镶嵌层尺寸为128,隐私层尺寸为768,隐私层的层数为12,耀看法头的个数为12,况兼使用ReLU看成模子的激活函数。另外,在模子进修的过程中对该预进修模子进行微调,以愈加适用于本文的热诚分析任务。CRNN模子参数如下:CNN中的卷积核尺寸分别为3、4、5,且每种尺寸卷积核的个数均为128,另外皮池化层禁受最大池化的措施对特征进行降维,且池化尺寸为4。BiGRU中的GRU隐私单位个数为128,模子的层数为1,禁受ReLU看成激活函数,并在进修阶段将Dropout的比例成就为0.5。ALBERT-CRNN模子进修参数如下:成就批次大小为64,迭代轮数为30,由于弹幕文本一般较短,成就最大序列长度为30,禁受交叉熵圆寂函数,录取Adam看成模子的优化器,并将学习率成就为5×10-5。

    3.4 对比实验成就

    为考据ALBERT-CRNN弹幕文本热诚分析模子的有用性,将ALBERT-CRNN模子与SVM、CNN、BiGRU、CRNN以及ALBERT模子进行对比,在哔哩哔哩、爱奇艺和腾讯视频三个视频平台的弹幕文本数据集上分别进行实验。其中SVM、CNN、BiGRU和CRNN模子均基于Word2Vec模子构建词向量;ALBERT和ALBERT-CRNN模子则禁受Google发布的汉文预进修模子ALBERT-Base来进行文本特征暗意,并将此预进修模子在本文数据集下进行微调。

    3.5 实验驱逐及分析

    不同模子在三个弹幕文本数据集上的精准率、调回率和F1值驱逐如表 1所示。可以看出,比拟SVM、CNN、BiGRU、CRNN和ALBERT模子,ALBERT-CRNN模子在哔哩哔哩数据集上的F1值分别提高了8.5、5.5、5.6、4.9和0.6个百分点,在爱奇艺数据集上的F1值分别提高了8.1、5.0、5.5、3.8和0.7个百分点,在腾讯视频数据集上的F1值分别提高了8.1、5.9、5.7、5.0和1.9个百分点。由此可以得出,比拟其他基于Word2Vec构建词向量的模子,ABERT和ALBERT-CRNN模子在弹幕文本热诚分析中有着彰着的上风,证实了由预进修讲话模子获取的文本特征大略充分利用句子中词的落魄文信息,较好地区分了句子中归拢个词在不同落魄文语境中的不同含义,从而使得弹幕文本热诚分析的恶果得到了提高。另外,ALBERT-CRNN模子比拟ALBERT模子在弹幕文本热诚分析中具有更优的发挥,证实了CRNN模子大略充分磋商文本中的局部特征信息和落魄文语义关联,进一步提高了模子的性能。

    表 1 不同模子在三个数据集上的精准率、调回率和F1值驱逐 Tab. 1 Precision, recall and F1-value results of different models on three datasets

    图 4给出了不同模子在三个弹幕文本数据集上的准确率对比。可以发现,比拟SVM、CNN、BiGRU、CRNN和ALBERT模子,ALBERT-CRNN模子在弹幕文本热诚分析中具有更佳的恶果,在三个数据集上的准确率分别达到94.3%、93.5%和94.8%,再次证实了ALBERT-CRNN模子在弹幕文本热诚分析任务中的有用性。

    利用ALBERT-CRNN模子对单个弹幕文本进行估量,展示了模子信得过的诓骗功能。为通俗了解输出驱逐的含义,将估量值大于0.5的界说为正向热诚,其余的界说为负向热诚。单个样例分析驱逐如表 2所示,可以看出,ALBERT-CRNN模子对随即录取的单个弹幕文本的估量驱逐齐是正确的,大略见效应用于弹幕文本热诚分析中。

    表 2 单个样例分析驱逐 Tab. 2 Single sample analysis results 4 结语

    本文提倡一种结合ALBERT与CRNN的弹幕文本热诚分析模子ALBERT-CRNN。通过ALBERT预进修讲话模子获取弹幕文本的动态特征暗意,管理了传统弹幕热诚分析措施无法区分句子中归拢个词在不同落魄文语境中含义不同的问题;使用结合CNN与BiGRU的神经收罗CRNN对特征进行进修,充分利用了文本中的局部特征信息和落魄文语义关联。在哔哩哔哩、爱奇艺和腾讯视频三个视频平台的弹幕文本数据集上进行对比实验,证实了ALBERT-CRNN模子在弹幕文本热诚分析任务中的有用性。由于ALBERT模子在使用过程中的参数目仍然较大,导致进修所破耗的时分较长。鄙人一步商榷使命中,将对ALBERT模子进行压缩爱色堂,在模子精度不受较大圆寂的情况下尽可能缩短模子的复杂度,从而提高模子的进修效力。



    栏目分类

    创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
    JzEngine Create File False