多模态文本分类技术

多模态文本分类技术
- 1. 多模态表示学习（Representation）
  - 1.1 联合表示（Joint Representation）
  - 1.2 协同表示（Coordinated Representation）
- 2. 模特转化（Translation）
- 3. 模态对齐（Alignment）
- 4.多模态融合（Fusion）
- 5. 协同学习（Co-learning）
- 6. 文本分类应用
  - 6.1 讽刺检测
  - 6.2 情感分类
  - 6.3 情感分析
  - 6.4 假新闻识别
  - 6.5 商品分类

1. 多模态表示学习（Representation）

1.1 联合表示（Joint Representation）

定义：将多个模态的信息一起映射到一个统一的多模态向量空间

论文：Multimodal learning with deep boltzmann machines, NIPS 2014

1.2 协同表示（Coordinated Representation）

定义：将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束（例如线性相关）

论文：Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)

2. 模特转化（Translation）

定义：多模态转化也可称为映射 (Mapping)，主要是将一个模态的信息转化或映射为另一个模态的信息。

应用：

机器翻译(Machine Translation) 、唇读(Lip Reading)和语音翻译 (Speech Translation)
图片描述 (Image Captioning)与视频描述(Video Captioning)
语音合成(Speech Synthesis)

3. 模态对齐（Alignment）

定义：从来自同一个实例的两个甚至多个模态中寻找子成份之间的关系和联系。

研究方向：有显式对齐，隐式对齐两种。

4.多模态融合（Fusion）

联合多个模态的信息，进行目标预测（分类或者回归），属于 MMML 最早的研究方向之一，也是目前应用最广的方向，它还存在其他常见的别名，例如多源信息融合（Multi-source Information Fusion）、多传感器融合（Multi-sensor Fusion)。

分类：

Pixel level
Feature level
Decision level

按照融合的类型分类：

数据级别融合
判定级别融合
组合融合

5. 协同学习（Co-learning）

通过利用资源丰富（比如数据量大）的模态的知识来辅助资源稀缺（比如较小数据）的模态建立模型。

根据数据形式划分：

Parallel（数据并行）: Co-training, Transfer learning（预训练模型）
Non-parallel（数据不并行）: Transfer learning, Concept grounding, Zero-shot learning
Hybrid: Bridging

6. 文本分类应用

6.1 讽刺检测

Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model. ACL 2019
论文来源：ACL 2019

论文链接：https://www.aclweb.org/anthology/P19-1239/

关键词：情感分析；图文；反讽刺识别

论文解读：https://www.pianshen.com/article/35901009638/

Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper)
论文来源：ACL 2019

论文链接：https://arxiv.org/pdf/1906.01815v1.pdf

github地址：https://github.com/soujanyaporia/MUStARD

关键词：反讽刺识别

论文解读：https://zhuanlan.zhihu.com/p/93626115

6.2 情感分类

Contextual Inter-modal Attention for Multi-modal Sentiment Analysis. ACL 2018
github地址：https://github.com/soujanyaporia/contextual-multimodal-fusion
链接：https://pan.baidu.com/s/1bNsgWInUlG2-M88PSXGcPQ
提取码：uk6m
论文解读https://blog.csdn.net/ningmengshuxiawo/article/details/109141253

6.3 情感分析

Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis. NAACL 2019
论文解析https://www.cnblogs.com/taaccoo/p/13662595.html

6.4 假新闻识别

Exploiting Multi-domain Visual Information for Fake News Detection. ICDM 2019
论文来源：ICDM 2019

论文链接：https://arxiv.org/abs/1908.04472

关键词：假新闻检测；图像；频域；像素域；CNN；RNN；attention

论文解读：https://www.pianshen.com/article/19361581000/

EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection. KDD 2018
论文来源：KDD 2018

论文链接：https://doi.org/10.1145/3219819.3219903

代码链接：https://github.com/yaqingwang/EANN-KDD18

关键词：多模态（图像+文本）；对抗神经网络；假新闻检测

论文解读：https://www.pianshen.com/article/57871580780/

6.5 商品分类

Is a Picture Worth a Thousand Words? A Deep Multi-Modal Architecture for Product Classification in E-Commerce. AAAI 2018.

自然语言处理深度学习计算机视觉

多模态文本分类技术

多模态文本分类技术

1. 多模态表示学习（Representation）

1.1 联合表示（Joint Representation）

1.2 协同表示（Coordinated Representation）

2. 模特转化（Translation）

3. 模态对齐（Alignment）

4.多模态融合（Fusion）

5. 协同学习（Co-learning）

6. 文本分类应用

6.1 讽刺检测

6.2 情感分类

6.3 情感分析

6.4 假新闻识别

6.5 商品分类

相关

双一流博士整理的计算机视觉学习路线（深度学习+传统图像处理）

深度学习模型训练阶段的加速与优化

深度学习3：波士顿房价预测（2）

深度学习--GAN学习笔记

在深度学习的视觉VISION领域数据预处理的魔法常数magic constant、黄金数值的来历及讨

计算机视觉-生成模型

崂山x牛x预备队第一次直面深度学习

关于华为服务器（样机，处理器：kunpeng920）搭建深度学习环境中的一些问题的记录

第一次深度学习

使用深度学习检测混凝土结构中的表面裂缝

go微服务框架go-micro深度学习-目录

go微服务框架go-micro深度学习-目录

标签