GCN数据集Cora、Citeseer、Pubmed文件分析

1 简介

　　本文将对Cora、Citeseer、Pubmed 数据集进行详细介绍

数据集	图	节点	边	特征	标签(y)
Cora	1	2708	5429	1433	7
Citeseer	1	3327	4732	3703	6
Pubmed	1	19717	44338	500	3

　　GCN 文件内容：

　　├── gcn

　　│ ├── data //图数据
　　│ │ ├── ind.citeseer.allx
　　│ │ ├── ind.citeseer.ally
　　│ │ ├── ind.citeseer.graph
　　│ │ ├── ind.citeseer.test.index
　　│ │ ├── ind.citeseer.tx
　　│ │ ├── ind.citeseer.ty
　　│ │ ├── ind.citeseer.x
　　│ │ ├── ind.citeseer.y
　　│ │ ├── ind.cora.allx
　　│ │ ├── ind.cora.ally
　　│ │ ├── ind.cora.graph
　　│ │ ├── ind.cora.test.index
　　│ │ ├── ind.cora.tx
　　│ │ ├── ind.cora.ty
　　│ │ ├── ind.cora.x
　　│ │ ├── ind.cora.y
　　│ │ ├── ind.pubmed.allx
　　│ │ ├── ind.pubmed.ally
　　│ │ ├── ind.pubmed.graph
　　│ │ ├── ind.pubmed.test.index
　　│ │ ├── ind.pubmed.tx
　　│ │ ├── ind.pubmed.ty
　　│ │ ├── ind.pubmed.x
　　│ │ └── ind.pubmed.y
　　│ ├── __init__.py
　　│ ├── inits.py //初始化的公用函数
　　│ ├── layers.py //GCN层定义
　　│ ├── metrics.py //评测指标的计算
　　│ ├── models.py //模型结构定义
　　│ ├── train.py //训练
　　│ └── utils.py //工具函数的定义
　　├── LICENCE
　　├── README.md
　　├── requirements.txt
　　└── setup.py

　　三种数据都由以下八个文件组成，存储格式类似，以cora为例：

ind.dataset_str.x => 训练实例的特征向量，是scipy.sparse.csr.csr_matrix类对象，shape:(140, 1433)
ind.dataset_str.tx => 测试实例的特征向量,shape:(1000, 1433)
ind.dataset_str.allx => 有标签的+无无标签训练实例的特征向量，是ind.dataset_str.x的超集，shape:(1708, 1433)
ind.dataset_str.y => 训练实例的标签，独热编码，numpy.ndarray类的实例，是numpy.ndarray对象，shape：(140, 7)
ind.dataset_str.ty => 测试实例的标签，独热编码，numpy.ndarray类的实例,shape:(1000, 7)
ind.dataset_str.ally => 对应于ind.dataset_str.allx的标签，独热编码,shape:(1708, 7)
ind.dataset_str.graph => 图数据，collections.defaultdict类的实例，格式为 {index：[index_of_neighbor_nodes]}
ind.dataset_str.test.index => 测试实例的id，2157行

　　Cora为例

　　Cora 数据集由机器学习论文组成，是近年来图深度学习很喜欢使用的数据集。在数据集中，论文分为以下七类之一:

基于案例
遗传算法
神经网络
概率方法
强化学习
规则学习
理论

　　论文的选择方式是，在最终语料库中，每篇论文引用或被至少一篇其他论文引用。整个语料库中有2708篇论文。

　　在词干堵塞和去除词尾后，只剩下 1433 个独特的单词。文档频率小于 10 的所有单词都被删除。cora数据集包含 1433 个独特单词，所以特征是 1433 维。0 和 1 描述的是每个单词在 paper 中是否存在。

　　文件组成(cora)：

　　三种数据都由以下八个文件(3类)组成，存储格式类似：

　　x，tx，allx 是特征（转换成array后是独热编码）

- x (维度（140，1433）) 是140 篇论文训练实例的特征向量，ty (维度（1000，1433）)是 1000 篇论文测试实例的特征向量，allx (维度（1708，1433）)是1708 篇论文中有标签的+无无标签训练实例的特征向量，从0-1707，共1708个。　　
- 节点数 = 1000 + 1708 = 2708 （tx 中的1000 和 allx 中的 1708）。

　　y，ty，ally是上面对应标签（独热编码）

- y (维度（140，7）) 是140 篇论文训练实例的标签，ty (维度（1000，7）)是 1000 篇论文测试实例的标签，allx (维度（1708，7）)对应于ind.dataset_str.allx的标签，包含有标签的和无标签的，从0-1707，共1708个

　　graph，test.index

- 总共2708个节点，训练数据仅用了140个，范围是(0, 140)，验证集用了500个，范围是(140, 640]，测试集用了1000个，范围是[1708，2707]，其余范围从[641，1707]的数据集。

　　关于特征代码：

import pickle as pkl

with open("data/ind.cora.x", 'rb') as f:
    data = pkl.load(f, encoding='latin1')
print(type(data)) # 变量data是个scipy.sparse.csr.csr_matrix，类似稀疏矩阵，输出得到的是矩阵中非0的行列坐标及值
print(data.shape) #(140, 1433)-ind.cora.x是140行，1433列的
print(data.shape[0]) #row:140
print(data.shape[1]) #column:1433
nonzero=data.nonzero()
print(nonzero) #输出非零元素对应的行坐标和列坐标
print(type(nonzero)) #
print(nonzero[0]) #行：[ 0 0 0 ... 139 139 139]
print(nonzero[1]) #列：[ 19 81 146 ... 1263 1274 1393]
print(data.toarray())
print(data)

　　变量 data 是个scipy.sparse.csr.csr_matrix，类似稀疏矩阵，输出得到的是矩阵中非 0 的行列坐标及值。也就是说如果该文献如果出现这个单词则其设置为 1 ，类似于one-hot 编码。

　　关于标签代码：

with open("data/ind.cora.y", 'rb') as f:
    print(f)  #<_io.BufferedReader name='data/ind.cora.y'>
    data = pkl.load(f, encoding='latin1')
    print(type(data)) #
    print(data.shape)   #(140, 7)
    print(data.shape[0]) #row:140
    print(data.shape[1]) #column:7
    print(data[1]) #[0 0 0 0 1 0 0]

　　关于边关系代码：

with open("data/ind.cora.graph", 'rb') as f:
        data = pkl.load(f, encoding='latin1')
        print(type(data)) #
        print(data)

　　defaultdict(, {0: [633, 1862, 2582], 1: [2, 652, 654], 2: [1986, 332, 1666, 1, 1454],
　　 , ... ,
　　2706: [165, 2707, 1473, 169], 2707: [598, 165, 1473, 2706]})

编程问题

GCN数据集Cora、Citeseer、Pubmed文件分析

1 简介

Cora为例

相关

标签

　　Cora为例