Python自然语言处理
Python自然语言处理
- 标注、分类、信息提取
- 句子、识别句法结构和构建表示句意的方法
nltk库
简单的统计
- 计数
词类型 - 频率分布
文本中每一个词项的概率,查找高频词
使用本地编码
# -*- coding: utf-8 -*-
分词
分类和标注词汇
标注语料库
- 名词
- 动词
- 形容词和副词
从文本提取信息
信息提取
? 结构化数据:实体和关系的可预测的规范的结构。
非结构化数据》结构化数据
文本数据》表格类型
信息提取结构
以原始文本作为输入,生成(entity,relation,entity)元组的一个链表作为输出。
例如:假设一个文档表明Georgia
-Pacific公司位于Atlanta,它可能产生元组(【ORG:'Georgia-Pacific'】'in'【LOC:'Atla nta'】)。
建立基于特征的文法
附:XML