数据分析包 - pandas - series


1. series

  Series是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成

2. 创建方法

1. pd.Series([4,5,6,7,8])
2. pd.Series([4,5,6,7,8],index=['a','b','c','d','e'])
3. pd.Series({"a":1,"b":2})
4. pd.Series(0,index=['a','b','c'])

3. 缺失值处理

dropna() # 过滤掉值为NaN的行
fill() # 填充缺失数据
isnull() # 返回布尔数组,缺失值对应为True
notnull() # 返回布尔数组,缺失值对应为False

4. 理解

Series特性

从ndarray创建Series:Series(arr)
与标量(数字):sr * 2
两个Series运算
通用函数:np.ads(sr)
布尔值过滤:sr[sr>0]
统计函数:mean()、sum()、cumsum()
支持字典的特性:

从字典创建Series:Series(dic),
In运算:'a'in sr、for x in sr
键索引:sr['a'],sr[['a','b','d']]
键切片:sr['a':'c']
其他函数:get('a',default=0)等

5. 关于标签(索引)

1. pandas当中使用整数索引取值是优先以标签解释的,而不是下标
  可以通过以下来实现:
    •   loc属性 # 以标签解释
    •   iloc属性 # 以下标解释

   sr1.iloc[1] # 以下标解释

   sr1.loc[3] # 以标签解释

 2. pandas在运算时,会按索引进行对齐然后计算。如果存在不同的索引,则结果的索引是两个操作数索引的并集。

  sr1.add(sr3,fill_value=0) # 将sr1与sr2合并,缺失值设为0