数据分析包 - pandas - series
1. series
Series是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成
2. 创建方法
1. pd.Series([4,5,6,7,8]) 2. pd.Series([4,5,6,7,8],index=['a','b','c','d','e']) 3. pd.Series({"a":1,"b":2}) 4. pd.Series(0,index=['a','b','c'])
3. 缺失值处理
dropna() # 过滤掉值为NaN的行 fill() # 填充缺失数据 isnull() # 返回布尔数组,缺失值对应为True notnull() # 返回布尔数组,缺失值对应为False
4. 理解
Series特性 从ndarray创建Series:Series(arr) 与标量(数字):sr * 2 两个Series运算 通用函数:np.ads(sr) 布尔值过滤:sr[sr>0] 统计函数:mean()、sum()、cumsum() 支持字典的特性: 从字典创建Series:Series(dic), In运算:'a'in sr、for x in sr 键索引:sr['a'],sr[['a','b','d']] 键切片:sr['a':'c'] 其他函数:get('a',default=0)等
5. 关于标签(索引)
1. pandas当中使用整数索引取值是优先以标签解释的,而不是下标
可以通过以下来实现:
-
- loc属性 # 以标签解释
- iloc属性 # 以下标解释
sr1.iloc[1] # 以下标解释
sr1.loc[3] # 以标签解释
2. pandas在运算时,会按索引进行对齐然后计算。如果存在不同的索引,则结果的索引是两个操作数索引的并集。
sr1.add(sr3,fill_value=0) # 将sr1与sr2合并,缺失值设为0