数据的分类


    我们对数据进行分类至少有两个主要目的,一个是便于查找和统计分析,另一个是便于对事物认知。从数据的角度来讲,枚举数据、参照数据都可以被理解为分类属性。比如,“人员”数据中的“性别”属性,是一个枚举数据。“人员”数据中的“岗位”属性则是一个参照数据。

    数据的分类属性要遵循三个基本原则。

    第一,单一视角。我们不要从多个视角对数据进行分类。比如,对人的分类,我们可以使用性别属性,可以使用血型属性,也可以使用肤色属性,相关的属性可能还包括岗位、职务级别等属性。但是每个属性都有一个自己的独立视角。

    第二,全部覆盖。分类可以将数据的全集包括在内,也就是说,当前已知的和未来可能会产生的数据,应该都可以归类到这个分类体系中。

    第三,不交叉。一条数据在一个分类体系中不会既可以属于 “A”,又可以属于“B”。

    在数据分类过程中出现的常见问题与解决方法如下。

    1.在多视角需求时,制定多个分类方法

    很多人认为一条数据应该只有一种分类属性,从而在设计过程中蒋各种视角放到这一个分类属性中。假如,我们有一个筐,里面装了100个萝卜。如果按照体积分,那么这些萝卜可以分成大萝卜、中萝卜、小萝卜三类;如果按照颜色分,那么这些萝卜可以分成白萝卜、青萝卜、红萝卜;如果按照品种分,那么这些萝卜可以分成白萝卜、心里美和水萝卜。所以,分类方法可以有很多种,每个使用人的需求不同,其使用的分类方法就不同。

    2.在种类繁多的时候,使用多级分类,且避免多重视角

    当分类对象的分类内容量比较大时,我们通常采用多级分类的方法。最典型的场景就是企业对物料的分类,分类内容为几千甚至几万种都较为常见。但是我们要避免在一个分类属性中,包含多种分类方法和视角。比如,第一层按照材料分,第二层按照业务线分,第三层按照品类分。这种分类方法最终会导致分类的混乱和操作的混乱。