0%

数据分析第三步--数据处理

# 数据清洗

# 重复数据的处理

# 函数法

  countif(统计区域,统计内容)函数:如果想统计countif统计是重复的第几个项目,可以使用countif(初始单元格到当前统计单元格区域,统计内容)统计是第几次重复,例如countif($A$1A2:A2)。

# 高级筛选法

  数据选项卡->排序和筛选->高级筛选->选择不重复的数据

# 条件格式法

  开始->条件格式->突出单元格规则->重复值

# 数据透视表

  插入->插入数据透视表

# 直接删除重复数据

  • 方法一:
    • 数据->数据工具->删除重复项
  • 方法二:
    • 通过countif函数,计算出是第几次重复,然后排序删除重复项
  • 方法三:
    • 通过countif函数,计算出是第几次重复,然后筛选出为1的数据

# 缺失数据的处理

# 定位输入

  缺失数据处理的最常用的方法是采用定位功能,可用ctrl+g快捷键,或开始->编辑->查找和选择->定位条件。我们一般使用四种方法处理缺失值:

  1. 使用样本统计量的值替代缺失值,一般是采用样本的平均值
  2. 用一个统计模型计算出来值去替代缺失值。常用的模型有回归模型、判别模型等,需用专业的数据分析软件
  3. 将缺失值的记录删除,不过会导致样本量减少
  4. 讲缺失值记录保存,但在统计分析时排除,当样本统计量比较大,但是缺失值不多时可以使用
  • Ctrl +Enter按键可以在选中的不规则单元格中批量填入同一数据

# 查找替换

  • 查找的快捷键:Ctrl+F
  • 替换的快捷键:Ctrl+H

# 检查数据逻辑错误

  • IF函数:=If(logic, true,false)
  • OR函数:or(条件1,条件2)满足其中一个条件为true
  • AND函数:AND(条件一,条件二吗。。。)全部满足为true
  • 利用条件格式标记错误:开始->条件格式->突出显示单元格规则->其他规则->使用公式确定 要设置格式单元格

# 数据加工

# 数据抽取

# 字段分列

  • 在数据->数据工具->分列->文本分列导向
  • left函数和right函数截取,可配分find函数确定指定的字符

# 字段合并

  • 使用“&”符号可链接字符
  • text函数可以把数值转换陈文本,例如“10%”直接使用&符号连接会变为0.1
  • clean可以清除非打印的字符串
  • concatenate函数,与&符号同样的效果

# 字段匹配

# 数据计算

# 简单的计算

  简单的加减乘除可以使用“=单元格 +|-|*|/ 单元格来实现

# 函数计算

  • 平均值Average
  • 求和Sum
  • 日期加减函数
    • 当前年月日:today函数(快捷键Ctrl+;)
    • 当前时分:Ctrl+Shift+;
    • 当前完整日期:now函数(快捷键Ctrl+; 然后按空格,在按Ctrl+Shift+;)
    • date函数加减时间:给2011/1/1的单元格加上3年2月和1天,可用函数表达为=date(year(日期单元格)+3,month(日期单元格)+2,day(日期单元格)+1)
    • dateif函数

# 数据分组

  • vlookup函数的模糊匹配,寻找接近但不大于阈值的值

vlook函数

# 数据转换

# 行列转置

  • 方法一:选中数据,复制,然后右键选择粘贴,转置
  • 方法二:“ctrl+alt+v”会弹出选择粘贴框

# 数据抽样

  随机抽样需要随机数,这时可以用rand函数获取一个0~1的随机数,可以是用int(rand()*区间长度+起始区间)来获取一个区间的整数。