# 数据清洗
# 重复数据的处理
# 函数法
countif(统计区域,统计内容)函数:如果想统计countif统计是重复的第几个项目,可以使用countif(初始单元格到当前统计单元格区域,统计内容)统计是第几次重复,例如countif($A$1A2:A2)。
# 高级筛选法
数据选项卡->排序和筛选->高级筛选->选择不重复的数据
# 条件格式法
开始->条件格式->突出单元格规则->重复值
# 数据透视表
插入->插入数据透视表
# 直接删除重复数据
- 方法一:
- 数据->数据工具->删除重复项
- 方法二:
- 通过countif函数,计算出是第几次重复,然后排序删除重复项
- 方法三:
- 通过countif函数,计算出是第几次重复,然后筛选出为1的数据
# 缺失数据的处理
# 定位输入
缺失数据处理的最常用的方法是采用定位功能,可用ctrl+g快捷键,或开始->编辑->查找和选择->定位条件。我们一般使用四种方法处理缺失值:
- 使用样本统计量的值替代缺失值,一般是采用样本的平均值
- 用一个统计模型计算出来值去替代缺失值。常用的模型有回归模型、判别模型等,需用专业的数据分析软件
- 将缺失值的记录删除,不过会导致样本量减少
- 讲缺失值记录保存,但在统计分析时排除,当样本统计量比较大,但是缺失值不多时可以使用
- Ctrl +Enter按键可以在选中的不规则单元格中批量填入同一数据
# 查找替换
- 查找的快捷键:Ctrl+F
- 替换的快捷键:Ctrl+H
# 检查数据逻辑错误
- IF函数:=If(logic, true,false)
- OR函数:or(条件1,条件2)满足其中一个条件为true
- AND函数:AND(条件一,条件二吗。。。)全部满足为true
- 利用条件格式标记错误:开始->条件格式->突出显示单元格规则->其他规则->使用公式确定 要设置格式单元格
# 数据加工
# 数据抽取
# 字段分列
- 在数据->数据工具->分列->文本分列导向
- left函数和right函数截取,可配分find函数确定指定的字符
# 字段合并
- 使用“&”符号可链接字符
- text函数可以把数值转换陈文本,例如“10%”直接使用&符号连接会变为0.1
- clean可以清除非打印的字符串
- concatenate函数,与&符号同样的效果
# 字段匹配
# 数据计算
# 简单的计算
简单的加减乘除可以使用“=单元格 +|-|*|/ 单元格来实现
# 函数计算
- 平均值Average
- 求和Sum
- 日期加减函数
- 当前年月日:today函数(快捷键Ctrl+;)
- 当前时分:Ctrl+Shift+;
- 当前完整日期:now函数(快捷键Ctrl+; 然后按空格,在按Ctrl+Shift+;)
- date函数加减时间:给2011/1/1的单元格加上3年2月和1天,可用函数表达为=date(year(日期单元格)+3,month(日期单元格)+2,day(日期单元格)+1)
- dateif函数
# 数据分组
- vlookup函数的模糊匹配,寻找接近但不大于阈值的值
# 数据转换
# 行列转置
- 方法一:选中数据,复制,然后右键选择粘贴,转置
- 方法二:“ctrl+alt+v”会弹出选择粘贴框
# 数据抽样
随机抽样需要随机数,这时可以用rand函数获取一个0~1的随机数,可以是用int(rand()*区间长度+起始区间)来获取一个区间的整数。