0%

数据分析第二步--数据收集

# 数据的构造

# 字段与记录

  字段是事务或现象的某种特征。比如成绩表中的“学号”,“姓名”,“总分”等都是字段,在统计学中成为变量

  记录是事务或现象等具体表现,比如沉寂表中的“性别”可以是男或女,“总分”可以是“237”或“230”等,记录也成为数据或量值。

# 数据类型

  数据类型一般分为字符型和数值型数据

  字符型数据是不具备计算能力等文字型数据,包括中文英文、数字字符(例如订单编号这类非数值型数据)等字符。例如成绩表中的“姓名”,“性别”,“总评”三个变量均为字符型数据。

  数值型数据是直接使用自然数或者度量单位进行计量的数据值,例如成绩表中“语文”,“数学”成绩计算得出总分这个字段,数值型数据可以用算数方法进行汇总和分析,这一点是区分数据是否属于数值型数据的重要依据。

# 统计方法差异

  • 连续型变量:能做频数分析、集中趋势分析(均值、众数,中位数)、离散程度分析(标准差、方差、最大值、最小值、范围)
  • 非连续型变量:主要能做频数分析

# 数据表

  数据表是由字段、记录和数据类型构成的数据表。数据表的要求一般要为后续数据分析做长远的考虑与规划。

基本要求如下:

  1. 数据表要由标题行和数据部分组成
  2. 第一行是表的列标题(字段名),列标题不能重复
  3. 第二行起是数据部分,数据部分一行成为一个记录,数据部分不允许出现空白行和和空白列
  4. 数据表中不能有合并的单元格存在
  5. 数据表与其他数据之间至少留出一个空白行或者空白列
  6. 数据表要以一位的形式存储,实际过程中常常以二维的形式存在,此时要将二维表转换成一位表

# 数据来源

# 文本或数据表导入

   以EXCEL为例,可在数据选项卡中选中导入csv或txt文本文件、或excel表格内的数据,甚至可以使用导入网站简单的数据表

# 数据埋点

  如uv/pv、用户数、用户停留时间、浏览页面等用户行为数据

# 第三方数据平台

  如Growing IO、SimilarWeb,Google Analytics,国家统计局网站

# 问卷调查

  • 线上问卷调查,制作问卷工具:如问卷星
  • 线下问卷调查
  • 电话回访

# 问卷调查的题目类型

  • 数值题,一般要求填入具体的数值,例如时间,或者评分等等
  • 单选题,一般单选题的答案只能有一个,因此只需留下一个字段记录即可
  • 多选题
  • 排序题
  • 开放性问题