三节课-数据分析师P1笔记

请注意,本文编写于 135 天前,最后修改于 99 天前,其中某些信息可能已经过时。

先说结论:整套课程内容框架挺不错,然而过于宽泛,讲解的知识点比较单薄,2299的价格不推荐各位购买。

课程简介

本门课程为数据分析师系列P1课程,覆盖了中美大型互联网公司(滴滴,微软等)初级数据分析师所必备的知识和技能:SQL、统计、R语言、机器学习、数据探索、Power BI等。通过本门课程的学习,学员可以掌握初级数据分析师所必备的知识和技能,系统性掌握数据分析工作的全流程,并且能够通过所学知识和技能独立的完成真实工作中数据分析项目。
本门课程更侧重于偏技术类型的数据分析师,不涉及较多的业务知识。

课程引入

分析流程

数据分析业务流程
数据分析业务流程

数据分析是一项长期持续性的工作,须得留心每一次的新发现

对问题进行量化

在具体描述问题的时候,可以用基本统计数字和对比的方法。准确可计量感知的数值是进行数据分析的基础

变量类型

变量类型
变量类型

数值变量:值可以取不同的数字,这些值对于 加法、减法、求平均值等操作是有意义的

离散型变量:值只能是自然数或整数,其数值是间断的。相邻两个数值之间不再有其他数值

  • 例:客户问卷评分-0、1、2、3、4、5、6、7、8、9、10

连续型变量:在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割

  • 例:身高-1.52m、1.835m、1.7m…

分类变量:对于上述的操作是没有意义的

有序分类变量:描述事物等级或顺序,变量值可以是数值型或字符型,可以进而比较优劣。

  • 例:对食物的喜欢程度 - 非常爱吃,很爱吃,爱吃,一般般,不喜欢

无序分类变量:取值之间没有顺序差别,仅做分类。

  • 例:男、女

Excel与数据可视化

使用数据:Excel+示例数据

Excel函数

数据处理类Excel函数
数据处理大致可分为数据的清理以及转换,该章节主要讲解以下几个函数

数据处理类Excel函数
数据处理类Excel函数

数据分析类Excel函数
分析类函数,主要指的是用于数据探索阶段,数据建模阶段使用的函数

分析类函数功能表
分析类函数功能表

Average函数
Average函数

Excel透视表

数据透视表是数据分析师在做快速汇报时常用的工具之一,可以帮助分析师快速汇总数据。我们来回忆一下数据透视表的制作步骤:

第一步:选择 "数据透视表" ;
第二步:选择透视表字段;
第三步:选择表格数据的计算类型;
第四步*:选择表格数据的 "值显示方式" ;
第五步 *:对生成的表格进行 "加工" 方便理解;

Excel可视化

我们分析最后得出的结果,是要拿给其他人看的。因此,漂亮简洁的作图会让人更容易了解并接受你得出的结论。

折线图更易看出趋势;
直方图可以反映连续数值变量的分布;
散点图能直观呈现两个数值之间的关系;
柱形图可以直观看出数值在不同群体的分布,
饼图在显示数值比例上有优势,也可以看出各个部分之间的对比差异

Power BI仪表盘

Power BI - data.zip

SQL在数据分析中的应用

文档:电商数据库表结构初识及字段定义详解
SQL文件:电商数据库

SQL基础知识

数据查询与过滤

数据查询:基本数据查询语句 - SELECT
数据过滤:基于条件过滤数据 – WHERE
查询结果处理:查询结果排序 – ORDER BY、选取指定查询结果 - LIMIT、查询结果去重 - DISTINCT

数据聚合

数据聚合-知识要点
数据聚合-知识要点

数据聚合-语句构成
数据聚合-语句构成

数据表间连接

LEFT JOIN
RIGHT JOIN
INNER JOIN

数据增删改

获取数据表信息:DESCRIBE
数据的插入:INSERT INTO
数据的修改:UPDATE SET
数据的删除:DELETE FROM

SQL进阶用法

  1. 符号使用英文半角

    • 逗号:中文长这样“,” —— 英文长这样 “,”
    • 分号:中文长这样“;” —— 英文长这样 “;”
  2. 注意括号的位置和数量
  3. 代码写完要加分号 " ; "

SQL核心语句构成及执行顺序
SQL核心语句构成及执行顺序

子查询作用

  • 构建复杂逻辑,简化需求解答过程
    单行单列过滤条件子查询
  • 子查询语句返回单行单列值作为结果
    多行单列过滤条件子查询
  • 子查询语句返回多行单列值作为结果
    临表子查询
  • 子查询语句返回临时列表 (多行多列) 作为结果

条件判断语句

CASE
WHEN 判定条件 THEN 判定结果
[ WHEN 判定条件 THEN 判定结果 ]
ELSE 默认值
END

* 条件判断语句常用于数据转换,基于现有数据创建新的数据列​​​​​​​​​​​​​​

概率分布

  • 正态分布
  • 二项式分布
  • 连续型均匀分布
  • 泊松分布
  • f分布

值得大家注意的一点是,观察 数据分布 是数据分析师经常做的工作,而概率分布只是各种分布中的一种,换言之,概率分布只是数据分布的一个子集,大家也不要将两者相混淆。​​​​​​​

方差相关概念

方差(variance)
在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。总体方差计算公式:


实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:

标准差(Standard Deviation)
标准差表示的就是样本数据的离散程度,是方差的算数平方根(方差的开平方)。标准差越小,这些值偏离平均值就越少,反之亦然。总体标准差的计算公式为:

经校正后,样本方差计算公式:

【注】在有些书籍和软件中,标准差也会被称作标准方差或标准偏差(Std Dev,Standard Deviation) ,实际上它们表示的都是标准差。
标准误差(Standard error)
标准误差,也称标准误,是指在抽样试验中,样本平均数的标准差。对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。(注意:标准差与标准误差,计算公式类似,但是是两个不同的概念。)标准误差的计算公式为:

标准差与标准误差的区别:

标准差一般用SD/STD(Standard Deviation)表示;而标准误差一般用SE(Standard error)表示。

随着样本数(或测量次数)n的增大,标准差趋向某个稳定值,即样本标准差s越接近总体标准差σ,而标准误差则随着样本数(或测量次数)n的增大逐渐减小,即样本平均数越接近总体平均数μ;故在实验中也经常采用适当增加样本数(或测量次数)使n增大的方法来减小实验误差,但样本数太大意义也不大。

标准差是最常用的统计量,一般用于表示一组样本变量的分散程度;标准误差一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计等。

添加新评论