Lingmoumou's Blog

きっといつかって愿うまま

0%

git remote上传到远程代码库:第一次上传

1.初始化git版本库:git init

2.添加文件到本地库:git add .

3.提交文件到本地库:git commit -m "msg(提交日志)"
重要提示:2、3可合并(git commit -am ""

4.关联远程库:git remote add origin(可修改) branch_Name(为空时默认为master) url
关联之后可以用git remote -v来检查是否关联成功

5.一般情况需要先pull一下:git pull origin master
一般情况下含有共同文件时需要执行 git merge origin/master --allow-unrelated-histories,这之后解决一下冲突

6.push到远程库:git push -u origin master

任务

理论部分

  • 相关概念
    • 生成模型
    • 判别模型
  • 朴素贝叶斯基本原理
    • 条件概率公式
    • 乘法公式
    • 全概率公式
    • 贝叶斯定理
    • 特征条件独立假设
    • 后验概率最大化
    • 拉普拉斯平滑
  • 朴素贝叶斯的三种形式
    • 高斯型
    • 多项式型
    • 伯努利型
  • 极值问题情况下的每个类的分类概率
  • 下溢问题如何解决
  • 零概率问题如何解决
  • sklearn参数详解

练习部分

https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task6_bayes_plus.ipynb

  • 利用sklearn解决聚类问题。
  • sklearn.naive_bayes.GaussianNB
阅读全文 »

任务

理论部分

  • 相关概念
    • 无监督学习
    • 聚类的定义
  • 常用距离公式
    • 曼哈顿距离
    • 欧式距离
    • 闵可夫斯基距离
    • 切比雪夫距离
    • 夹角余弦
    • 汉明距离
    • 杰卡德相似系数
    • 杰卡德距离
  • K-Means聚类:聚类过程和原理、算法流程、算法优化(k-means++、Mini Batch K-Means)
  • 层次聚类:Agglomerative Clustering过程和原理
  • 密度聚类:DBSCAN过程和原理
  • 谱聚类:谱聚类原理(邻接矩阵、度矩阵、拉普拉斯矩阵、RatioCut、Ncut)和过程
  • 高斯混合聚类:GMM过程和原理、EM算法原理、利用EM算法估计高斯混合聚类参数
  • sklearn参数详解

练习部分

https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task5_cluster_plus.ipynb

  • 利用sklearn解决聚类问题。
  • sklearn.cluster.KMeans
阅读全文 »

任务

理论部分

  • 特征选择:信息增益(熵、联合熵、条件熵)、信息增益比、基尼系数
  • 决策树生成:ID3决策树、C4.5决策树、CART决策树(CART分类树、CART回归树)
  • 决策树剪枝
  • sklearn参数详解

练习部分

https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task4_decision_tree.ipynb

利用sklearn解决分类问题和回归预测。

  • sklearn.tree.DecisionTreeClassifier
  • sklearn.tree.DecisionTreeRegressor
阅读全文 »

任务

理论部分

  • 逻辑回归与线性回归的联系与区别
  • 模型建立:逻辑回归原理、逻辑回归模型
  • 学习策略:逻辑回归损失函数、推导及优化
  • 算法求解:批量梯度下降
  • 正则化与模型评估指标
  • 逻辑回归的优缺点
  • 样本不均衡问题
  • sklearn参数详解

练习部分

https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task3_logistic_regression.ipynb

  • 利用sklearn解决分类问题
  • sklearn.linear_model.LogisticRegression
  • 利用梯度下降法将相同的数据分类,画图和sklearn的结果相比较
  • 利用牛顿法实现结果,画图和sklearn的结果相比较,并比较牛顿法和梯度下降法迭代收敛的次数
阅读全文 »

任务

理论部分

  • 模型建立:线性回归原理、线性回归模型
  • 学习策略:线性回归损失函数、代价函数、目标函数
  • 算法求解:梯度下降法、牛顿法、拟牛顿法等
  • 线性回归的评估指标
  • sklearn参数详解

理论部分

https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task2_Linear_regression.ipynb

  • 基于线性回归的房价预测问题
  • 利用sklearn解决回归问题
  • sklearn.linear_model.LinearRegression
阅读全文 »

任务

理论部分

  • 机器学习介绍:机器学习是什么,怎么来的,理论基础是什么,为了解决什么问题。
  • 机器学习分类:
    • 按学习方式分:有监督、无监督、半监督
    • 按任务类型分:回归、分类、聚类、降维 生成模型与判别模型
  • 机器学习方法三要素:
    • 模型
    • 策略:损失函数
    • 算法:梯度下降法、牛顿法、拟牛顿法
    • 模型评估指标:R2、RMSE、accuracy、precision、recall、F1、ROC、AUC、Confusion Matrix
    • 复杂度度量:偏差与方差、过拟合与欠拟合、结构风险与经验风险、泛化能力、正则化
    • 模型选择:正则化、交叉验证
    • 采样:样本不均衡
    • 特征处理:归一化、标准化、离散化、one-hot编码
    • 模型调优:网格搜索寻优、随机搜索寻优
阅读全文 »

公司采用HDP的大数据平台,周六周日突然停电后,周一上班通过ambari发现组件heartbeat都lost。查了一圈,发现应该是正好碰到了低版本HDP的bug。下面是实践后有效的解决方式。

阅读全文 »