分类: spark与大数据

文章分类
JVM 3 Java并发 2 spark与大数据 10 spark与机器学习 1 hadoop与大数据 1 nlp 10 知识问答 1 hexo静态博客搭建教程 6 机器学习 8 scala 2 线性代数 4 分布式 2 JavaScript异端邪说 1 作业 10 安卓 4 数据库 1 日记 1 架构设计 2 python 1 系统 1 考试 15 面经 1 语言基础 2 算法 1
                            
                            Spark 大数据入门清单：AHP法分析顾客终身价值得分
                        
                                 什么是 AHP 法
层次分析法（The analytic hierarchy process,简称AHP），也称层级分析法。
层次分析法的基本思路与人对一个复杂的决策问题的思维、判断过程大体上是一样的。比如：

买钢笔，一般要依据质量、颜色、实用性、价格、外形等方面的因素选择某一支钢笔。
假期旅游，是去风光秀丽的苏州，还是去迷人的北戴河，或者是去山水甲天下的桂林，那一般会依据景色、费用、食宿条件
                            
                                2020-03-06
                            
                                    spark与大数据
                                
                            AHP
                        
                            价值
                        
                            Spark 大数据入门清单：RFM方法分析用户评级
                        
                                 什么是 RFM 分析方法
 理论
RFM是3个指标的缩写，最近一次消费时间间隔（Recency），消费频率（Frequency），消费金额（Monetary）。通过这3个指标对用户分类。
用RFM分析方法把用户分为8类，这样就可以对不同价值用户使用不同的营销决策，把公司有限的资源发挥最大的效果，这就是我们常常听到的精细化运营。比如第1类是重要价值用户，这类用户最近一次消费较近，消费频率也高，消费
                            
                                2020-03-05
                            
                                    spark与大数据
                                
                            rfm
                        
                            用户
                        
                            kmeans
                        
                            quantile
                        
                            Spark 大数据入门清单：Local 模式启动 Spark 应用
                        
                                local 模式启动 spark 应用的过程，其实非常简单，只需简单的几步就能完成。
 前言
在上一篇文章中，我们说到：

Local 模式即单机模式，也就是完全体会不到分布式的好处的一种模式。
如果在命令语句中不加任何配置，则默认是 Local 模式，在本地运行。
这也是最简单的一种模式，所有的 Spark 进程都运行在一台机器或一个虚拟机上面。

那么本章，我们一起来看看，如何搭建 Local
                            
                                2020-01-15
                            
                                    spark与大数据
                                
                            spark
                        
                            local
                        
                            java
                        
                            scala
                        
                            python
                        
                            Spark 大数据入门清单：运行环境和模式简介
                        
                                 Spark 的运行环境

spark 2.x 需要 JDK 8
spark 3.0 需要 JDK 11

 Spark 的运行模式
spark 有5中运行模式，Local，Standalone，Yarn，Mesos 和 Kubernetes。

更加具体的来讲，下图[1]中的 Cluster Manager 可以是任意的集群资源管理框架，Spark 自身可以兼容多种 Cluster Manage
                            
                                2020-01-10
                            
                                    spark与大数据
                                
                            spark
                        
                            yarn
                        
                            standalone
                        
                            mesos
                        
                            kubernetes
                        
                            Spark 大数据入门清单：Spark 和 Hadoop 的关系
                        
                                没有关系。
 本文目的
本文的目的是带领您走进 Spark 的世界，认识到一些基本概念，包括：

Hadoop 的 MapReduce、YARN和HDFS等基本概念
Hadoop 的不足
Spark 是什么
Spark 和 Hadoop 共存还是互斥？
Spark 的血缘关系

认识到这个世界的神奇，了解 Spark 都能做什么事情。
 前言
Spark 和 Hadoop 都是大数据处理工具，大数
                            
                                2020-01-09
                            
                                    spark与大数据
                                
                            spark
                        
                            hdfs
                        
                            hadoop
                        
                            yarn
                        
                            血缘关系
                        
                            spark关联规则分析：从经典的购物篮app看数据内在的联系
                        
                                 前言
在 中英双语论文解析：Mining Frequent Patterns without Candidate Generation（挖掘没有候选者生成的频繁模式） 和 Spark大数据第一步：关联规则挖掘须知，什么是支持度、置信度 两篇文章的加持下，我想，现在对于深入理解经典的购物篮关联规则分析的原理已经不再是一件困难的事情。
 代码分析
 数据准备
设 mb 为 market basket
                            
                                2019-07-25
                            
                                    spark与大数据
                                
                            spark
                        
                            python
                        
                            购物篮
                        
                            中英双语论文解析：Mining Frequent Patterns without Candidate Generation（挖掘没有候选者生成的频繁模式）
                        
                                 Abstract 摘要
Mining frequent patterns in transaction databases, time-series databases, and many other kinds of databases has been studied popularly in data mining research. 在数据挖掘研究中普遍研究了在事务数据库，时间序列数据库
                            
                                2019-07-25
                            
                                    spark与大数据
                                
                            spark
                        
                            论文
                        
                            Frequent-Pattern
                        
                            Spark大数据第一步：关联规则挖掘须知，什么是支持度、置信度
                        
                                 概念
在本篇文章中，我将举一个超市购物的例子，来解释频繁模式数据挖掘（frequent pattern mining）和其他相关知识点的概念。[1]
消费者去沃尔玛（Walmart）买东西，把他们想买的东西放进购物篮（baskets）或购物车（cart）里，然后拿到收银台去结账（check out）。以下定义需要我们事先约定：[1:1]

T：消费者购买一系列商品，然后结账，超市存储在自己的收银
                            
                                2019-07-24
                            
                                    spark与大数据
                                
                            spark
                        
                            python
                        
                            support
                        
                            confidence
                        
                            购物篮
                        
                            中英双语论文解析：RDD，基于内存的集群计算容错抽象
                        
                                 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing（RDD：基于内存的集群计算容错抽象）
 Abstract 摘要
We present Resilient Distributed Datasets (RDDs), a distributed memory abs
                            
                                2019-07-18
                            
                                    spark与大数据
                                
                            spark
                        
                            hadoop
                        
                            RDD
                        
                            dataset
                        
                            快：基于docker一键搭建spark单机环境的WordCount APP实现
                        
                                 前言
spark 是一个大数据处理技术栈，广义的spark包括 spark sql，spark shell，HDFS 和 YARN。
本文将向您介绍：

使用使用最快的方式安装 spark
如何快速开发一个字符频数统计（Word count）的小项目
如何使用 docker 管理镜像和容器

 安装 docker
前往https://www.docker.com/注册 docker 账号，登录后
                            
                                2019-07-16
                            
                                    spark与大数据
                                
                            spark
                        
                            python
                        
                            docker
                        
                            wordcount