什么是集群,营销人员为什么要关心?

对于数据头,介绍了发现客户群的最新方法

最佳集群图1303851

集群现在是营销人员发现新客户群的最新方法

营销人员面临着众多高级分析技术。  R编程 已成为进行高级分析的流行选择,尤其是 聚类 。聚类是一种机器学习算法,可确定应如何将观测数据分组在一起。观察值可以是您用数据表示的任何内容,因此您有机会根据共享特征来学习数据(无论是代表人,产品还是服务)之间的关系。然后,您可以围绕这些特征计划营销。

共有特征

聚类基于给定数据集中观测值的共享统计特征来进行。使用诸如Python或R编程之类的编程语言。在这篇文章中,我使用R来展示一种进行聚类分析的方法。

设置数据分析首先要导入数据,无论是通过csv文件还是通过API将其导入数据库。

在此示例中,我使用的是R内置的一个数据集mtcars,这是R编程提供的车辆规格表。 (R提供了许多数据集,尽管列出的模型很旧。)在mtcars数据中。

检查数据中的异常之后,我开始将库函数应用于这些变量。库是插件程序,使用户可以访问功能,例如数学计算,编程功能或访问令牌,以从帐户中检索数据。已有成千上万个此类库针对数据库平台,社交媒体,地理位置和各种数据源量身定制。  

对于此实例,请使用以下库:

  • 群集–提供群集功能的密钥库
  • Factoextra –允许函数创建K均值图
  • ggplot –用于添加x截距(稍后会详细介绍)
  • Psych –这是一个可选库,根据需要提供集群统计信息

为了开始分析,将数据放置在data.frame中-一个包含数据的变量。数据中的列为空,以集中在与hp和mpg有关的详细信息上。     

其中一些可能在代码中是技术性的,但是营销人员可以提供指导的地方是试验k均值数-数据中应存在的聚类数。

通常会插入一个试验性k均值,然后创建SSE(平方误差总和)值与k均值的关系图。这样做是基于对数据的一些经验和直觉,因为其目的只是作为起点。在这种情况下,我假设有三个潜在的汽车细分市场。)

这是一旦运行k均值并且用ggplot绘制车辆簇时应显示的内容。在这种情况下,每种颜色都会根据与mpg和马力相关的属性显示一组车辆。

Mpghpkmeans3 1303843

下一步是绘制平方误差之和(SSE)对潜在的K均值。 SSE是观察值与观察平均值之间平方差的总和。其目的是测量聚类的准确性–数字越小,结果的变化越少。

事实函数 dviv_nbclust 计算SSE对k均值图。的 几何 ggplot的function显示一个x截距,该截距代表所选的最佳聚类。  

要选择k均值估算值,请沿着曲线从右向左移动,看到SSE减少,直到找到“ S肘”,SSE的减少似乎很小。弯头表示最佳簇数。在此示例中,我将我的k均值选择为5。

最佳集群图1303851

然后,您可以使用所选的k均值重新运行聚类分析。这是数据簇的图形,这一次显示基于等于5的k均值的结果。 

第1303859章

通常,聚类会用一个环绕观察结果的圆圈突出显示。在这种情况下,将使用颜色。在图中,新的分组出现在高于21 mpg /低于100 hp和低于20 mpg /高于200 hp的群集中。这些反映了经理可能希望针对营销理念探索的新细分。

这一发现是集群价值的关键。聚类允许对被忽略的模式和潜在关系进行数据探索。探索是为什么聚类在营销研究中很受欢迎–在许多情况下,有很多数据,但是很少有揭示关联的趋势指标。

有什么机会?

以汽车为例,如果仅根据我的经验检查列出的汽车,我可能会忽略我可以通过新产品或现有产品的变化解决的汽车细分市场。多年来,许多汽车制造商提供了一种旨在涵盖独特细分市场的汽车,并已将mpg和马力等方面用作营销和销售团队的讨论重点。

更重要的是,通过数字分析,群集使用户可以快速将特征链接到业务模型,而不是在给定的维度和指标范围内。与在分析解决方案中看到的默认标签(例如引荐点击量或搜索点击量)相比,营销人员可以推断出要采取的细微差别。    

还有其他使用群集的方法。有一定技术兴趣的营销人员应该关注在线资源,例如 R博客 ,数据科学从业人员在此分享他们的最新发现和技术。

创建高级分析可能具有挑战性,因为建立数据关系的许多初始任务一开始似乎并不明确。但是,诸如群集之类的技术可以使这项工作变得更加容易,并为通过相关产品到达正确的细分市场打开了大门。

最新