> 文章列表 > Geospatial Data Science (6): Spatial clustering

Geospatial Data Science (6): Spatial clustering

Geospatial Data Science (6): Spatial clustering

Geospatial Data Science (6): Spatial clustering

1.Clustering, spatial clustering, and geodemographics

本节涉及空间观测的统计聚类。许多问题和主题都是复杂的现象,涉及多个维度,难以归纳为一个单一的变量。在统计学术语中,我们把这一类问题称为多变量,而不是在分析中只考虑单一变量的单变量情况。聚类处理这类问题的方法是降低其维度–分析师需要查看的相关变量的数量,并将其转换为更直观的类集,即使是非技术性的受众也可以查看并理解。出于这个原因,它被广泛用于决策或营销等应用场合。此外,由于这些方法不需要很多关于数据结构的初步假设,它是一种常用的探索性工具,因为它可以迅速提供关于数据集的形状、形式和内容的线索。

统计聚类的基本思想是通过创建相对较少的类别来总结几个变量中包含的信息。然后,数据集中的每个观测值都被分配到一个,而且只有一个类别,这取决于它在分类中最初考虑的变量的值。如果做得正确,这种做法可以减少多维问题的复杂性,同时保留原始数据集中包含的所有有意义的信息。这是因为,一旦分类,分析师只需要看每一个观察结果属于哪个类别,而不是考虑与每个变量相关的多个值,并试图找出如何将它们连贯起来。当对代表地区的观测值进行聚类时,这种技术通常被称为地理人口分析。

尽管存在许多技术来对数据集中的观测值进行统计分组,但所有这些技术都基于这样一个前提,即使用一组属性来定义观测值的类或类别,这些类或类别