利用GEE与Python实现地铁站周边POI空间分析-代码聚汇网

利用GEE与Python实现地铁站周边POI空间分析

张颖月

1. 项目背景与核心需求

在地理空间分析领域，经常需要处理点与面之间的空间关系查询。这个项目要解决的实际问题是：如何快速找出每个地铁站周边500米范围内的酒吧分布情况。这类分析在城市规划、商业选址和公共服务设施布局中都有广泛应用。

Google Earth Engine（GEE）作为一个强大的地理空间分析云平台，结合Python的灵活编程能力，可以高效完成这种空间查询任务。相比传统GIS软件，GEE的优势在于：

无需下载海量地理数据
利用云端计算资源处理大规模空间分析
内置丰富的空间运算算法
支持Python API进行复杂逻辑实现

核心的技术挑战在于：

准确获取地铁站和酒吧的POI（兴趣点）数据
建立500米的缓冲区范围
执行空间交集查询
可视化展示查询结果

2. 数据准备与GEE环境配置

2.1 数据源选择

对于地铁站和酒吧数据，可以考虑以下几种获取方式：

OpenStreetMap数据：

python复制# 从OSM获取地铁站数据示例
metro_stations = ee.FeatureCollection('projects/google/OpenStreetMap/points')
  .filter(ee.Filter.eq('railway', 'station'))

# 获取酒吧数据
bars = ee.FeatureCollection('projects/google/OpenStreetMap/points')
  .filter(ee.Filter.eq('amenity', 'bar'))

政府公开数据：
许多城市会公开交通设施点位数据，可以上传到GEE作为资产
商业POI数据：
如有权限，可将商业POI数据上传至GEE私有资产

提示：使用OSM数据时要注意数据完整性和时效性，大城市数据通常较新，小城市可能更新不及时

2.2 GEE Python环境配置

安装必要的Python包：

bash复制pip install earthengine-api geemap pandas

认证GEE账号：

python复制import ee
ee.Authenticate()
ee.Initialize()

测试连接：

python复制print(ee.Image('NASA/NASADEM_HGT/001').get('title').getInfo())
# 应返回 'NASADEM: NASA Digital Elevation Model'

3. 核心空间分析实现

3.1 创建缓冲区

在GEE中创建缓冲区的关键步骤：

python复制def create_buffer(point_feature, radius):
    """
    为单个点要素创建缓冲区
    :param point_feature: ee.Feature 点要素
    :param radius: 缓冲区半径（米）
    :return: ee.Feature 面要素
    """
    return point_feature.buffer(radius)

# 为所有地铁站创建500米缓冲区
metro_buffers = metro_stations.map(lambda f: create_buffer(f, 500))

3.2 空间查询实现

执行空间交集的两种方法：

方法1：使用空间连接

python复制# 定义空间连接函数
def spatial_join(metro_feature):
    buffer = metro_feature.geometry().buffer(500)
    bars_in_buffer = bars.filterBounds(buffer)
    return metro_feature.set('bar_count', bars_in_buffer.size())

# 执行查询
result = metro_stations.map(spatial_join)

方法2：使用距离计算

python复制def find_nearby_bars(metro_feature):
    metro_point = metro_feature.geometry()
    # 计算每个酒吧到地铁站的距离
    bars_with_dist = bars.map(lambda bar: bar.set(
        'distance', metro_point.distance(bar.geometry())
    ))
    # 筛选500米内的酒吧
    nearby_bars = bars_with_dist.filter(ee.Filter.lte('distance', 500))
    return metro_feature.set({
        'bar_count': nearby_bars.size(),
        'bars': nearby_bars
    })

result = metro_stations.map(find_nearby_bars)

3.3 性能优化技巧

批量处理：

python复制# 分批处理大型数据集
batch_size = 100
batches = metro_stations.toList(metro_stations.size()).batch(batch_size)

def process_batch(batch):
    return ee.FeatureCollection(batch).map(find_nearby_bars)

results = batches.map(process_batch)

空间索引利用：

python复制# 建立空间索引
spatial_filter = ee.Filter.intersects(
    leftField='.geo',
    rightField='.geo',
    maxError=10
)

内存管理：

python复制# 限制返回结果数量
result = result.limit(1000)

4. 结果可视化与分析

4.1 基础可视化

使用geemap库进行交互式地图展示：

python复制import geemap

Map = geemap.Map()
Map.addLayer(metro_stations, {'color': 'red'}, 'Metro Stations')
Map.addLayer(metro_buffers, {'color': 'blue', 'opacity': 0.3}, '500m Buffers')
Map.addLayer(bars, {'color': 'green'}, 'Bars')
Map

4.2 高级可视化技巧

热力图展示：

python复制# 将结果转换为点密度热力图
bar_density = ee.FeatureCollection(result).reduceToImage(
    properties=['bar_count'],
    reducer=ee.Reducer.first()
)

Map.addLayer(bar_density, {
    'min': 0,
    'max': 10,
    'palette': ['white', 'blue', 'green', 'yellow', 'red']
}, 'Bar Density')

聚类展示：

python复制from ipyleaflet import MarkerCluster

# 将GEE结果转为GeoJSON
bars_json = geemap.ee_to_geojson(bars.limit(1000))

cluster = MarkerCluster(
    markers=[Marker(location=tuple(reversed(f['geometry']['coordinates']))) 
            for f in bars_json['features']]
)
Map.add_layer(cluster)

4.3 统计分析

计算基本统计指标：

python复制# 获取酒吧数量统计
stats = result.aggregate_stats('bar_count').getInfo()

print(f"""
统计结果：
- 平均每个地铁站周边酒吧数：{stats['mean']:.1f}
- 最大值：{stats['max']}（位于{result.filter(ee.Filter.eq('bar_count', stats['max'])).first().get('name').getInfo()}）
- 最小值：{stats['min']}
- 标准差：{stats['std_dev']:.1f}
""")

5. 实际应用中的问题与解决方案

5.1 数据质量问题

常见问题：

OSM数据不完整
坐标系统不一致
属性字段缺失

解决方案：

python复制# 数据清洗示例
def clean_metro_data(feature):
    # 确保有几何信息
    geom = feature.geometry()
    # 确保有名称属性
    name = ee.String(feature.get('name', '未知'))
    return feature.setGeometry(geom).set('name', name)

cleaned_metro = metro_stations.map(clean_metro_data)

5.2 性能瓶颈

问题表现：

查询超时
内存不足
计算速度慢

优化策略：

使用filterBounds先进行空间筛选
限制返回结果数量
分批处理大数据集

python复制# 优化后的查询函数
def optimized_query(metro_feature):
    buffer = metro_feature.geometry().buffer(500)
    # 先进行空间筛选
    bars_candidate = bars.filterBounds(buffer)
    # 再精确计算距离
    bars_nearby = bars_candidate.filter(
        ee.Filter.lt('distance', metro_feature.distance(500))
    )
    return metro_feature.set('bar_count', bars_nearby.size())

5.3 坐标系统处理

确保所有数据使用相同的坐标系统：

python复制# 统一使用WGS84坐标系统
def ensure_wgs84(feature):
    return feature.setGeometry(feature.geometry().transform('EPSG:4326'))

metro_stations = metro_stations.map(ensure_wgs84)
bars = bars.map(ensure_wgs84)

6. 项目扩展与应用

6.1 扩展到其他POI类型

同样的方法可以用于分析：

地铁站周边的餐馆密度
学校周边的便利店分布
医院周边的药店覆盖

只需修改过滤条件：

python复制# 查询地铁站周边的餐馆
restaurants = ee.FeatureCollection('projects/google/OpenStreetMap/points')
    .filter(ee.Filter.eq('amenity', 'restaurant'))

6.2 动态缓冲区分析

实现根据人口密度动态调整缓冲区半径：

python复制# 假设有人口密度栅格数据
population = ee.Image('WorldPop/GP/100m/pop')

def dynamic_buffer(feature):
    point = feature.geometry()
    density = population.reduceRegion(
        reducer=ee.Reducer.mean(),
        geometry=point,
        scale=100
    ).get('population')
    # 人口密度越高，缓冲区越小
    radius = ee.Number(500).subtract(ee.Number(density).multiply(0.1))
    return feature.buffer(radius.max(200))  # 最小200米

6.3 时间序列分析

分析酒吧分布随时间的变化：

python复制# 假设有不同年份的OSM数据
osm_2015 = ee.FeatureCollection('projects/google/OpenStreetMap/points_2015')
osm_2020 = ee.FeatureCollection('projects/google/OpenStreetMap/points_2020')

def compare_years(metro_feature):
    buffer = metro_feature.geometry().buffer(500)
    bars_2015 = osm_2015.filterBounds(buffer).filter(ee.Filter.eq('amenity', 'bar'))
    bars_2020 = osm_2020.filterBounds(buffer).filter(ee.Filter.eq('amenity', 'bar'))
    
    return metro_feature.set({
        'count_2015': bars_2015.size(),
        'count_2020': bars_2020.size(),
        'change': bars_2020.size().subtract(bars_2015.size())
    })

在实际项目中，我发现有几个关键点需要特别注意：

OSM数据在不同地区的完整性差异很大，大城市数据质量通常较好，小城市可能需要补充其他数据源
进行大规模空间查询时，一定要先进行空间筛选（filterBounds），再进行精确距离计算，否则性能会很差
可视化时注意图层叠加顺序，建议按点-线-面的顺序添加，避免遮挡重要信息

一个实用的调试技巧是先用少量数据测试整个流程，比如先处理5个地铁站，确认逻辑正确后再扩展到全量数据。这样可以节省大量等待时间。