首页
/ WhereHows项目与Looker数据集成配置指南

WhereHows项目与Looker数据集成配置指南

2025-07-06 05:50:43作者:咎竹峻Karen

前言

在企业数据治理领域,WhereHows作为LinkedIn开源的元数据管理平台,能够有效整合来自不同数据源的元数据信息。本文将详细介绍如何配置WhereHows平台与Looker商业智能工具的集成,实现Looker元数据的自动化采集。

准备工作

1. Looker API访问权限配置

1.1 登录Looker实例

首先使用管理员账号登录您的Looker实例,通常访问地址格式为:https://<your-looker-instance-name>.cloud.looker.com

1.2 创建权限集

  1. 进入"管理面板" → "角色"
  2. 点击"新建权限集"
  3. 命名为"DataHub连接器权限集"
  4. 勾选以下关键权限:
    • 数据访问权限(access_data)
    • LookML仪表板查看权限(see_lookml_dashboards)
    • 查询查看权限(see_sql)
    • 模型管理权限(manage_models)
    • 系统活动查看权限(see_system_activity)

技术提示:这些权限确保了WhereHows能够完整获取Looker中的元数据信息,包括仪表板、查询、模型等关键组件。

1.3 创建角色

  1. 返回"角色"面板
  2. 点击"新建角色"
  3. 命名为"DataHub提取器"
  4. 关联上一步创建的权限集
  5. 设置模型集为"全部"

1.4 创建专用用户

  1. 进入"用户"管理面板
  2. 添加新用户
  3. 设置有效的邮箱地址
  4. 分配刚创建的"DataHub提取器"角色

1.5 生成API密钥

  1. 进入新创建的用户详情页
  2. 点击"编辑密钥"
  3. 生成新的API密钥
  4. 记录生成的客户端ID和客户端密钥

安全建议:建议将此API密钥存储在安全的密码管理工具中,避免直接暴露在配置文件中。

2. LookML元数据采集配置

2.1 生成SSH密钥对

在终端执行以下命令生成密钥对:

ssh-keygen -t rsa -b 4096 -f looker_datahub_deploy_key -N ""

这将生成:

  • 私钥文件:looker_datahub_deploy_key
  • 公钥文件:looker_datahub_deploy_key.pub

2.2 配置GitHub部署密钥

  1. 登录GitHub仓库
  2. 进入"Settings" → "Deploy keys"
  3. 添加新的部署密钥
  4. 粘贴公钥内容(.pub文件)
  5. 勾选"Allow read access"选项

技术实现原理

WhereHows通过Looker的API接口获取以下元数据信息:

  1. 模型元数据:包括Explore、View等LookML模型定义
  2. 仪表板信息:获取仪表板结构和使用情况
  3. 查询历史:分析用户查询模式
  4. 数据血缘:通过SQL解析建立数据血缘关系

常见问题排查

  1. 权限不足错误

    • 检查是否遗漏了必要的权限项
    • 确认角色是否正确关联了权限集
  2. API连接失败

    • 验证API密钥是否有效
    • 检查Looker实例URL是否正确
  3. GitHub访问问题

    • 确认部署密钥是否有读取权限
    • 检查私钥格式是否正确

后续步骤

完成上述配置后,您需要在WhereHows的配置文件中设置以下参数:

  • Looker API端点
  • 客户端ID和密钥
  • GitHub私钥内容
  • 目标仓库地址

这些配置将使WhereHows能够定期从Looker提取最新的元数据信息,构建完整的企业数据资产目录。

最佳实践建议

  1. 建议设置专用的服务账号用于元数据采集
  2. 定期轮换API密钥以提高安全性
  3. 对于大型Looker实例,考虑分批次采集元数据
  4. 监控元数据采集作业的执行情况

通过本文介绍的配置方法,企业可以建立起Looker与WhereHows之间的元数据通道,为数据治理和分析提供坚实基础。