大数据测试 大数据测试的一些基础面试题分享

威猛的柴可夫 · 2025年11月12日 · 227 次阅读

因为没有业务场景所以没有给整段 ETL 分析的题目,以下问题都是过往问过的,不算太难,个别问题也没有专业性答案,一般用来考察思维能力和表达以及垂直行业经验。

1.1 Join 用法
请简述 SQL 中 inner join、left join、right join、full join 的区别,并举例说明各自的典型应用场景。
两张大表 join 时,如何优化性能?有哪些常见的陷阱?
1.2 关联过滤方式
关联查询时,直接在 on 条件中加 and 过滤和 join 后再用 where 过滤,有什么区别?请举例说明可能导致的结果差异。
1.3 开窗函数
什么是 SQL 开窗函数?请举例说明 row_number、rank、dense_rank、sum over、lag/lead 的典型用法。
请写出一个 SQL,统计每个用户最近三天的累计访问次数。
字段 user_id ,visit_date,visit_cnt 表 user_visit

2.1 离线与实时
离线数仓和实时数仓的主要区别是什么?各自适合哪些场景?怎么理解实时流的无序?
怎么理解实时查询和实时数据?
离线和实时数据测试的关注点有何不同?如何设计测试用例和自动化脚本?
2.2 数据一致性与对比
如何对比离线和实时两套链路的结果一致性?如果发现离线和实时结果不一致,你会如何定位和排查?

大数据测试如何与后端接口测试结合?比如如何校验接口返回的数据和数仓中的数据一致?
如何设计端到端的自动化测试流程,覆盖从数据采集、处理、入库到接口/前端展示的全链路

前端页面展示的数据和底层数据表不一致时,如何定位问题?
你如何验证前端展示的统计指标和大数据平台的计算结果一致?

请谈谈你对数据质量的理解,如何设计数据质量监控体系?

实操:
查询每个用户最近一笔订单的金额 (user_id, order_amount,orders_time 表:orders)
用 SQL 统计每个商品每天的销售额环比增长率。(goods_id,sale_date,sales 表:daily_sales)
用 SQL 实现分组取 TopN 的场景,比如每个城市销量前 3 的商品。(city, goods_id, sales 表:city_goods_sales)

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册