短信预约提醒成功
由于统计、控制、可共享性等原因,不同的数据源在数据粒度和数据质量保证方面存在很大差异。根据数据源的通道,可以分为内部数据和外部数据。分别介绍了它们的特点和区别。
一、有哪些常见的数据来源——内部数据源
业务数据:主要是指后台研发中主动存储的业务数据,一般是公司运营的核心数据,如订单数据、用户信息等,这些数据的准确性一般最高,因为往往关系到公司产品的正常运营,统计数据的正确性也至关重要;
埋点数据:由于埋点实现、统计上传机制等原因,用户通过埋点技术采集的埋点数据精度远低于业务数据;
数据仓库数据:数据仓库数据是从生产数据库经过一轮或多轮的数据转换。中间可能有比生产数据库数据更多的异常情况。如:无人维护、转换逻辑和理解不一致等。
对于三种类型的数据源:业务数据、嵌入式点数据和数据仓库数据,我们的检查重点不同:
业务数据:业务数据的复杂性主要体现在字段的含义、表与表的关系、字段与业务的实际对应关系等方面,并进行检查;
埋点数据:埋点数据主要需要检查埋点是否与预期的业务事件匹配,包括是否通过页面访问或点击按钮采集埋点,埋点采集时间等;
数据仓库数据:主要了解业务指标的统计逻辑、计算转换逻辑、脚本更新机制等。
二、有哪些常见的数据来源——外部数据源
用户调研数据:通过市场调研获取用户反馈数据,风险主要表现在市场调研人员的敷衍执行、数据的自我捏造和被调研对象的自我判断失误;
行业发展数据:来自百度指数、微信指数、阿里指数等行业观察机构的数据,观察行业发展情况;
合作方数据:合作方提供的数据可能在不同公司之间的指标定义和统计规范上存在明显差异,需要重点关注。此外,两家公司之间的用户匹配也是一大难题,需要重点关注。
外部数据源的数据粒度一般比较粗糙,数据质量难以保证,需要更多的观察和验证。我们只能在使用中保持更高的警惕,更小心地避免错误。
以上就是《有哪些常见的数据来源?数据分析师再不知道来源就晚了》的全部内容,从文字中我们可以看到,由于统计、控制、可共享性等原因,不同的数据源在数据粒度和数据质量保证方面存在很大差异。如果你想学习更多数据分析知识,可以点击下方资料下载链接。