作业二 | Tableau可视化分析 | 疫情防控

摘要 ​ 通过计算深圳市的新型冠状病毒肺炎疫情的相关数据;研究深圳市的疫情发展趋势;为政府疫情防控及相关政策制定提供重要参考。 关键词:新冠肺炎;温度;药物;疫情防控 一、背景与目标任务

问题背景

​ 2020年,新冠病毒肆虐。疫情发生以来,全国上下步调一致、众志成城、共抗疫情。全民抗疫的同时,民众需要一个能够知晓当前疫情情况的可视化报告,以此充分了解全国各地乃至全世界的疫情形势。本文综合运用Tableau图表、Python数据处理等技术,制作疫情趋势与药物等图,用可视化的方式直观形象地呈现疫情数据,让民众更加直观清晰地获取关键的疫情信息。

任务目标分析

​ 疫情数据分析是对疫情期间的药品购买与购买者信息数据进行分析,从而制定相应的策略。 ​ 数据反映了2020年2月-7月深圳市部分区县的药品售出与购买者信息数据,共两张表,分别是疫情防控表(主表)、购药名称(单品)表。其中疫情防控表是此次分析的重点,共包含12个特征,主要反映了药品售出信息以及购买者信息数据。 ​ 本次数据分析主要使用了折线图与柱形图,折线图和柱形图是最常见的疫情数据可视化的方式。折线图容易看出数据的走向,因此适合展示药品购买近期的变化趋势,而通过柱形图则可以直观地看出各个药品的对比情况。 ​ 分析场景: 作为药品分析人员, 必须了解数据, 现实中关于疫情与药品分析常见的问题:
​ 1.疫情期间,哪种药品销售量最大?
​ 2.性别是否对药品的选择构成影响?
​ 3.不同接触级别的人的购药趋势 ​ 4.时间维度上的参考? 本次疫情期间购药分析主要包括购药趋势分析,性别对购药的影响分析,各药品销售分析,接触级别对购药影响分析,发烧对购药的影响分析。

分析流程

可视化基本流程如下图: 图: 可视化基本流程 图: 可视化分析流程 二、数据预处理 这是数据分析中的关键一步,以确保数据经过转换,干净且易于使用以用于分析目的。 以下是一些重要/关键步骤: 1.删除无关/不必要的变量。 一些变量与使用无关。这些数据不包含任何重要信息或数据中的可变性,而有些信息可以帮助预测已售出的产品数量, 例如,本报告主要研究疫情对药品的销售影响,而无关地区,于是药房地址,所在区无用,因此,这些变量将从数据集中删除。 2.在适当的地方检查并处理缺失值 在生成了有关数字变量的描述性统计数据之后,应注意的是,温度数据具有一些缺失值。 若某记录 没有温度 则用 均值代替 ,温度值异常,如37.1.1,则说明是多了一个小数点,去掉最后一位小数点即可。 3.从现有变量创建新变量 从现有变量中创建了一些新变量。从 "购药名称" 中切割出每个订单的购药单品,导出 购药名称(单品)表,使用主表每行索引作为订单ID,与购药名称(单品)表关联。 三、数据探索性分析 ​ 通过使用 Python 进行初步数据探索性分析,发现 有801个不同的药房名称,而其中 “叮当智慧药房有限公司新龙店” 出现最多,共出现225次;有2两个不同所在区,大部分为龙岗区,共出现 139137 次不同的购药者名称,相同名称每出现一次说明购买一次药品,在此期间,其中最多购买次数为73次;共出现14种不同接触级别,其中“不清楚 ”最多,高风险(highRisk)仅有6人;大部分人没有发烧,只有极少部分人发烧;152888人有医保,仅有47464人没有医保。 四、购药趋势分析 ​ 按"添加时间 (天)” 、“添加时间 (月)” 细分购药人数的趋势,颜色显示有关 “添加时间 (月)” 的详细信息,视图按 “添加时间 (月)” 进行筛选,排除 Null,作图如下,从图中可以看出,4月中旬购药次数达到高峰,可知4月易感病毒,尤其需要注意身体健康,其次是3月,6月中旬,再仔细观察,可以发现对于每一个月而言,大部分高峰期购药都在中旬。
图: 购药次数趋势 ​ 颜色显示使用 "药房名称" 的详细信息,大小显示 "药房名称" 计数,标记按 "药房名称" 进行标记,视图按 "药房名称" 进行筛选,会选择多个成员,作图如下,从图中可以看出,销量最好的为 “叮当智慧药房有限公司新龙店”,近乎占据1/4的市场,其次是 “叮当智慧药房有限公司坂田大发店”,可以大胆推测这些药店人流量较大,这些地区需要加强疫情防控,附近超市,商业街可增设体温检测点,定期消毒,注意药品储备。
图: 各药房销售次数饼图 五、性别对购药的影响分析 ​ 按"添加时间 (月)" 细分的 购药人数 的趋势,颜色显示有关 "性别" 与 "购药人数" 的详细信息,视图按 "添加时间 (天)" 进行筛选,仅保留非 Null 值,作图如下,由图可知,总体上,男生购药人数高于女生,可知,相较于女生,男生更看重药物治疗,可加大男生相关药品的储备,4月中旬无论是对男生,还是女生,都容易得病,购药高峰期。 图: 不同性别购买次数趋势 ​ 按每个 "购药名称(单品)" 的 "购药名称(单品)" 计数,颜色显示有关 "性别" 的详细信息,视图按 "购药名称(单品)" 进行筛选,会选择多个成员,作图如下,从图中可以得出以下结论,无论是男生,还是女生,购买次数最多的都是感冒灵颗粒,它主要用于因感冒引起的头痛,发热,鼻塞,流涕,咽痛等症状,因此需要无论男女都需要注意流行性感冒,而总体上,购药次数大多数男生多于女生,只有购买“小儿氨酚黄那敏颗粒” 药品,女生高于男生,而此药品主要适用于缓解儿童普通感冒,说明在儿童期,女生更容易患感冒,女生在儿童期需注意对感冒的防护。 图: 各性别各药品销售次数堆叠图 六、各药品销售分析 ​ 颜色显示"购药名称" 计数,大小显示 "购药名称" 计数。标记按 "购药名称(单品)" 进行标记,视图按 "购药名称(单品)" 进行筛选,这会选择多个成员,作图如下,从图中可以看出,购买次数最多的是 “感冒灵颗粒”,其次是“布洛芬缓释胶囊”,两者均主要用于普通感冒或流行性感冒,说明大多数人最容易患感冒,其购买量最大,需注意对感冒相关药物的储备。 图: 药品销售次数 ​ 按 "添加时间 (月)" 细分的 "购药名称(单品)" 计数 的趋势,颜色显示有关 "购药名称(单品)" 的详细信息,视图按 "购药名称(单品)" 进行筛选,筛选购药名称(单品)计数>=4,500,会选择多个成员,作图如下,由图可知,四月中旬是流行性感冒高峰期,销量最高是感冒灵颗粒,其次是布洛芬缓释胶囊,其次感冒高峰期是4月中旬,6月中旬,而新冠疫情症状表现,如发烧,乏力和干咳嗽,很类似于感冒,推测新冠疫情在2月的爆发加剧了感冒药的购入;最不易染病为5月,7月,而根据美国哥伦比亚大学最新研究显示,5、6月最不易患病,可视化结果与其契合。 图: 各药品销售趋势图 七、接触级别对购药影响分析 ​ 按 "添加时间 (天)" 细分的购药人数的趋势,颜色显示有关 "接触级别" 的详细信息,数据按 "添加时间 (天)" 进行筛选,仅保留非 Null 值,作图如下,由图可知,4月中旬,各接触类型购药人数都达到顶峰,尤其是”非前四类情形“,其次是在6月中旬,14天内无境外旅居史达到高峰期,并且6月,几乎都为”14天内无境外旅居史“在购买药品,少数”14天内有境外旅居史“,从中可知,当6月疫情较稳定后,可能存在一部分回国购药,而接触级别为”14天内无境外旅居史“购药,可能是处于担心疫情复发,而储备药物,而纵观全局,会发现,接触级别为“14天内会到过湖北等疫情高发地的人员“几乎只在4月才购药,可能是由于疫情的关系,出行不便,而4月作为感冒高峰期,此时对于疫情的对策也已经初步形成,所以才有了4月接触级别为“14天内会到过湖北等疫情高发地的人员”大量购药。 图: 不同接触级别,购药人数趋势图 ​ 颜色显示有关 “接触级别” 的详细信息,大小显示 “购药人数”,标记按 “接触级别” 进行标记,作图如下,由图可知,非前四类情形、不清楚、14天内无境外旅居史这3种接触级别购药人数最多,而“不清楚”这种情况可能是由于防控不严,没能获取购买者的信息,相关部门应加强此方面的防控,减少数据的丢失。 图: 不同接触级别,购药人数填充气泡图 ​ 创建名为 "接触级别参数"的参数,创建名为 “购药名称() ”的计算字段,添加更改参数的操作,即可实现选择某一接触级别显示对应接触级别的购药情况,即数据下钻,再对每个 "购药名称() "的按 "接触级别" 细分的 "购药人数"。 颜色显示有关 "接触级别" 的详细信息。 视图按 "购药人数" 进行筛选,包括大于或等于 1,000 的值,作图如下,由图可知,接触类别为“不清楚”的购药人数最多,其中“感冒灵颗粒”购买人数最大,达到4891,其次是14天内无境外旅居史。 图: 不同接触级别购药水平条 八、发烧对购药的影响分析 ​ 按 " 购药名称(单品)"计数,颜色显示有关 "是否发烧" 的详细信息,视图按 "购药名称(单品) "进行筛选,会选择多个成员,作图如下,由图可知,对于购买大多数药品,人们都处于未发烧状态,而对于“布洛芬混悬液”,有部分人是处于发烧状态,而布洛芬混悬液是一种很常用的退烧止疼药物,这与客观事实相符。 图: 各药品,是否发烧与购买次数柱形图 结论与建议 1.四月是流感高峰期,需注意身体健康,增减衣物。 2.感冒灵颗粒销量最高,尤其是在四月中旬,药店需注意药品的储备。 3.大部分购药都来自男生,男生更应该注意日常健康。 4.应及时对市民进行新冠病毒知识宣传,让市民自主产生防范意识,早发现、早就医。 5.在热门药店附近增设测温点,加强“接触级别”的上报,确保数据完整性。 6.对于体温高的人,需额外注意其药品供应,及时上报数据。 参考文献 [1]周成虎, 裴韬, 杜云艳,等. 新冠肺炎疫情大数据分析与区域防控政策建议[J]. 中国科学院院刊, 2020.
[2]彭宗超, 黄昊, 吴洪涛,等. 新冠肺炎疫情前期应急防控的"五情"大数据分析[J]. 治理研究, 2020(2):5-20. [3]万民君, 余泳, 王蓉. 南昌市新型冠状病毒肺炎聚集性疫情流行病学分析[J]. 现代预防医学 2020年47卷20期, 3676-3678页, ISTIC PKU CA, 2020. [4]宋轩. 用于电脑的疫情防控模拟可视化图形用户界面:. [5]李文满, 苏宁, 尚美云,等. 新型冠状病毒肺炎的国内研究现状可视化分析与解读[J]. 国际检验医学杂志, 2020, v.41(09):7-11. [6]刘建湘, 刘海砚, 陈晓慧,等. 新冠肺炎疫情数据多维度可视分析方法[J]. 计算机辅助设计与图形学学报, 2020(10):1617-1627. [7]刘勋, 孟秋雨, 张鸿,等. 湖北省新型冠状病毒肺炎疫情的时空分布特征初步分析[J]. 实用预防医学, 2020(8):902-905.
Q&A 补充 参考 感谢帮助! Pandas与EXCEL之数据读取/保存/文件分割/文件合并 - 知乎