由于数据源的来源不同、多用户创建等问题,Power BI 连接到的数据源往往存在数据类型不准确、含有重复项和错误值、标题位置不对等一系列数据、格式不规范的情况,Power Query 编辑器有快捷、方便地清理各种不规范数据的功能,可以帮用户进行数据清理。
有时,查询表中有很多不利于读取的数据类型,可能会对后续分析数据造成不必要的麻烦,此时,可以利用 Power Query 编辑器的“更改数据类型”功能和“转换”功能,快速处理不规范数据。
步骤 1打开“更改数据类型”文件,单击【主页】选项卡【查询】区域内的【转换数据】按钮,打开 Power Query 编辑器,如图 1 所示。

图1 进入编辑器
步骤 2在需要更改数据类型的列标题上右击,在弹出的快捷菜单中依次单击【更改类型】→【文本】选项,在弹出的【更改列类型】提示对话框中单击【替换当前转换】按钮,如图 2 所示。

图2 更改数据类型为文本
该列的数据类型即可全部更改为文本,如图 3 所示。

图3 数据类型已更改为文本
使用同样的方法,可以将不规范的日期的数据类型更改为日期,如图 4 所示。

图4 更改数据类型为日期
选中需要更改数据类型的列后,依次单击【转换】→【任意列】区域内的【数据类型:日期】按钮,同样可以进行数据类型的更改,如图 5 所示。

图5 【转换】选项卡
有以下两种等效操作,可以实现迅速转换字母大小写。
💧按住 <Ctrl> 键,选中需要转换字母大小写格式的多列,在列标题上右击,在弹出的快捷菜单中依次单击【转换】→【每个字词首字母大写】选项,如图 6 所示。

图6 使用快捷菜单实现多列首字母转换
💧选中需要转换字母大小写格式的列后,依次单击【转换】→【文本列】区域内的【格式】按钮,在弹出的下拉列表中单击【每个字词首字母大写】选项,如图 7 所示。

图7 使用选项卡实现多列首字母转换
完成以上任一操作,即可将选中的列中的首字母转换为需要的格式。
此外,单击下拉列表中的【大写】或【小写】选项,可以将所有单词或字母都转换为大写或小写格式。
从数据库软件内导出,或从网页上复制下来的数据中,经常会夹杂着肉眼难以识别的非打印字符,也叫不可见字符,这些字符的存在,容易在引用、统计等对相关信息进行处理的过程中导致错误频出,使用 Power Query 编辑器的“修整”和“清除”功能,可以快速解决相关问题。
【修整】:删除所选列的每个单元格中的前导空格和尾随空格。
【清除】:清除所选列中的非打印字符。
如图 8 所示,选中要处理的文本列,依次单击【转换】→【文本列】区域内的【格式】按钮,在弹出的下拉列表中单击【修整】或【清除】选项。

图8 修整文本
其他数据在转换过程中出现错误时,也可以先使用“修整”或“清除”功能处理之后再转换。
重复项干扰是用户在处理数据时经常需要面对的问题,Power Query 编辑器有“删除重复项”功能,轻点几下,即可解决类似问题。
默认情况下,使用 Power Query 编辑器的“删除重复项”功能,将删除重复项中的第一个数据。配合一些其他设置,可以达到意想不到的效果。
使用“删除重复项”功能,筛选出数据表中的客户首次购买、客户最大订单、多次购买的客户等信息,具体操作步骤如下。
步骤 1启动 Power BI,依次单击【主页】→【数据】区域内的【Excel 工作簿】按钮,在【打开】对话框中选中目标文件,单击【打开】按钮,如图 9 所示。

图9 数据连接
步骤 2在弹出的【导航器】对话框中,勾选需要连接的工作表前的复选框,单击【转换数据】按钮,如图 10 所示。

图10 转换数据
步骤 3选中第 9 列,按住 <Shift> 键后单击最后一列(第 13 列),即可选中第 9 列至第 13 列。依次单击【主页】→【管理列】区域内的【删除列】按钮,如图 11 所示,删除多余的列。

图11 删除列
步骤 4使用“删除重复项”功能,分析客户首次购买信息。
首先,选中“下单日期”列,依次单击【主页】→【排序】区域内的【升序排序】按钮,如图 12 所示。

图12 升序排序
其次,在“客户名称”列标题上右击,在弹出的快捷菜单中单击【删除重复项】选项,如图 13 所示。

图13 删除重复项
此时,留下的数据是客户首次购买信息,如图 14 所示。

图14 客户首次购买信息
步骤 5使用“删除重复项”功能,分析客户最大订单信息。
首先,在“订单明细 - 简单去重演示”的另一副本中,选中“金额”列,依次单击【主页】→【排序】区域内的【降序排序】按钮,如图 15 所示。

图15 降序排序
其次,选中数据列“客户名称”,依次单击【主页】→【减少行】区域内的【删除行】下拉按钮,在弹出的下拉列表中单击【删除重复项】选项,如图 16 所示。

图16 删除重复项
如图 17 所示,留下的数据是客户最大订单信息。

图17 客户最大订单信息
步骤 6使用“保留重复项”功能,分析多次购买的客户。
在“订单明细 - 简单去重演示”的另一副本中,选中“客户名称”列,依次单击【主页】→【减少行】区域内的【保留行】下拉按钮,在弹出的下拉列表中单击【保留重复项】按钮,如图 18 所示。

图18 保留重复项
如图 19 所示,是保留重复项后得到的所有多次购买的客户信息。

图19 多次购买的客户信息
书籍推荐

本书从Power BI概述及对Power BI进行基本操作讲起,逐步展开,依次讲解输入和连接数据、数据的清洗和整理、管理行列数据、建立数据分析模型、创建与修饰可视化报表、数据可视化报表高阶应用、常用视觉对象类型、Power BI在线服务、Power BI实战演练等,形成了一套结构清晰、内容丰富的Power BI知识体系。
通过对本书的学习,读者可以从烦琐的数据处理和报表编制中解脱,快速从海量数据中抽取关键信息并制作令人惊艳的交互式商业报告,此外,还可以将报告通过PPT或网络与他人分享,实现自我价值的提高,为企业决策提供助力。

