本文由AI翻译

使用 AI 清理数据

ONLYOFFICE 电子表格编辑器 允许您使用 AI 助手帮助清理和准备数据以进行分析。通过将 AI 功能与内置的数据清理功能相结合,您可以删除重复条目、标准化不一致的格式并填充缺失值,确保数据准确且可用。

默认情况下,出于安全原因,AI 未连接到编辑器。要使用 AI 进行数据清理,您需要先安装并配置 AI 插件。请参阅AI 助手:设置与配置指南获取详细说明。

电子表格编辑器提供两种协同工作的方式:

  • AI 辅助清理 — 使用自然语言提示识别问题,获取建议并生成清理公式。
  • 内置清理功能 — 使用“删除重复项”工具、文本函数和“查找与替换”进行精确修正。

打开 AI 提示框

在电子表格编辑器中,按 Ctrl+/(macOS 上为 +/)即可打开 AI 提示框。在本文描述的工作流程中需要向 AI 发送提示时,请使用此快捷键。

删除重复项

电子表格编辑器在 数据 选项卡中提供了内置的 删除重复项 工具,可根据所选列删除重复行。有关使用此功能的详细说明,请参阅删除重复项一文。

您还可以使用条件格式中的 重复/唯一 规则突出显示重复项,以便在删除前进行审核。

使用 AI 识别和处理重复项

AI 可以帮助您识别非完全匹配的潜在重复项,并制定处理策略:

  1. 选择要检查的数据范围。
  2. 打开 AI 提示框
  3. 向 AI 询问重复项相关问题:
    • “我应该检查哪些列以识别此数据中的重复记录?”
    • “是否存在近似重复或相似条目,可能是同一记录?”
    • “我应该如何处理重复条目——保留第一个、保留最后一个,还是合并?”

标准化格式

用于标准化的文本函数

电子表格编辑器提供多种文本函数用于数据标准化:

函数用途示例
TRIM(text)去除首尾及多余空格=TRIM(" John Smith ") → "John Smith"
UPPER(text)将文本转换为大写=UPPER("london") → "LONDON"
LOWER(text)将文本转换为小写=LOWER("LONDON") → "london"
PROPER(text)每个单词首字母大写=PROPER("john smith") → "John Smith"
CLEAN(text)去除不可打印字符=CLEAN(A1)
SUBSTITUTE(text, old, new)替换特定文本=SUBSTITUTE("U.S.","U.S.","USA") → "USA"
TEXT(value, format)统一格式化数字/日期=TEXT(A1,"YYYY-MM-DD")
使用 AI 生成标准化公式

向 AI 询问针对您的具体标准化需求创建公式:

示例提示:“创建一个公式,将 A 列的电话号码标准化为格式 (XXX) XXX-XXXX。”

示例回复:“使用此公式标准化电话号码:=TEXT(SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(A1,"-",""),"(",""),")",""),"(###) ###-####")。该公式去除已有格式并应用标准格式。对于带有国家代码或长度不一的号码,可能需要使用嵌套 IF 语句或辅助列的更复杂方法。”

使用查找与替换进行批量标准化

电子表格编辑器提供内置的查找与替换Ctrl+H)功能,可对数据进行简单文本替换。

AI 辅助标准化工作流程

针对复杂的标准化任务,请遵循以下流程:

  1. 识别问题打开 AI 提示框,让 AI 分析数据样本并列出格式不一致之处。
  2. 获取建议:询问 AI 哪种方法最佳——公式、查找与替换或手动修正。
  3. 生成公式:如果使用公式,要求 AI 创建适合您数据的具体公式。
  4. 在新列应用:使用公式在新列中生成标准化值。
  5. 验证结果:替换原始数据前,先审核标准化后的数据。
  6. 替换原始数据:复制标准化列,然后使用 选择性粘贴数值 替换原数据。

填充缺失值

识别缺失值

使用 AI 帮助识别和评估电子表格中的缺失数据:

  1. 选择数据范围。
  2. 打开 AI 提示框
  3. 向 AI 询问缺失值分析:
    • “哪些列有缺失值,数量是多少?”
    • “每列缺失数据占比是多少?”
    • “缺失数据是否存在某些模式?”
使用条件格式突出显示空白

要直观识别缺失值:

  1. 选择数据范围。
  2. 转到 开始 选项卡 → 条件格式空白/错误
  3. 选择 空白 以突出显示空单元格。
  4. 选择格式样式(例如红色填充),然后点击 确定
使用 AI 推荐填充策略

根据您的具体数据,向 AI 询问推荐方案:

  1. 趋势分析:如果是时间序列数据,使用线性插值。创建一个公式,计算缺口前后值的平均。
  2. 汇总统计:用中位数填充(比均值对异常值更稳健):=IF(ISBLANK(C1), MEDIAN($C$1:$C$200), C1)
  3. 分组分析:如果有类别(如地区),用该类别的平均值填充,使用 AVERAGEIF
  4. 保守估计:如果想避免高估,填充范围内的最小值。
  5. 排除分析:对于关键计算,您可能选择过滤掉缺失值所在行,而非填充。

限制与注意事项

使用 AI 进行数据清理时,请注意以下事项:

  • AI 提供指导,不是自动化:AI 帮助识别问题并推荐解决方案,但清理步骤需您使用电子表格编辑器的内置功能执行。
  • 上下文重要:AI 建议基于常见模式,您的具体业务规则可能需要不同方法。
  • 替换前请核实:尤其是大数据集,覆盖原始数据前务必审核清理结果。
  • 部分清理需判断:判断近似重复是否为同一记录通常需要对数据的人工了解。
警告数据清理操作可能永久修改您的数据。请始终在原始电子表格的副本上操作。ONLYOFFICE 对因清理操作导致的数据丢失不承担任何责任。如需撤销更改,请立即使用撤销功能(Ctrl+Z)。
文章: 标签:
浏览所有标签