如何在Ubuntu中查看和编辑元数据

在 Linux 中查看和编辑元数据

除了内容之外,我们在电脑上创建或查看的文件还包含信息。 元数据。本文将介绍如何在 Ubuntu 中查看和编辑元数据。

元数据的功能是 对文件进行描述、组织和提供背景信息,以便更容易理解、搜索、分类和分析文件。

元数据有什么用?

元数据的功能

  • 搜索: 文件资源管理器使用元数据,按字母顺序、文件类型、创建或修改日期显示文件。
  • 组织: 元数据有助于组织大量信息。
  • 理解:  它们帮助人工智能模型、搜索引擎或图书馆等自动化系统更好地理解内容。

元数据类型

我们可以将它们分为三类:

  • 描述性: 用于识别文档的数据,例如标题、作者、描述和关键词。
  • 结构: 文档结构:标题、副标题、章节、格式。
  • 行政: 权限、创建日期、大小、格式。

如何在Ubuntu中查看和编辑元数据

有很多图形化工具可以用来编辑元数据,但本文将只关注那些使用终端的工具。

PDF

PDF 文档具有以下格式:

  • 资格。
  • 作者。
  • 主题。
  • 关键字。
  • 建立日期
  • 修改日期。
  • 发电机引擎。
  • 用于创作的软件。
  • 保护措施和许可证。

还有一种名为 XMP 的格式也包含这些信息:

  • 版权信息。
  • 缩图。
  • 文档语言。
  • 自定义标签。

在 Ubuntu 系统中,有两个用于查看元数据的实用命令:

pdf信息

安装:

sudo apt install poppler-utils

使用方法:

pdfinfo nombre_archivo.pdf

PDF元数据

PDFINFO 命令示例

导出工具

利用此工具,我们可以查看 XMP 格式的元数据。

安装:

sudo apt install libimage-exiftool-perl

使用

exiftool nombre_archivo.pdf

XMP 格式元数据示例

Exiftool 程序使用示例

要编辑元数据,我们使用以下命令
exiftool -parámetro "nuevo contenido del parámetro"nombre _archivo.pdf
在我们的示例中,如果我们想要翻译标题:

exiftool -Title="Introducción a la programación en Python" Introduction_to_Python_Programming_-_WEB.pdf

使用 Exiftool 更改标题元数据

Exiftool 命令可以更改元数据

我们可以使用以下命令删除所有元数据:

exiftool -all= nombre_archivo.pdf

如果我们后悔删除了它,该命令会创建一个 PDF 文件的副本,并在文件名中添加“原始”字样。

DOCX

Word 的原生格式包含文档元数据和应用程序元数据。

文档元数据包括:

  • 资格。
  • 作者。
  • 最后修改它的人。
  • 修订次数。
  • 创建日期。
  • 最后修改日期。
  • 主题。
  • 关键词。
  • 类别。
  • 类别
  • 状态(草稿,最终版)。

应用程序元数据

  • 模板
  • 使用的软件。
  • 总页数。
  • 字数。
  • 字符数。
  • 行数。
  • 段落数。
  • 缩放设置。
  • 组织。
  • 团队负责人姓名。

导出工具

命令 导出工具 它还可以用于查看 Word 文档的元数据。

使用

exiftool nombre_archivo.docx

查看 Word 文档的元数据

exiftool 命令还可以用于查看 Word 文档的元数据。

查看元数据的另一种方法是将文件扩展名更改为 zip 格式。出于安全考虑,我们将使用副本进行此操作。

cp nombre_archivo.docx copia_archivo.zip

我们解压缩文件并打开所需的文件夹。

unzip copia_archivo.zip -d docxinfo

我们从文件中读取数据。

cat docxinfo/docProps/core.xml

文档元数据

cat docxinfo/docProps/apdp.xml

应用程序元数据

cat docxinfo/docProps/app.xml

两者均使用 工具 我们可以手动编辑元数据。同样,使用 exiftool 的操作步骤与处理 PDF 文件时相同。
exiftool -parámetro "nombre_del_parámetro" nombre_del_archivo.docx
我们也可以手动完成同样的操作,方法如下:

我们做一个备份

cp nombre_archivo.docx copia_archivo.zip

我们将其解压缩到一个名为 metadata 的文件夹中。

unzip copia_archivo.zip -d metadatos

我们去文件夹

cd metadatos

我们打开编辑器

nano docProps/core.xml
用于文档元数据

nano docProps/apdp.xml 应用程序元数据
我们将文件重新打包为 docx 格式。

zip -r ../nombre_archivo2.docx *
该命令会在目录之外创建新文档。 元数据.