除了内容之外,我们在电脑上创建或查看的文件还包含信息。 元数据。本文将介绍如何在 Ubuntu 中查看和编辑元数据。
元数据的功能是 对文件进行描述、组织和提供背景信息,以便更容易理解、搜索、分类和分析文件。
元数据有什么用?
元数据的功能
- 搜索: 文件资源管理器使用元数据,按字母顺序、文件类型、创建或修改日期显示文件。
- 组织: 元数据有助于组织大量信息。
- 理解: 它们帮助人工智能模型、搜索引擎或图书馆等自动化系统更好地理解内容。
元数据类型
我们可以将它们分为三类:
- 描述性: 用于识别文档的数据,例如标题、作者、描述和关键词。
- 结构: 文档结构:标题、副标题、章节、格式。
- 行政: 权限、创建日期、大小、格式。
如何在Ubuntu中查看和编辑元数据
有很多图形化工具可以用来编辑元数据,但本文将只关注那些使用终端的工具。
PDF 文档具有以下格式:
- 资格。
- 作者。
- 主题。
- 关键字。
- 建立日期
- 修改日期。
- 发电机引擎。
- 用于创作的软件。
- 保护措施和许可证。
还有一种名为 XMP 的格式也包含这些信息:
- 版权信息。
- 缩图。
- 文档语言。
- 自定义标签。
在 Ubuntu 系统中,有两个用于查看元数据的实用命令:
pdf信息
安装:
sudo apt install poppler-utils
使用方法:
pdfinfo nombre_archivo.pdf
导出工具
利用此工具,我们可以查看 XMP 格式的元数据。
安装:
sudo apt install libimage-exiftool-perl
使用
exiftool nombre_archivo.pdf
要编辑元数据,我们使用以下命令
exiftool -parámetro "nuevo contenido del parámetro"nombre _archivo.pdf
在我们的示例中,如果我们想要翻译标题:
exiftool -Title="Introducción a la programación en Python" Introduction_to_Python_Programming_-_WEB.pdf
我们可以使用以下命令删除所有元数据:
exiftool -all= nombre_archivo.pdf
如果我们后悔删除了它,该命令会创建一个 PDF 文件的副本,并在文件名中添加“原始”字样。
DOCX
Word 的原生格式包含文档元数据和应用程序元数据。
文档元数据包括:
- 资格。
- 作者。
- 最后修改它的人。
- 修订次数。
- 创建日期。
- 最后修改日期。
- 主题。
- 关键词。
- 类别。
- 类别
- 状态(草稿,最终版)。
应用程序元数据
- 模板
- 使用的软件。
- 总页数。
- 字数。
- 字符数。
- 行数。
- 段落数。
- 缩放设置。
- 组织。
- 团队负责人姓名。
导出工具
命令 导出工具 它还可以用于查看 Word 文档的元数据。
使用
exiftool nombre_archivo.docx
查看元数据的另一种方法是将文件扩展名更改为 zip 格式。出于安全考虑,我们将使用副本进行此操作。
cp nombre_archivo.docx copia_archivo.zip
我们解压缩文件并打开所需的文件夹。
unzip copia_archivo.zip -d docxinfo
我们从文件中读取数据。
cat docxinfo/docProps/core.xml
文档元数据
cat docxinfo/docProps/apdp.xml
应用程序元数据
cat docxinfo/docProps/app.xml
两者均使用 工具 我们可以手动编辑元数据。同样,使用 exiftool 的操作步骤与处理 PDF 文件时相同。
exiftool -parámetro "nombre_del_parámetro" nombre_del_archivo.docx
我们也可以手动完成同样的操作,方法如下:
我们做一个备份
cp nombre_archivo.docx copia_archivo.zip
我们将其解压缩到一个名为 metadata 的文件夹中。
unzip copia_archivo.zip -d metadatos
我们去文件夹
cd metadatos
我们打开编辑器
用于文档元数据
nano docProps/core.xml
nano docProps/apdp.xml 应用程序元数据
我们将文件重新打包为 docx 格式。
zip -r ../nombre_archivo2.docx *
该命令会在目录之外创建新文档。 元数据.