「Linux」- 常用文件转换操作

  CREATED BY JENKINSBOT

问题描述

该笔记将记录:在 Linux 中,进行各种文件格式的互相转换操作,以及相关问题的解决办法。

HTML 转 TEXT

html2text
将HTML转化为TEXT。当时是和HTML显示格式一致的文本格式。使用-utf8选项来支持UTF-8文本。
Homepage: http://www.mbayer.de/html2text/

lynx
lynx -dump input.html > output.txt
lynx是一个文字界面的浏览器,但是其–dump选项,可以将页面转化为文本。
Homepage: http://lynx.invisible-island.net/
类似的工具还有Links:http://links.twibright.com/

w3m
w3m -dump input.html > output.txt

links
links -dump input.html > output.txt

pandoc

Pandoc – About pandoc
bash – HTML/PDF to DOC(X) in Linux command line? – Super User

该笔记将记录:在 Linux 中,通过 pandoc 转换文档的常用操作,及相关问题的解决方案。

在 Linux 中,多数文档格式的转换工作,都可以使用 pandoc 完成。在官方首页中,有张“很大的”图片,列出 pandoc 支持的全部文档转换。

HTML => DOCX

pandoc -o output.docx input.html

图片文字提取(OCR)

Best OCR Apps for Linux

# 05/03/2022 我们使用 gImageReader 工具:

# apt install gimagereader
# apt install tesseract-ocr-chi-*