问题描述
该笔记将记录:在 Linux 中,进行各种文件格式的互相转换操作,以及相关问题的解决办法。
HTML 转 TEXT
html2text
将HTML转化为TEXT。当时是和HTML显示格式一致的文本格式。使用-utf8选项来支持UTF-8文本。
Homepage: http://www.mbayer.de/html2text/
lynx
lynx -dump input.html > output.txt
lynx是一个文字界面的浏览器,但是其–dump选项,可以将页面转化为文本。
Homepage: http://lynx.invisible-island.net/
类似的工具还有Links:http://links.twibright.com/
w3m
w3m -dump input.html > output.txt
links
links -dump input.html > output.txt
pandoc
Pandoc – About pandoc
bash – HTML/PDF to DOC(X) in Linux command line? – Super User
该笔记将记录:在 Linux 中,通过 pandoc 转换文档的常用操作,及相关问题的解决方案。
在 Linux 中,多数文档格式的转换工作,都可以使用 pandoc 完成。在官方首页中,有张“很大的”图片,列出 pandoc 支持的全部文档转换。
HTML => DOCX
pandoc -o output.docx input.html
图片文字提取(OCR)
# 05/03/2022 我们使用 gImageReader 工具:
# apt install gimagereader # apt install tesseract-ocr-chi-*