如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本? (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)解决方法:...
如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本? (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)
解决方法:
wget只会检索文档.如果文档是HTML格式,那么您需要的是解析文档的结果.
例如,如果你有lynx,你可以使用lynx -dump -nolist.
lynx是一个轻量级,简单的Web浏览器,它具有-dump功能,用于输出解析过程的结果. -nolist避免最后的链接列表,如果页面有任何超链接,它将出现.
正如@Thor所提到的,elinks也可以用于此,因为它还有一个-dump选项(并且具有-no-引用以省略链接列表).如果您使用-sigh- frames(MTFBWY)走过某个站点,这可能特别有用.
另外,请记住,除非页面实际上只是带有HTML标记的C代码,否则您需要检查结果,以确保其中只有C代码.
本文标题为:linux – 如何使用没有html的wget获取页面文本?
基础教程推荐
- 一个自动居中的导航条实例与相关问题 DIV+CSS 2022-10-16
- ajax实现数据分页查询 2023-01-31
- ajax实现异步文件或图片上传功能 2023-01-26
- vue-vuex-getters的基本使用 2023-10-08
- jsp+ajax实现无刷新上传文件的方法 2022-12-15
- 详解px单位html5响应式方案 2022-09-16
- Vue自学之路3-vue模版初探 2023-10-08
- 小程序实现简单验证码倒计时 2022-08-30
- vue-cli2 生成的项目打包优化(持续学习中) 2023-10-08
- 常用CSS缩写语法总结 2022-10-16