从网页中提取数据
|
我正在做一个学校项目,该项目需要从网页中提取数据。确切地说,我需要一个库或开源程序来从html / text数据中提取人类可读的内容。像网络浏览器一样呈现文本内容。
我知道用正则表达式解析html是从中提取文本的最差方法。
额外信息:
我需要它来计算文本文档之间的相似度。
任何帮助,将不胜感激。
谢谢
没有找到相关结果
已邀请:
2 个回复
羔磺
才脊烽馈低