如何从.doc和.docx文件中提取纯文本?
|
关闭。这个问题是题外话。它当前不接受答案。
没有找到相关结果
已邀请:
7 个回复
磁辫覆氓
我在命令行福找到的 它解压缩docx文件并获取实际文档,然后剥离所有xml标签。显然,所有格式都会丢失。
锯康
有关更多详细信息,请参见此链接:http://ask.libreoffice.org/en/question/2641/convert-to-command-line-parameter/ 有关libreoffice过滤器的列表,请参见http://cgit.freedesktop.org/libreoffice/core/tree/filter/source/config/fragments/filters 由于openoffice命令行语法有点太复杂,因此有一个方便的包装器可以简化此过程:unoconv。 Apache POI 另一个选择是Apache POI(Apache POI)—一个受支持良好的Java库,它与antiword不同,可以读取,创建和转换
,
,
,
,
,
文件。 这是将
或
文档转换为纯文本的最简单的Java代码:
弦砂牧扁
播匣扦阔食
荤碗
梆晨灸碾
藕挝