网站首页 > 开源技术 正文
ApacheTika是一个库,用于文档类型检测和从各种文件格式中提取内容。参考:https://www.tutorialspoint.com/tika/tika_overview.htm
使用代码
在本文中,我将提供一个示例,说明如何在Eclipse中创建新项目,并尝试运行一个示例以使用Apachetika库检测文件类型。
脚步
我正在使用Apache-tika1.20版本。可以从http://tika.apache.org/download.html下载。下载jar文件并将其保存在您的计算机上。
打开Eclipse并创建一个新的Java项目,如下所示:
给项目起个名字;说“DetectType”并设置您正在使用的JRE版本。如果列表中没有梳妆台,请安装它。
右键单击“src”,然后选择“新建”->“类”。给它起个名字,说'DetectType'。刷新项目,您将看到src中添加了新文件。
添加body到新添加的文件中:
public class DetectType
{
public static void main(String[] args) throws Exception
{
}
}
}1234567复制代码类型:[html]
在与上述相同的工作空间下创建一个文件夹'lib',然后将jar文件复制到该lib文件夹中。
将jar文件添加到您的DetectType项目中。右键单击您的项目,然后选择属性->Java构建路径->添加JAR。
在您的项目中选择新复制的jar文件。如果看不到jar文件,请刷新您的项目,然后重试。您的属性窗口现在应如下所示:
刷新您的项目,然后在ProjectExplorer上,您现在可以看到正在添加的jar文件。
更新您的代码主体以包括Tika该类并检测文件类型。
import org.apache.tika.Tika;
public class DetectType
{
public static void main(String[] args) throws Exception
{
// Create a Tika instance with the default configuration
Tika tika = new Tika();
// Parse all given files and print out the extracted
// text content
for (String file : args) {
String fileType = tika.detect(file);
System.out.println("File type of '" + file + "' is : " + fileType);
}
}
}12345678910111213141516复制代码类型:[java]
Projectheirachy应该如下所示(请注意,您可以将软件包名称设置为'defaultpackage'。我将其保留为'org.apache.tika'。在下一节中,我将导入整个tika源代码,以防万一。的调试)。
上面的程序期望输入参数作为文件名。这可以作为参数传递。像这样:
现在运行程序,您应该在控制台中获得结果。像这样的东西:
格式'1.vsd'的文件类型为application/vnd.visio。
上面的示例是一个用于检测文件类型的小示例。有很多公开的API,可用于提取更多的元数据,甚至文件类型的内容。有关完整列表,请参见https://tika.apache.org/1.20/api/。
Tika支持以下各种功能:
文件类型检测
内容提取
元数据提取
语言检测
调试ApacheTika外观
如果您希望将整个Apachetika源代码添加到Eclipse项目中并调试Facade类/函数,请遵循以下步骤。
org.apache.tika在您的src中创建一个新包''(如上一节中的第11点所示)
在“org.apache.tika”下创建一个新类。右键单击'org.apache.tika'->New->Class。给它一个您选择的名称,说'DetectType'。
从http://tika.apache.org/download.html下载源代码“适用于tika-1.20-src.zip的镜像”。
解压缩上面的代码将为您提供可用于我们调试上面代码中分类的外观的程序包。
tika-core从上方进入并将“tika-core\src\main\java\org\apache\tika”文件夹中的内容复制到工作区“DetectType\src\org\apache\tika”的文件夹中。在Eclipse中刷新项目,您将把所有这些视为软件包。我有一些但不是全部的屏幕截图:
如果您在项目中看到任何错误,那是由于“package-info.java”引起的。删除此文件,因为该文件的唯一目的是为程序包级文档和程序包级注释提供一个主页。
在任何级别开始调试,您都找不到源代码,进入第4点的文件结构,并将其复制到org/apache/tika中的相应工作区结构中。
如果在使用“org.osgi.framework”,“org.osgi.util”时出现错误,请访问http://www.java2s.com/Code/Jar/o/Downloadorgosgicore500jar.htm万维网。java2s.com/Code/Jar/o/Downloadorgosgicore500jar.htm并下载jar文件。在步骤8中添加tika-app.jar时,将其添加到您的项目中。
同样,您可能在同一站点上找不到更多的软件包,因为它们可能会使您喜欢'org.sqlite.SQLiteConfig'。
猜你喜欢
- 2025-05-02 10款鲜为人知的PHP框架(10款鲜为人知的php框架代码)
- 2025-05-02 3分钟搞懂反弹shell(反弹shell的常用命令)
- 2025-05-02 计算机专业必须掌握的脚本开发语言—shell
- 2025-05-02 shell 基本语法(shell基本语法set)
- 2025-05-02 学习Shell 教程(shell编程学习)
- 2025-05-02 一个有意思的PHP Webshell,利用伪协议执行代码
- 2025-05-02 Linux入门-shell编程-适合小白(linux shell编程是什么)
- 2025-05-02 GrayLog开源日志管理平台技术文章合集【共58篇】
- 2025-05-02 AI大模型 MiniMax 基于 Apache Doris 的日志系统,PB 级秒级查询响应
- 2025-05-02 互联网大厂后端必看!手把手教你替换 Spring Boot 中的日志框架
你 发表评论:
欢迎- 最近发表
-
- 10款鲜为人知的PHP框架(10款鲜为人知的php框架代码)
- 3分钟搞懂反弹shell(反弹shell的常用命令)
- 计算机专业必须掌握的脚本开发语言—shell
- shell 基本语法(shell基本语法set)
- 学习Shell 教程(shell编程学习)
- 一个有意思的PHP Webshell,利用伪协议执行代码
- Linux入门-shell编程-适合小白(linux shell编程是什么)
- GrayLog开源日志管理平台技术文章合集【共58篇】
- AI大模型 MiniMax 基于 Apache Doris 的日志系统,PB 级秒级查询响应
- 互联网大厂后端必看!手把手教你替换 Spring Boot 中的日志框架
- 标签列表
-
- jdk (81)
- putty (66)
- rufus (78)
- 内网穿透 (89)
- okhttp (70)
- powertoys (74)
- windowsterminal (81)
- netcat (65)
- ghostscript (65)
- veracrypt (65)
- asp.netcore (70)
- wrk (67)
- aspose.words (80)
- itk (80)
- ajaxfileupload.js (66)
- sqlhelper (67)
- express.js (67)
- phpmailer (67)
- xjar (70)
- redisclient (78)
- wakeonlan (66)
- tinygo (85)
- startbbs (72)
- webftp (82)
- vsvim (79)
本文暂时没有评论,来添加一个吧(●'◡'●)