Tika-extracting-text-document

提供:Dev Guides
移動先:案内検索

TIKA-テキスト文書の抽出

以下は、テキストドキュメントからコンテンツとメタデータを抽出するプログラムです。

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.txt.TXTParser;

import org.xml.sax.SAXException;

public class TextParser {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

     //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.txt"));
      ParseContext pcontext=new ParseContext();

     //Text document parser
      TXTParser  TexTParser = new TXTParser();
      TexTParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();

      for(String name : metadataNames) {
         System.out.println(name + " : " + metadata.get(name));
      }
   }
}

上記のコードを TextParser.java として保存し、次のコマンドを使用してコマンドプロンプトからコンパイルします-

javac TextParser.java
java TextParser

以下は、sample.txtファイルのスナップショットです-

シンプルドキュメント

テキスト文書には、次のプロパティがあります-

ドキュメントプロパティ

上記のプログラムを実行すると、次の出力が得られます。

出力-

Contents of the document:

At finddevguides.com, we strive hard to provide quality tutorials for self-learning
purpose in the domains of Academics, Information Technology, Management and Computer
Programming Languages.
The endeavour started by Mohtashim, an AMU alumni, who is the founder and the managing
director of Tutorials Point (I) Pvt. Ltd. He came up with the website finddevguides.com
in year 2006 with the help of handpicked freelancers, with an array of tutorials for
computer programming languages.

Metadata of the document:

Content-Encoding:   windows-1252
Content-Type:   text/plain; charset = windows-1252