Python-digital-forensics-investigating-embedded-metadata

提供:Dev Guides
移動先:案内検索

埋め込みメタデータの調査

この章では、Pythonデジタルフォレンジックを使用した埋め込みメタデータの調査について詳しく学習します。

前書き

埋め込みメタデータは、同じファイルに格納されているデータに関する情報であり、そのデータによって記述されたオブジェクトを持っています。 つまり、デジタルファイル自体に保存されているデジタル資産に関する情報です。 常にファイルに関連付けられており、分離することはできません。

デジタルフォレンジックの場合、特定のファイルに関するすべての情報を抽出することはできません。 一方、埋め込みメタデータは、調査に重要な情報を提供します。 たとえば、テキストファイルのメタデータには、作成者に関する情報、その長さ、作成日、およびそのドキュメントに関する短い要約が含まれる場合があります。 デジタル画像には、画像の長さ、シャッター速度などのメタデータが含まれる場合があります。

メタデータ属性を含むアーティファクトとその抽出

このセクションでは、メタデータ属性を含むさまざまなアーティファクトとPythonを使用した抽出プロセスについて学習します。

オーディオとビデオ

これらは、メタデータが埋め込まれた2つの非常に一般的なアーティファクトです。 このメタデータは、調査目的で抽出できます。

次のPythonスクリプトを使用して、オーディオまたはMP3ファイルとビデオまたはMP4ファイルから共通の属性またはメタデータを抽出できます。

このスクリプトには、mutagenという名前のサードパーティのPythonライブラリをインストールする必要があります。これにより、オーディオファイルとビデオファイルからメタデータを抽出できるようになります。 それは、次のコマンドの助けを借りてインストールすることができます-

pip install mutagen

このPythonスクリプトのためにインポートする必要がある便利なライブラリのいくつかは次のとおりです-

from __future__ import print_function

import argparse
import json
import mutagen

コマンドラインハンドラーは、MP3またはMP4ファイルへのパスを表す1つの引数を取ります。 その後、次のようにファイルへのハンドルを開くために* mutagen.file()*メソッドを使用します-

if __name__ == '__main__':
   parser = argparse.ArgumentParser('Python Metadata Extractor')
   parser.add_argument("AV_FILE", help="File to extract metadata from")
   args = parser.parse_args()
   av_file = mutagen.File(args.AV_FILE)
   file_ext = args.AV_FILE.rsplit('.', 1)[-1]

   if file_ext.lower() == 'mp3':
      handle_id3(av_file)
   elif file_ext.lower() == 'mp4':
      handle_mp4(av_file)

次に、2つのハンドルを使用する必要があります。1つはMP3からデータを抽出し、もう1つはMP4ファイルからデータを抽出します。 次のようにこれらのハンドルを定義できます-

def handle_id3(id3_file):
   id3_frames = {'TIT2': 'Title', 'TPE1': 'Artist', 'TALB': 'Album','TXXX':
      'Custom', 'TCON': 'Content Type', 'TDRL': 'Date released','COMM': 'Comments',
         'TDRC': 'Recording Date'}
   print("{:15} | {:15} | {:38} | {}".format("Frame", "Description","Text","Value"))
   print("-" *85)

   for frames in id3_file.tags.values():
      frame_name = id3_frames.get(frames.FrameID, frames.FrameID)
      desc = getattr(frames, 'desc', "N/A")
      text = getattr(frames, 'text', ["N/A"])[0]
      value = getattr(frames, 'value', "N/A")

      if "date" in frame_name.lower():
         text = str(text)
      print("{:15} | {:15} | {:38} | {}".format(
         frame_name, desc, text, value))
def handle_mp4(mp4_file):
   cp_sym = u"\u00A9"
   qt_tag = {
      cp_sym + 'nam': 'Title', cp_sym + 'art': 'Artist',
      cp_sym + 'alb': 'Album', cp_sym + 'gen': 'Genre',
      'cpil': 'Compilation', cp_sym + 'day': 'Creation Date',
      'cnID': 'Apple Store Content ID', 'atID': 'Album Title ID',
      'plID': 'Playlist ID', 'geID': 'Genre ID', 'pcst': 'Podcast',
      'purl': 'Podcast URL', 'egid': 'Episode Global ID',
      'cmID': 'Camera ID', 'sfID': 'Apple Store Country',
      'desc': 'Description', 'ldes': 'Long Description'}
genre_ids = json.load(open('apple_genres.json'))

今、私たちは次のようにこのMP4ファイルを反復処理する必要があります-

print("{:22} | {}".format('Name', 'Value'))
print("-"* 40)

for name, value in mp4_file.tags.items():
   tag_name = qt_tag.get(name, name)

   if isinstance(value, list):
      value = "; ".join([str(x) for x in value])
   if name == 'geID':
      value = "{}: {}".format(
      value, genre_ids[str(value)].replace("|", " - "))
   print("{:22} | {}".format(tag_name, value))

上記のスクリプトは、MP3ファイルとMP4ファイルに関する追加情報を提供します。

画像

画像には、ファイル形式に応じて異なる種類のメタデータが含まれる場合があります。 ただし、ほとんどの画像にはGPS情報が埋め込まれています。 サードパーティのPythonライブラリを使用して、このGPS情報を抽出できます。 あなたは同じことをするために使用できる次のPythonスクリプトを使用することができます-

まず、次のように* Python Imaging Library(PIL)*という名前のサードパーティのPythonライブラリをダウンロードします-

pip install pillow

これは、画像からメタデータを抽出するのに役立ちます。

また、画像に埋め込まれたGPSの詳細をKMLファイルに書き込むこともできますが、このために simplekml という名前のサードパーティPythonライブラリを次のようにダウンロードする必要があります-

pip install simplekml

このスクリプトでは、最初に次のライブラリをインポートする必要があります-

from __future__ import print_function
import argparse

from PIL import Image
from PIL.ExifTags import TAGS

import simplekml
import sys

これで、コマンドラインハンドラーは、基本的に写真のファイルパスを表す1つの位置引数を受け入れます。

parser = argparse.ArgumentParser('Metadata from images')
parser.add_argument('PICTURE_FILE', help = "Path to picture")
args = parser.parse_args()

次に、座標情報を取り込むURLを指定する必要があります。 URLは gmaps および open_maps です。 また、PILライブラリによって提供される度分秒(DMS)タプル座標を10進数に変換する関数も必要です。 それは次のように行うことができます-

gmaps = "https://www.google.com/maps?q={},{}"
open_maps = "http://www.openstreetmap.org/?mlat={}&mlon={}"

def process_coords(coord):
   coord_deg = 0

   for count, values in enumerate(coord):
      coord_deg += (float(values[0])/values[1])/60**count
   return coord_deg

ここで、* image.open()*関数を使用して、ファイルをPILオブジェクトとして開きます。

img_file = Image.open(args.PICTURE_FILE)
exif_data = img_file._getexif()

if exif_data is None:
   print("No EXIF data found")
   sys.exit()
for name, value in exif_data.items():
   gps_tag = TAGS.get(name, name)
   if gps_tag is not 'GPSInfo':
      continue
*GPSInfo* タグを見つけたら、GPS参照を保存し、* process_coords()*メソッドで座標を処理します。
lat_ref = value[1] == u'N'
lat = process_coords(value[2])

if not lat_ref:
   lat = lat *-1
lon_ref = value[3] == u'E'
lon = process_coords(value[4])

if not lon_ref:
   lon = lon* -1

さて、次のように simplekml ライブラリから kml オブジェクトを開始します-

kml = simplekml.Kml()
kml.newpoint(name = args.PICTURE_FILE, coords = [(lon, lat)])
kml.save(args.PICTURE_FILE + ".kml")

次のように処理された情報から座標を印刷できるようになりました-

print("GPS Coordinates: {}, {}".format(lat, lon))
print("Google Maps URL: {}".format(gmaps.format(lat, lon)))
print("OpenStreetMap URL: {}".format(open_maps.format(lat, lon)))
print("KML File {} created".format(args.PICTURE_FILE + ".kml"))

PDFドキュメント

PDFドキュメントには、画像、テキスト、フォームなど、さまざまなメディアがあります。 PDFドキュメントに埋め込まれたメタデータを抽出すると、結果データをExtensible Metadata Platform(XMP)と呼ばれる形式で取得する場合があります。 私たちは次のPythonコードの助けを借りてメタデータを抽出できます-

最初に、 PyPDF2 という名前のサードパーティPythonライブラリをインストールして、XMP形式で保存されたメタデータを読み取ります。 次のようにインストールできます-

pip install PyPDF2

今、PDFファイルからメタデータを抽出するために次のライブラリをインポートします-

from __future__ import print_function
from argparse import ArgumentParser, FileType

import datetime
from PyPDF2 import PdfFileReader
import sys

これで、コマンドラインハンドラーは、基本的にPDFファイルのファイルパスを表す1つの位置引数を受け入れます。

parser = argparse.ArgumentParser('Metadata from PDF')
parser.add_argument('PDF_FILE', help='Path to PDF file',type=FileType('rb'))
args = parser.parse_args()

今、我々は次のように利用可能なメタデータを含むオブジェクトを提供するために* getXmpMetadata()*メソッドを使用することができます-

pdf_file = PdfFileReader(args.PDF_FILE)
xmpm = pdf_file.getXmpMetadata()

if xmpm is None:
   print("No XMP metadata found in document.")
   sys.exit()
  • custom_print()*メソッドを使用して、title、creator、contributorなどの関連する値を抽出および印刷できます。 次のように-
custom_print("Title: {}", xmpm.dc_title)
custom_print("Creator(s): {}", xmpm.dc_creator)
custom_print("Contributors: {}", xmpm.dc_contributor)
custom_print("Subject: {}", xmpm.dc_subject)
custom_print("Description: {}", xmpm.dc_description)
custom_print("Created: {}", xmpm.xmp_createDate)
custom_print("Modified: {}", xmpm.xmp_modifyDate)
custom_print("Event Dates: {}", xmpm.dc_date)

また、次のように複数のソフトウェアを使用してPDFを作成する場合に* custom_print()*メソッドを定義することもできます-

def custom_print(fmt_str, value):
   if isinstance(value, list):
      print(fmt_str.format(", ".join(value)))
   elif isinstance(value, dict):
      fmt_value = [":".join((k, v)) for k, v in value.items()]
      print(fmt_str.format(", ".join(value)))
   elif isinstance(value, str) or isinstance(value, bool):
      print(fmt_str.format(value))
   elif isinstance(value, bytes):
      print(fmt_str.format(value.decode()))
   elif isinstance(value, datetime.datetime):
      print(fmt_str.format(value.isoformat()))
   elif value is None:
      print(fmt_str.format("N/A"))
   else:
      print("warn: unhandled type {} found".format(type(value)))

また、次のようにソフトウェアによって保存された他のカスタムプロパティを抽出することができます-

if xmpm.custom_properties:
   print("Custom Properties:")

   for k, v in xmpm.custom_properties.items():
      print("\t{}: {}".format(k, v))

上記のスクリプトはPDFドキュメントを読み取り、そのPDFが作成されたソフトウェアを使用して保存されたカスタムプロパティを含むXMP形式で保存されたメタデータを印刷します。

Windows実行可能ファイル

疑わしい、または不正な実行可能ファイルに遭遇する場合があります。 ただし、調査のためには、メタデータが埋め込まれているため便利です。 その場所、目的、製造業者、編集日などのその他の属性などの情報を取得できます。 次のPythonスクリプトの助けを借りて、コンパイル日、ヘッダーから有用なデータ、インポートされたシンボル、エクスポートされたシンボルを取得できます。

この目的のために、最初にサードパーティのPythonライブラリ pefile をインストールします。 それは次のように行うことができます-

pip install pefile

これを正常にインストールしたら、次のように次のライブラリをインポートします-

from __future__ import print_function

import argparse
from datetime import datetime
from pefile import PE

これで、コマンドラインハンドラは、基本的に実行可能ファイルのファイルパスを表す1つの位置引数を受け入れます。 また、詳細で詳細な方法または単純化された方法で必要な場合でも、出力のスタイルを選択できます。 このためには、以下に示すようにオプションの引数を与える必要があります-

parser = argparse.ArgumentParser('Metadata from executable file')
parser.add_argument("EXE_FILE", help = "Path to exe file")
parser.add_argument("-v", "--verbose", help = "Increase verbosity of output",
action = 'store_true', default = False)
args = parser.parse_args()

次に、PEクラスを使用して入力実行可能ファイルをロードします。 また、* dump_dict()*メソッドを使用して、実行可能データを辞書オブジェクトにダンプします。

pe = PE(args.EXE_FILE)
ped = pe.dump_dict()

以下に示すコードを使用して、埋め込みオーサーシップ、バージョン、コンパイル時間などの基本的なファイルメタデータを抽出できます-

file_info = {}
for structure in pe.FileInfo:
   if structure.Key == b'StringFileInfo':
      for s_table in structure.StringTable:
         for key, value in s_table.entries.items():
            if value is None or len(value) == 0:
               value = "Unknown"
            file_info[key] = value
print("File Information: ")
print("==================")

for k, v in file_info.items():
   if isinstance(k, bytes):
      k = k.decode()
   if isinstance(v, bytes):
      v = v.decode()
   print("{}: {}".format(k, v))
comp_time = ped['FILE_HEADER']['TimeDateStamp']['Value']
comp_time = comp_time.split("[")[-1].strip("]")
time_stamp, timezone = comp_time.rsplit(" ", 1)
comp_time = datetime.strptime(time_stamp, "%a %b %d %H:%M:%S %Y")
print("Compiled on {} {}".format(comp_time, timezone.strip()))

次のようにヘッダーから有用なデータを抽出できます-

for section in ped['PE Sections']:
   print("Section '{}' at {}: {}/{} {}".format(
      section['Name']['Value'], hex(section['VirtualAddress']['Value']),
      section['Misc_VirtualSize']['Value'],
      section['SizeOfRawData']['Value'], section['MD5'])
   )

次に、以下に示すように、実行可能ファイルからインポートおよびエクスポートのリストを抽出します-

if hasattr(pe, 'DIRECTORY_ENTRY_IMPORT'):
   print("\nImports: ")
   print("=========")

   for dir_entry in pe.DIRECTORY_ENTRY_IMPORT:
      dll = dir_entry.dll

      if not args.verbose:
         print(dll.decode(), end=", ")
         continue
      name_list = []

      for impts in dir_entry.imports:
         if getattr(impts, "name", b"Unknown") is None:
            name = b"Unknown"
         else:
            name = getattr(impts, "name", b"Unknown")
            name_list.append([name.decode(), hex(impts.address)])
      name_fmt = ["{} ({})".format(x[0], x[1]) for x in name_list]
      print('- {}: {}'.format(dll.decode(), ", ".join(name_fmt)))
   if not args.verbose:
      print()

次に、以下に示すコードを使用して、 exportsnames 、および addresses を印刷します-

if hasattr(pe, 'DIRECTORY_ENTRY_EXPORT'):
   print("\nExports: ")
   print("=========")

   for sym in pe.DIRECTORY_ENTRY_EXPORT.symbols:
      print('- {}: {}'.format(sym.name.decode(), hex(sym.address)))

上記のスクリプトは、基本的なメタデータ、Windows実行可能ファイルのヘッダーからの情報を抽出します。

Officeドキュメントのメタデータ

コンピューターでの作業のほとんどは、MS Officeの3つのアプリケーション(Word、PowerPoint、Excel)で行われます。 これらのファイルには膨大なメタデータが含まれており、そのメタデータにより、作成者や履歴に関する興味深い情報が公開されます。

2007形式のword(.docx)、excel(.xlsx)、およびpowerpoint(.pptx)のメタデータはXMLファイルに保存されていることに注意してください。 以下に示すPythonスクリプトを使用して、これらのXMLファイルをPythonで処理できます-

まず、以下に示すように必要なライブラリをインポートします-

from __future__ import print_function
from argparse import ArgumentParser
from datetime import datetime as dt
from xml.etree import ElementTree as etree

import zipfile
parser = argparse.ArgumentParser('Office Document Metadata’)
parser.add_argument("Office_File", help="Path to office file to read")
args = parser.parse_args()

次に、ファイルがZIPファイルかどうかを確認します。 それ以外の場合は、エラーが発生します。 今、ファイルを開き、次のコードを使用して処理するための重要な要素を抽出します-

zipfile.is_zipfile(args.Office_File)
zfile = zipfile.ZipFile(args.Office_File)
core_xml = etree.fromstring(zfile.read('docProps/core.xml'))
app_xml = etree.fromstring(zfile.read('docProps/app.xml'))

今、メタデータの抽出を開始するための辞書を作成します-

core_mapping = {
   'title': 'Title',
   'subject': 'Subject',
   'creator': 'Author(s)',
   'keywords': 'Keywords',
   'description': 'Description',
   'lastModifiedBy': 'Last Modified By',
   'modified': 'Modified Date',
   'created': 'Created Date',
   'category': 'Category',
   'contentStatus': 'Status',
   'revision': 'Revision'
}
  • iterchildren()*メソッドを使用して、XMLファイル内の各タグにアクセスします-
for element in core_xml.getchildren():
   for key, title in core_mapping.items():
      if key in element.tag:
         if 'date' in title.lower():
            text = dt.strptime(element.text, "%Y-%m-%dT%H:%M:%SZ")
         else:
            text = element.text
         print("{}: {}".format(title, text))

同様に、ドキュメントの内容に関する統計情報を含むapp.xmlファイルに対してこれを行います-

app_mapping = {
   'TotalTime': 'Edit Time (minutes)',
   'Pages': 'Page Count',
   'Words': 'Word Count',
   'Characters': 'Character Count',
   'Lines': 'Line Count',
   'Paragraphs': 'Paragraph Count',
   'Company': 'Company',
   'HyperlinkBase': 'Hyperlink Base',
   'Slides': 'Slide count',
   'Notes': 'Note Count',
   'HiddenSlides': 'Hidden Slide Count',
}
for element in app_xml.getchildren():
   for key, title in app_mapping.items():
      if key in element.tag:
         if 'date' in title.lower():
            text = dt.strptime(element.text, "%Y-%m-%dT%H:%M:%SZ")
         else:
            text = element.text
         print("{}: {}".format(title, text))

上記のスクリプトを実行した後、特定のドキュメントに関するさまざまな詳細を取得できます。 このスクリプトは、Office 2007以降のバージョンのドキュメントにのみ適用できることに注意してください。