Tensorflow-convolutional-neural-networks

提供:Dev Guides
移動先:案内検索

TensorFlow-畳み込みニューラルネットワーク

機械学習の概念を理解した後、焦点を深層学習の概念に移すことができます。 ディープラーニングは機械学習の一部であり、ここ数十年で研究者がとった重要なステップと考えられています。 ディープラーニングの実装例には、画像認識や音声認識などのアプリケーションが含まれます。

以下は、ディープニューラルネットワークの2つの重要なタイプです-

  • 畳み込みニューラルネットワーク
  • リカレントニューラルネットワーク

この章では、CNN、畳み込みニューラルネットワークに焦点を当てます。

畳み込みニューラルネットワーク

畳み込みニューラルネットワークは、アレイの複数のレイヤーを介してデータを処理するように設計されています。 このタイプのニューラルネットワークは、画像認識や顔認識などのアプリケーションで使用されます。 CNNと他の通常のニューラルネットワークの主な違いは、CNNが入力を2次元配列として受け取り、他のニューラルネットワークが焦点を当てる特徴抽出に焦点を当てるのではなく、画像に直接作用することです。

CNNの主要なアプローチには、認識の問題の解決策が含まれます。 GoogleやFacebookなどのトップ企業は、認識プロジェクトに向けた研究開発に投資して、活動をより迅速に完了させています。

畳み込みニューラルネットワークは3つの基本的なアイデアを使用します-

  • 現地の各分野
  • 畳み込み
  • プーリング

これらのアイデアを詳細に理解しましょう。

CNNは、入力データ内に存在する空間相関を利用します。 ニューラルネットワークの各同時層は、いくつかの入力ニューロンを接続します。 この特定の領域は、局所受容野と呼ばれます。 局所受容野は隠れたニューロンに焦点を合わせています。 隠されたニューロンは、特定の境界外の変更を実現せずに、言及されたフィールド内の入力データを処理します。

以下は、ローカルの各フィールドを生成する図表です-

畳み込みニューラルネットワーク

上記の表現を観察すると、各接続は、1つの層から別の層への移動に関連する接続を持つ隠れニューロンの重みを学習します。 ここでは、個々のニューロンが時々シフトを実行します。 このプロセスは「畳み込み」と呼ばれます。

入力レイヤーから非表示のフィーチャマップへの接続のマッピングは「共有ウェイト」として定義され、含まれるバイアスは「共有バイアス」と呼ばれます。

CNNまたは畳み込みニューラルネットワークは、CNN宣言の直後に配置されたプールレイヤーを使用します。 これは、畳み込みネットワークから得られる機能マップとしてユーザーからの入力を受け取り、圧縮された機能マップを準備します。 層のプーリングは、前の層のニューロンを持つ層の作成に役立ちます。

CNNのTensorFlow実装

このセクションでは、CNNのTensorFlow実装について学習します。 ネットワーク全体の実行と適切な次元を必要とする手順は、以下に示すとおりです-

  • ステップ1 *-TensorFlowに必要なモジュールと、CNNモデルの計算に必要なデータセットモジュールを含めます。
import tensorflow as tf
import numpy as np
from tensorflow.examples.tutorials.mnist import input_data

ステップ2 *- run_cnn()*という関数を宣言します。これには、データプレースホルダーの宣言を含むさまざまなパラメーターと最適化変数が含まれます。 これらの最適化変数は、トレーニングパターンを宣言します。

def run_cnn():
   mnist = input_data.read_data_sets("MNIST_data/", one_hot = True)
   learning_rate = 0.0001
   epochs = 10
   batch_size = 50

ステップ3 *-このステップでは、28 x 28ピクセル= 784の入力パラメーターでトレーニングデータプレースホルダーを宣言します。 これは、 mnist.train.nextbatch()*から描画される平坦化された画像データです。

要件に応じてテンソルを変更できます。 最初の値(-1)は、渡されたデータの量に基づいてそのディメンションを動的にシェーピングするように関数に指示します。 中間の2つの寸法は画像サイズに設定されます(つまり、 28 x 28)。

x = tf.placeholder(tf.float32, [None, 784])
x_shaped = tf.reshape(x, [-1, 28, 28, 1])
y = tf.placeholder(tf.float32, [None, 10])
  • ステップ4 *-畳み込み層を作成することが重要です-
layer1 = create_new_conv_layer(x_shaped, 1, 32, [5, 5], [2, 2], name = 'layer1')
layer2 = create_new_conv_layer(layer1, 32, 64, [5, 5], [2, 2], name = 'layer2')
  • ステップ5 *-出力を完全に接続された出力ステージの準備を整えます-28 x 28の寸法の2層のストライド2プーリングの後、14 x 14または最小7 x 7 x、y座標の寸法に、ただし出力チャンネルは64です。 「密」レイヤーと完全に接続されたレイヤーを作成するには、新しい形状が[-1、7 x 7 x 64]である必要があります。 このレイヤーにいくつかの重みとバイアス値を設定し、ReLUでアクティブ化できます。
flattened = tf.reshape(layer2, [-1, 7 *7* 64])

wd1 = tf.Variable(tf.truncated_normal([7 *7* 64, 1000], stddev = 0.03), name = 'wd1')
bd1 = tf.Variable(tf.truncated_normal([1000], stddev = 0.01), name = 'bd1')

dense_layer1 = tf.matmul(flattened, wd1) + bd1
dense_layer1 = tf.nn.relu(dense_layer1)
  • ステップ6 *-必要なオプティマイザーを使用した特定のsoftmaxアクティベーションを持つ別のレイヤーが精度評価を定義し、初期化演算子のセットアップを行います。
wd2 = tf.Variable(tf.truncated_normal([1000, 10], stddev = 0.03), name = 'wd2')
bd2 = tf.Variable(tf.truncated_normal([10], stddev = 0.01), name = 'bd2')

dense_layer2 = tf.matmul(dense_layer1, wd2) + bd2
y_ = tf.nn.softmax(dense_layer2)

cross_entropy = tf.reduce_mean(
   tf.nn.softmax_cross_entropy_with_logits(logits = dense_layer2, labels = y))

optimiser = tf.train.AdamOptimizer(learning_rate = learning_rate).minimize(cross_entropy)

correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

init_op = tf.global_variables_initializer()
  • ステップ7 *-記録変数を設定する必要があります。 これにより、データの正確性を保存するための要約が追加されます。
tf.summary.scalar('accuracy', accuracy)
   merged = tf.summary.merge_all()
   writer = tf.summary.FileWriter('E:\TensorFlowProject')

   with tf.Session() as sess:
      sess.run(init_op)
      total_batch = int(len(mnist.train.labels)/batch_size)

      for epoch in range(epochs):
         avg_cost = 0
      for i in range(total_batch):
         batch_x, batch_y = mnist.train.next_batch(batch_size = batch_size)
            _, c = sess.run([optimiser, cross_entropy], feed_dict = {
            x:batch_x, y: batch_y})
            avg_cost += c/total_batch
         test_acc = sess.run(accuracy, feed_dict = {x: mnist.test.images, y:
            mnist.test.labels})
            summary = sess.run(merged, feed_dict = {x: mnist.test.images, y:
            mnist.test.labels})
         writer.add_summary(summary, epoch)

   print("\nTraining complete!")
   writer.add_graph(sess.graph)
   print(sess.run(accuracy, feed_dict = {x: mnist.test.images, y:
      mnist.test.labels}))

def create_new_conv_layer(
   input_data, num_input_channels, num_filters,filter_shape, pool_shape, name):

   conv_filt_shape = [
      filter_shape[0], filter_shape[1], num_input_channels, num_filters]

   weights = tf.Variable(
      tf.truncated_normal(conv_filt_shape, stddev = 0.03), name = name+'_W')
   bias = tf.Variable(tf.truncated_normal([num_filters]), name = name+'_b')

#Out layer defines the output
   out_layer =
      tf.nn.conv2d(input_data, weights, [1, 1, 1, 1], padding = 'SAME')

   out_layer += bias
   out_layer = tf.nn.relu(out_layer)
   ksize = [1, pool_shape[0], pool_shape[1], 1]
   strides = [1, 2, 2, 1]
   out_layer = tf.nn.max_pool(
      out_layer, ksize = ksize, strides = strides, padding = 'SAME')

   return out_layer

if __name__ == "__main__":
run_cnn()

以下は、上記のコードによって生成された出力です-

See @{tf.nn.softmax_cross_entropy_with_logits_v2}.

2018-09-19 17:22:58.802268: I
T:\src\github\tensorflow\tensorflow\core\platform\cpu_feature_guard.cc:140]
Your CPU supports instructions that this TensorFlow binary was not compiled to
use: AVX2

2018-09-19 17:25:41.522845: W
T:\src\github\tensorflow\tensorflow\core\framework\allocator.cc:101] Allocation
of 1003520000 exceeds 10% of system memory.

2018-09-19 17:25:44.630941: W
T:\src\github\tensorflow\tensorflow\core\framework\allocator.cc:101] Allocation
of 501760000 exceeds 10% of system memory.

Epoch: 1 cost = 0.676 test accuracy: 0.940

2018-09-19 17:26:51.987554: W
T:\src\github\tensorflow\tensorflow\core\framework\allocator.cc:101] Allocation
of 1003520000 exceeds 10% of system memory.