DeepLearningを使った技術例

DeepLearningの技術を使って実現されているいくつかの手法、機能についてまとめています.

2018.10.21

144

Views
0

Watch
4

Knows

WhisperはOpenAIが発表した音声データから文字を読み取る自動音声認識を目的としたAIモデルです.Transformerをベースとしたシンプルな構成で、99言語の文字起こしと翻訳が可能です.モデルサイズごとに性能が異なりますがLargeサイズは人間に遜色ないレベルです.

Stable Diffusion

Stable DiffusionはDiffusion Modelをベースとして潜在変数を主に処理しながらユーザのテキスト入力に沿った新しい画像を生成する技術. Stable Diffusionの仕組みを簡単に紹介する.

CNNで画像内文字列をOCR

CNNを使って画像の文字列を認識してプログラムで扱える文字列に起こすOCRの例について紹介します.文字列が可変の場合に対応したCNN+LSTMで構成される基本的なネットワークです.

Super SlomoはNVidiaによって発表されたスローモーションを実現するために作成されたフレーム間補間を行う技術.Convolutional Neural Network(CNN, Unet)を主に用いている.

DeepLearningを使った技術例の新規投稿

WhisperはOpenAIが発表した音声データから文字を読み取る自動音声認識を目的としたAIモデルです.Transformerをベースとしたシンプルな構成で、99言語の文字起こしと翻訳が可能です.モデルサイズごとに性能が異なりますがLargeサイズは人間に遜色ないレベルです.

Stable Diffusion

Stable DiffusionはDiffusion Modelをベースとして潜在変数を主に処理しながらユーザのテキスト入力に沿った新しい画像を生成する技術. Stable Diffusionの仕組みを簡単に紹介する.

CNNで画像内文字列をOCR

CNNを使って画像の文字列を認識してプログラムで扱える文字列に起こすOCRの例について紹介します.文字列が可変の場合に対応したCNN+LSTMで構成される基本的なネットワークです.

Super SlomoはNVidiaによって発表されたスローモーションを実現するために作成されたフレーム間補間を行う技術.Convolutional Neural Network(CNN, Unet)を主に用いている.

DeepLearningを使った技術例人気知識・質問

CNNで画像内文字列をOCR

CNNを使って画像の文字列を認識してプログラムで扱える文字列に起こすOCRの例について紹介します.文字列が可変の場合に対応したCNN+LSTMで構成される基本的なネットワークです.

Stable Diffusion

Stable DiffusionはDiffusion Modelをベースとして潜在変数を主に処理しながらユーザのテキスト入力に沿った新しい画像を生成する技術. Stable Diffusionの仕組みを簡単に紹介する.

Super SlomoはNVidiaによって発表されたスローモーションを実現するために作成されたフレーム間補間を行う技術.Convolutional Neural Network(CNN, Unet)を主に用いている.

WhisperはOpenAIが発表した音声データから文字を読み取る自動音声認識を目的としたAIモデルです.Transformerをベースとしたシンプルな構成で、99言語の文字起こしと翻訳が可能です.モデルサイズごとに性能が異なりますがLargeサイズは人間に遜色ないレベルです.