Thoth Children
ログイン
知識投稿
他サービス
Thothnator
Thoth Coworker
ウジャトで理解する学問
You Only Search Once(β)
Thoth Hieroglyph
ヒエログリフ変換
DeepLearningを使った技術例
編集
DeepLearningの技術を使って実現されているいくつかの手法、機能についてまとめています.
編集
2018.10.21
81
Views
0
Watch
4
Knows
Watch登録
知識登録
削除申請
一つ上へ
Whisper
WhisperはOpenAIが発表した音声データから文字を読み取る自動音声認識を目的としたAIモデルです.Transformerをベースとしたシンプルな構成で、99言語の文字起こしと翻訳が可能です.モデルサイズごとに性能が異なりますがLargeサイズは人間に遜色ないレベルです.
Stable Diffusion
Stable DiffusionはDiffusion Modelをベースとして潜在変数を主に処理しながらユーザのテキスト入力に沿った新しい画像を生成する技術. Stable Diffusionの仕組みを簡単に紹介する.
CNNで画像内文字列をOCR
CNNを使って画像の文字列を認識してプログラムで扱える文字列に起こすOCRの例について紹介します.文字列が可変の場合に対応したCNN+LSTMで構成される基本的なネットワークです.
Super Slomo
Super SlomoはNVidiaによって発表されたスローモーションを実現するために作成されたフレーム間補間を行う技術.Convolutional Neural Network(CNN, Unet)を主に用いている.
×
新しい分野を追加
×
新しい知識を追加
×
分野の削除申請
×
移動または削除を行うには理由を申請ください。
理由
他の分野の移動の場合は分野を設定してください。 削除要請される場合はそのまま下のボタンを押下してください.
分野:
学問
技術
言語
高校
中学
一般
物性
道具
思考
計算
アルゴ
その他
分野の説明を編集
×
分野のタイトルを編集
×
DeepLearningを使った技術例の新規投稿
Whisper
WhisperはOpenAIが発表した音声データから文字を読み取る自動音声認識を目的としたAIモデルです.Transformerをベースとしたシンプルな構成で、99言語の文字起こしと翻訳が可能です.モデルサイズごとに性能が異なりますがLargeサイズは人間に遜色ないレベルです.
PV
17
Fav
0
2024.07.06
Stable Diffusion
Stable DiffusionはDiffusion Modelをベースとして潜在変数を主に処理しながらユーザのテキスト入力に沿った新しい画像を生成する技術. Stable Diffusionの仕組みを簡単に紹介する.
PV
234
Fav
0
2022.09.05
CNNで画像内文字列をOCR
CNNを使って画像の文字列を認識してプログラムで扱える文字列に起こすOCRの例について紹介します.文字列が可変の場合に対応したCNN+LSTMで構成される基本的なネットワークです.
PV
528
Fav
0
2018.12.06
Super Slomo
Super SlomoはNVidiaによって発表されたスローモーションを実現するために作成されたフレーム間補間を行う技術.Convolutional Neural Network(CNN, Unet)を主に用いている.
PV
188
Fav
0
2018.10.21
DeepLearningを使った技術例人気知識・質問
CNNで画像内文字列をOCR
CNNを使って画像の文字列を認識してプログラムで扱える文字列に起こすOCRの例について紹介します.文字列が可変の場合に対応したCNN+LSTMで構成される基本的なネットワークです.
PV
528
Fav
0
2018.12.06
Stable Diffusion
Stable DiffusionはDiffusion Modelをベースとして潜在変数を主に処理しながらユーザのテキスト入力に沿った新しい画像を生成する技術. Stable Diffusionの仕組みを簡単に紹介する.
PV
234
Fav
0
2022.09.05
Super Slomo
Super SlomoはNVidiaによって発表されたスローモーションを実現するために作成されたフレーム間補間を行う技術.Convolutional Neural Network(CNN, Unet)を主に用いている.
PV
188
Fav
0
2018.10.21
Whisper
WhisperはOpenAIが発表した音声データから文字を読み取る自動音声認識を目的としたAIモデルです.Transformerをベースとしたシンプルな構成で、99言語の文字起こしと翻訳が可能です.モデルサイズごとに性能が異なりますがLargeサイズは人間に遜色ないレベルです.
PV
17
Fav
0
2024.07.06