AI画像認識の全体像について

COLUMN コラム詳細

1 画像認識とは｜「画像を入力として、判断や計測に使える出力へ変換する」技術
2 画像分類｜「この画像は何か」をラベルで判定する
3 Re-ID｜「同じ個体か」を特徴量で照合する
4 物体追跡｜「動画の中で同じ対象を追い続ける」
5 異常検知｜「いつもと違う」を早期に見つける
6 セグメンテーション｜「どこに何があるか」を画素単位で切り分ける
7 姿勢推定｜人や物の「骨格」を座標で捉える
8 行動認識｜「何をしているか」を時系列で判断する
9 ビジネスにおける画像認識まとめ｜「モデル」より「業務で回る仕組み」
- 9.1 監修者プロフィール

画像認識とは｜「画像を入力として、判断や計測に使える出力へ変換する」技術

画像認識は、カメラ画像や動画を入力として、現実世界の状態を読み取り、業務の意思決定に使える形で出力する技術の総称です。ポイントは、画像を「見る」ことではなく、画像から得られる情報を「判断できるデータ」に変換することにあります。人の目なら一瞬で分かる、良否の判定、混雑の状況、危険行動の兆候といった暗黙知を、システムが扱える形に落とし込みます。

ここで誤解されやすいのが、「画像認識＝高性能なモデルを入れれば解決する」という見方です。実務で成果が出るかどうかは、モデルの名前ではなく、何を入力し、何を出力し、その出力を業務のどの判断点に差し込むかで決まります。同じ画像でも、求める出力が違えば、必要なデータも評価方法も運用設計も別物になります。たとえば「この画像は不良品か」という判定と、「不良がどこにどれだけあるか」という計測では、求める出力が異なるため、選ぶべきアプローチも変わります。

画像認識を理解するうえで、まず整理するべき点は、最終的にどのような出力を返すかです。ビジネスの現場では、画像認識の価値は大きく次の形に現れます。

・判断の自動化：一次判定を自動にし、人は例外だけを見る
・計測の自動化：人数、面積、滞在時間などを数値として取り出す
・記録と監査：現場の状態をログとして残し、再発防止や品質保証につなげる

そして、この価値を実現するために必要なのが「タスク」を知ることです。画像認識は万能な一枚岩ではなく、目的に応じて複数の代表的タスクに分かれています。タスクを押さえると、次の3点が一度に決めやすくなります。

・欲しい出力の形：ラベルか、位置か、領域か、IDか、時系列か
・必要なデータの作り方：どの様なラベルが必要で、どの程度集めるか
・運用の設計：迷うときに人へ戻す条件、ログの取り方、改善の回し方

つまり、タスクを理解することは、技術の教養というより、プロジェクトを迷走させないための設計図を持つことに近いです。そこで次章以降では、画像認識で頻出のタスクを、入出力の形とビジネス応用のイメージに紐づけて紹介します。

画像分類｜「この画像は何か」をラベルで判定する

画像分類は、入力として画像1枚を受け取り、出力としてカテゴリラベル（例：正常／異常、A製品／B製品、良品／不良品）や確率（スコア）を返すタスクです。ポイントは、分類結果そのものより、そのラベルで業務フローを分岐できることにあります。たとえば「要確認だけ人に回す」「正常は自動で通す」と設計できれば、工数削減につながります。

実務で効く設計は、100％自動化よりも、信頼度で線を引く形です。
・高信頼：自動処理（例：OKとして次工程へ）
・中信頼：人が確認（例：検査員に回す）
・低信頼：撮り直しや追加情報を要求（例：画像不足として再撮影）

こうすると、AIが揺れても、業務が止まりにくくなります。

ビジネスの応用例としては以下のようなものがあります。
・製造：部品の外観を「良品／不良品」に分類し、検査員は要確認だけを見る
・小売／EC：商品画像からカテゴリを自動付与し、登録作業や検索精度を改善する
・保守点検：設備写真を「腐食あり／なし」「劣化レベル」などに分類し、優先度を付ける
・オフィス／現場：書類のスキャン画像を「請求書／見積書／契約書」に振り分け、後工程を自動化する

注意点は、分類ラベルの定義が曖昧だと精度の上限が決まることです。「不良」の境界が担当者で違う、撮影条件が現場ごとに違う、という状態ではPoCは通っても本番で崩れます。先に「ラベル定義」「撮影ルール」「例外時の扱い」を決めることが、分類導入の近道です。

Re-ID｜「同じ個体か」を特徴量で照合する

Re-ID（リ・アイディー）は、別のカメラから同一人物や同一個体を探す技術です。入力は、人物の切り出し画像（監視カメラや店内カメラで人が映っている部分）で、出力は「同じ人物っぽさの順番」です。つまりRe-IDは、「これは田中さんです」と名前を当てる技術ではなく、「この画像に一番近い人は誰か」を候補として並べてくれる技術です。

典型的な使い方は、次の流れです。
・入力：画像中の人物／物体の切り出し（複数カメラ、別時刻でもよい）
・処理：特徴量を計算し、過去データベースと距離で比較
・出力：最も近い候補、スコア、または同一IDへの紐づけ

ここで重要なのは、完全一致を狙うより、「候補を10件に絞る」だけでも業務価値が出る点です。人手照合の負担を大きく減らせます。

ビジネスの応用例としては以下のようなものがあります。
・小売：来店客の行動分析で、同一人物をカメラ横断で追跡し、滞在や回遊を推定する
・交通：駅やバス車内で、乗車時と降車時の同一人物を結び、混雑や導線の分析に使う
・物流：箱や台車などの資産をカメラで識別し、取り違えや紛失の兆候を早期に検知する
・セキュリティ：監視映像から人物を再特定し、探索時間を短縮する

注意点は、Re-IDは環境差に弱いことです。照明、カメラ角度、遮蔽、服装変化で精度が落ちます。そのため本番では、「スコアが低い場合は人に戻す」「一定時間だけ同一とみなす」など、例外設計と運用ルールをセットで作るのが成功の鍵です。

物体追跡｜「動画の中で同じ対象を追い続ける」

物体追跡は、入力として動画を受け取り、出力として各フレームの物体位置と、フレームをまたいで一貫したIDを返すタスクです。分類や検出が「1枚の画像で完結」するのに対し、追跡は時間方向のつながりを扱います。そのため価値は、「検出できたか」より「同じ対象として数え続けられるか」にあります。

一般的な処理の流れは次の通りです。
・入力：動画、または各フレームの検出結果
・処理：位置の近さや見た目特徴（Re-IDの特徴量）で関連付け
・出力：対象ごとの軌跡、速度、滞在時間、通過回数などの時系列情報

追跡ができると、「何があるか」だけでなく、「どこから来てどこへ行ったか」を扱えるようになります。

また、ビジネスの応用例としては以下のようなものがあります。
・小売：店内カメラで回遊や滞在を推定し、レイアウト改善や導線設計に使う
・工場：ライン上の部品や製品を追い、取り違え、滞留、詰まりを検知する
・物流：荷物やフォークリフトの動線を可視化し、危険エリアの接近をアラートする
・交通：交差点で車両や歩行者を追い、混雑、危険挙動、信号制御の分析に使う

現場での難所は、遮蔽や見失いです。人が重なる、棚で隠れる、画角外に出入りするだけでIDが切れ、カウントが崩れます。そのため「完全追跡」を前提にせず、IDが切れたときの扱いを先に決めます。たとえば「一定時間以内の再出現は同一とみなす」「重要区間だけ追跡する」など、業務目的に合わせて追跡範囲と例外ルールを絞ることが、実装を現実的にします。

異常検知｜「いつもと違う」を早期に見つける

異常検知は、入力として画像や動画を受け取り、出力として異常スコア（どれだけ普段と違うか）や、異常箇所のヒートマップを返すタスクです。分類のように「異常の種類」を当てるのではなく、正常からのズレを手がかりに検知する点が特徴です。そのため、異常パターンが多様で、ラベルを集めにくい現場ほど相性が良いです。

典型的な運用は次の形になります。
・入力：主に正常データ（良品画像、正常稼働時の映像）を大量に用意する
・処理：正常の分布を学習し、そこから外れるものを高スコアとして出す
・出力：異常スコア、しきい値判定（要確認／OK）、異常が疑われる領域

ここで重要なのは、「異常＝必ず不良」とは限らない点です。異常検知はアラート装置なので、最終判断は人や後工程と組み合わせます。

また、ビジネスの応用例としては以下のようなものがあります。
・製造：外観検査で、傷、汚れ、欠けなど未知の不良を早期に拾い、人が原因を特定する
・設備保全：メーターや配管の画像から、漏れ、錆、異物付着などの兆候を検知する
・物流：梱包状態や封緘の乱れを検知し、出荷前の見落としを減らす
・セキュリティ：立入禁止エリアの「普段と違う人や物の動き」を検知し、監視負荷を下げる

注意点は、しきい値と運用設計です。しきい値を厳しくすると見逃しは減りますが誤検知が増え、現場はアラート疲れします。逆に緩いと見逃します。現実的には、異常スコアに応じて「自動OK」「要確認」「即時停止」のように段階を作り、例外導線と責任分界を決めることが、本番で使われ続ける条件になります。

セグメンテーション｜「どこに何があるか」を画素単位で切り分ける

セグメンテーションは、入力として画像を受け取り、出力として各画素にクラスラベルを付けたマスク画像を返すタスクです。物体検出が「四角で囲む」のに対し、セグメンテーションは輪郭に沿って塗り分けるため、面積、形状、欠け具合などを定量化できます。精密さが必要な現場ほど価値が出ます。

これらは、大きく2種類あります。
・セマンティック：同じ種類（例：背景／道路／人）をまとめて塗る
・インスタンス：同じ種類でも個体ごと（例：人1、人2）に分けて塗る

入出力で見ると、画像1枚から「物体の領域情報（マスク）」を得るタスクであり、その後工程で長さや面積の計測、異常部位の抽出、接触判定などに接続できます。

また、ビジネスの応用例としては以下のようなものがあります。
・製造：塗装ムラ、欠け、バリなどの不良領域を抽出し、面積や位置で合否判定する
・建設／インフラ：ひび割れや劣化部位を領域として抽出し、補修優先度を定量化する
・医療／ヘルスケア：臓器や病変候補の領域を抽出し、計測や読影支援に使う
・農業：作物と雑草、土壌を塗り分け、生育状況や作業量見積もりに活用する

難所はデータ作りです。画素単位のラベル付けはコストが高く、定義が揺れると精度が頭打ちになります。そのため本番では、「まず粗い検出で候補を絞り、必要な工程だけセグメンテーションを使う」「人の修正を前提に半自動化する」といった段階設計が現実的です。セグメンテーションは、精度だけでなく、ラベル設計と運用設計で導入の成否が決まります。

姿勢推定｜人や物の「骨格」を座標で捉える

姿勢推定は、入力として人物（または動物、ロボットなど）の画像や動画を受け取り、出力として関節点（キーポイント）の座標や信頼度を返すタスクです。代表的には肩、肘、手首、股関節、膝、足首などを2次元座標で推定し、場合によっては3次元姿勢まで推定します。物体追跡が「箱を追う」のに対し、姿勢推定は体の形と動き方をデータ化できる点が強みです。

入出力のイメージは次の通りです。
・入力：人物画像／動画（全身が写るほど安定）
・出力：関節点座標＋信頼度、骨格のつながり、場合により姿勢クラス

これにより、角度（肘の曲がり）、距離（手と顔の近さ）、速度（動きの速さ）などを算出でき、作業の定量評価や危険動作の検知に接続できます。

また、ビジネスの応用例としては以下のようなものがあります。
・製造／物流：腰を曲げた持ち上げ動作、無理な姿勢、危険エリアでの不安全行動を検知し、労災予防に使う
・介護／医療：転倒リスクの兆候、歩行の左右差、リハビリのフォーム評価を支援する
・スポーツ：フォームの比較、関節角度の変化の可視化、トレーニング効果の検証に使う
・小売：棚前での手の動きや滞在姿勢を分析し、接客タイミングや陳列改善に活用する

注意点は、カメラ条件とプライバシーです。遮蔽、逆光、俯瞰角度、混雑で関節点が崩れますし、精度が落ちると誤検知が増えます。また人物の身体情報を扱うため、保存範囲や匿名化、利用目的の明確化が不可欠です。実運用では、映像を保存せずキーポイントだけ保持する、信頼度が低いフレームは判定対象外にする、などの設計で「回る仕組み」に落とすことが重要です。

行動認識｜「何をしているか」を時系列で判断する

行動認識は、入力として動画クリップ（数秒〜数十秒）や時系列データを受け取り、出力として行動ラベル（例：転倒、作業中、滞留、盗難行為の疑い）や、行動の開始・終了時刻を返すタスクです。画像分類が「何が写っているか」だとすると、行動認識は「何が起きたか」を推定します。物体追跡や姿勢推定と組み合わせると、より安定します。

入出力の代表例は次です。
・入力：動画フレーム列、または人物の追跡軌跡、キーポイント列
・出力：行動ラベル、確信度、異常行動スコア、区間（いつ起きたか）

実装の勘所は、「一発で当てる」より、行動を定義し、検知対象を絞ることです。行動は曖昧になりやすく、ラベルの揺れが精度の上限を決めます。

また、ビジネスの応用例としては以下のようなものがあります。
・介護／見守り：転倒、長時間の動きなし、徘徊の兆候を検知し、必要時だけ通知する
・製造／安全：保護具未着用、危険エリア侵入、危険姿勢の反復を検知し、ヒヤリハットを減らす
・小売／防犯：万引き行為の兆候、不審な滞留、立入禁止区域への侵入を早期に拾う
・店舗運営：接客待ち、行列の発生、レジ滞留などを検知し、人員配置の判断に使う

運用上の注意は誤検知です。行動は誤検知が起きやすく、アラートが多いと現場が無視するようになります。そのため、通知のレベル設計が重要です。たとえば「確信度が高いときだけ即通知」「低いときはログに蓄積して後から分析」「一定時間継続した場合のみ検知」など、例外導線と責任分界を要件に落とすと、本番で回りやすくなります。

ビジネスにおける画像認識まとめ｜「モデル」より「業務で回る仕組み」

画像認識は、技術名を覚えるより、課題を入出力で整理してタスクを選ぶと導入判断が速くなります。画像分類は「何か」を判定し、Re-IDは「同一人物か」をつなぎ、物体追跡は「どこへ動いたか」を追います。異常検知は「いつもと違う」を拾い、セグメンテーションは「どこが対象か」を切り出し、姿勢推定は「体の形」を座標化し、行動認識は「何をしているか」を時間軸で判断します。

ビジネスで成果を出すコツは、最初から100％自動化を狙わないことです。高信頼だけ自動にし、迷うケースは人に戻し、ログを溜めて改善する。この3点が揃うと、本番で定着しやすくなります。

導入前に見るべきポイントも3つに絞れます。
・入力品質：本番の撮影条件が安定するか
・データ設計：ラベル定義が揺れず、品質管理できるか
・運用設計：誤検知時の判断者と改善手順が決まっているか

画像認識の価値は、モデルの性能だけではなく、現場で回り続ける仕組みにできるかで決まります。

無料でAIシステム開発について相談する

監修者プロフィール

フレシット株式会社　代表取締役　増田順一
柔軟な発想でシステム開発を通して、お客さまのビジネスを大きく前進させていくパートナー。さまざまな業界・業種・企業規模のお客さまの業務システムからWEBサービスまで、多岐にわたるシステムの開発を手がける。一からのシステム開発だけでは無く、炎上案件や引継ぎ案件の経験も豊富。システム開発の最後の砦、殿（しんがり）。システム開発の敗戦処理のエキスパート。