AI × 数学用語集

AI × 数学に頻出の関連用語を、ゆるい感じで説明する用語集です。必要に応じて参照してください。

A
Activation Function – 活性化関数
ニューラルネットワークの各層で、入力をそのまま出すかどうかを決める関数ですね。
線形変換のあとに非線形性を加えることで、モデルが複雑な関係を学習できるようになります。
ReLUやシグモイドなどが代表例です。

★ 実務での利用例 ★
AIでは、活性化関数の選び方が学習の安定性や性能に直結します。
目的に応じて関数を切り替えることで、画像認識や分類タスクの精度をうまく引き上げているんですね。
Area Under the Curve – AUC
ROC曲線(真陽性率と偽陽性率の関係を描いた曲線)の下にある面積を表す指標で、分類モデルの性能を総合的に評価するために使われます。
値は 0.50.51.01.0 の範囲をとり、1.01.0 に近いほど「正例を正しく高く評価できている」ということなんですね。

★ 実務での利用例 ★
スパムメール判定モデルの性能比較で、正解率だけでなくAUCも見ることで、判定のしきい値に依存しないモデルの実力を評価できます。異なるモデルを公平に比べたいときに役立つ指標といった感じですね。
Attention Mechanism – Attention機構
複数の情報の中から「どこを重視するか」を重み付きで決める仕組みですね。
各要素の重要度をスコアとして計算し、重み付き和で情報を集約します。
基本形は Attention(Q,K,V)=softmax ⁣(QKd)V\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d}}\right)V と表されます。

★ 実務での利用例 ★
文章生成AIでは、文中のどの単語が今の単語に関係深いかをAttentionで判断します。
これにより、長い文章でも文脈を保った自然な文章生成ができるんですね。
B
Backpropagation(Error Backpropagation) – 誤差逆伝播法
出力の誤差をもとにして、ネットワークを逆向きにたどりながら各重みの修正量を計算する方法ですね。
微分の連鎖律(チェインルール)を使って Lw\frac{\partial L}{\partial w} を効率よく求め、少しずつ重みを更新していきます。
深いモデルでも学習できるようにした、かなり重要な仕組みです。

★ 実務での利用例 ★
AIでは、ほぼすべてのニューラルネットワーク学習で誤差逆伝播法が使われています。
「結果がどれだけズレたか」を手がかりに、自動でモデルを賢くしていく中核技術です。
Bayes’ Theorem – ベイズの定理
事前の確率(事前確率)を、観測データをもとに更新するための公式です。
数式では P(AB)=P(BA)P(A)P(B)P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}​ と表され、新しい情報によって信念を合理的に修正する仕組みなんですね。
「仮説の確からしさをデータでアップデートする法則」といったイメージです。

★ 実務での利用例 ★
医療診断AIでは、ある病気の事前確率に対して「検査結果が陽性だった」という情報を使い、実際に病気である確率を再計算します。スパム判定やレコメンドなどでも同じ考え方が活躍しているんですね。
C
Conditional Probability – 条件付き確率
ある事象 BB が起きたという条件のもとで、別の事象 AA が起こる確率を表します。
数式では P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)} と書き、情報が増えることで確率が変わるのがポイントですね。
「前提があると見方が変わる確率」といったイメージです。

★ 実務での利用例 ★
迷惑メール判定では、「特定の単語が含まれている」という条件のもとで「スパムである確率」を計算します。こうした条件付き確率の考え方は、ベイズ推定や分類アルゴリズムの基礎としてAIで広く使われているんですね。
Confusion Matrix – 混同行列
分類モデルの予測結果と実際の正解ラベルを対応させて集計した表で、モデルの性能を詳しく見るための道具です。
「正解を正しく当てた数」と「間違えた数」を、例えば2値分類なら TP,FP,FN,TN\text{TP}, \text{FP}, \text{FN}, \text{TN} の4つに分けて整理します。どんな種類のミスが多いのかが一目でわかるのがポイントなんですね。

★ 実務での利用例 ★
スパムメール判定や医療診断AIで、「見逃し(FN)」がどれくらいあるかをチェックするために使われています。単なる正解率だけでなく、どんなミスをしているかを分析して、安全性や信頼性を高めるのに役立っているんです。
G
Gradient Descent – 勾配降下法
誤差を最小にするために、関数の傾き(勾配)に沿って少しずつ値を更新していく最適化手法です。
更新式は θθηf(θ)\theta \leftarrow \theta – \eta \nabla f(\theta) のように表され、η\eta は学習率と呼ばれる調整パラメータです。
山を下るときに、一番急な下り坂を選びながら少しずつ進むイメージといった感じです。

★ 実務での利用例 ★
画像認識や文章生成などのAIモデルは、予測と正解のズレ(誤差)を小さくする必要があります。勾配降下法はその誤差を減らすためにパラメータを自動調整する仕組みとして使われており、ディープラーニングの学習の中核を担っているんですね。
L
Large Language Model – LLM
大量のテキストデータから言語の確率構造を学習し、次に来そうな単語を予測することで文章を生成するモデルですね。
基本は、P(次の単語∣これまでの文脈) を高精度に近似する仕組みで、文脈理解や要約が得意といった感じです。

★ 実務での利用例 ★
FAQ対応の自動化に使われ、担当者が全文を読まなくても要点をすばやく把握できるように支えてくれるんですね。ChatGPTやGeminiも中身はLLMで、LLMを人と対話しやすいチャット形式にしたサービスだと考えると分かりやすいですね
Linear Model – 線形モデル
入力と出力の関係を「足し算」と「掛け算」だけで表す、とてもシンプルなモデルです。
代表例は y=ax+by = ax + b の形で、影響の強さが係数としてそのまま見えるのが特徴ですね。
構造が分かりやすく、解析や説明がしやすいのが強みといった感じです。

★ 実務での利用例 ★
広告費と売上の関係をざっくり把握したいときなどに使われます。
「広告費を1万円増やすと、平均で売上がどれくらい伸びるか」を説明する用途で、AIやデータ分析の入り口としてよく登場します。
M
Matrix – 行列
数を縦横に並べた表のような構造で、複数の数値をまとめて扱えるのが特徴ですね。
ベクトルの集まりと考えることもでき、行列同士の積によって変換や対応関係を表せます。
たとえば Ax=yA\mathbf{x}=\mathbf{y} のように、入力を別の形に写す役割を持ちます。

★ 実務での利用例 ★
AIでは、ニューラルネットワークの重みが行列として表現されます。
入力データに行列演算を行うことで、特徴を変換しながら学習や予測を進めているんですね。
Maximum Likelihood Estimation(MLE)- 最尤推定
観測されたデータが「最も起こりやすくなる」ように、モデルのパラメータを決める考え方ですね。
確率モデル p(xθ)p(x \mid \theta) に対して、尤度 L(θ)=ip(xiθ)L(\theta)=\prod_i p(x_i \mid \theta) を最大化します。
対数を取って ilogp(xiθ)\sum_i \log p(x_i \mid \theta) を最大化する形で扱うことが多いです。

★ 実務での利用例 ★
AIでは、回帰や分類モデルの学習で最尤推定がよく使われます。
「このデータが一番自然に説明できる設定はどれか?」を基準に、モデルを自動で調整しているんですね。
N
Neural Network – ニューラルネットワーク
ニューラルネットワーク人の脳の神経回路をヒントにしたモデルで、入力→中間層→出力という層構造を持ちます。
各層では重み付き和と活性化関数を使って情報を変換していきます。
単純な部品の組み合わせですが、重ねることで複雑なパターンも表現できるんですね。

★ 実務での利用例 ★
AIでは、画像認識や音声認識、文章生成など幅広い分野で使われています。
大量のデータから特徴を自動で学習できるため、人手では難しい判断もこなせるようになるんですね。
P
probability distribution – 確率分布
起こりうる結果それぞれに「どれくらいの確率か」を対応づけたもの。
結果がいくつか考えられるときに、「それぞれがどれくらい起こりやすいか」をまとめた表やルールのことですね。サイコロなら「1〜6がそれぞれ1/6」、テストの点数なら「平均あたりが多く、極端な点は少ない」といったイメージです。
離散的な場合は確率の一覧、連続的な場合は密度関数で表し、全体の確率は必ず 1 になります。

★ 実務での利用例 ★
AIでは、モデルの予測結果を「確率分布」として出すのが定番です。
たとえば画像認識で「猫である確率0.8、犬0.2」といった形で不確実さを扱い、最も確からしい判断を選ぶ、といった感じですね。
R
Receiver Operating Characteristic Curve – ROC曲線
二値分類モデルの性能を評価するための曲線で、横軸に偽陽性率 FPR\text{FPR}、縦軸に真陽性率 TPR\text{TPR} をとって描きます。
しきい値を動かしたときの性能の変化を可視化でき、曲線が左上に近いほど良いモデルといえます。

★ 実務での利用例 ★
医療診断AIなどで「どのしきい値にするか」を検討するときに使われます。見逃しを減らすか、誤検知を減らすかのバランスを考える材料になるんですね。
ReLU Function(Rectified Linear Unit) – ReLU関数
入力が0以下なら0、正ならそのまま出力する、とてもシンプルな関数ですね。
数式では ReLU(x)=max(0,x)\mathrm{ReLU}(x)=\max(0, x) と表され、計算が軽く学習が進みやすいのが特徴です。
勾配消失が起きにくい点も実用上の大きなメリットです。

★ 実務での利用例 ★
AIでは、深いニューラルネットワークの中間層で定番の活性化関数です。
画像認識などの大規模モデルでも、安定して学習を進めるために広く使われているんですね。
Residual Connection(Skip Connection) – 残差接続(スキップコネクション)
層の出力に、その層への入力をそのまま足し戻す構造ですね。
学習した変換 F(x)F(x) に対して y=F(x)+xy = F(x) + x の形をとり、情報や勾配が素通りできる道を作ります。
これによって、深いネットワークでも学習が安定しやすくなります。

★ 実務での利用例 ★
AIでは、非常に深いニューラルネットワークを作るときに残差接続がよく使われます。
勾配消失を防ぎつつ性能を上げられるため、画像認識や文章処理の高性能モデルを支えています。
S
Sigmoid Function – シグモイド関数
入力を0〜1の範囲に滑らかに押し込めるS字型の関数ですね。
数式では σ(x)=11+ex\sigma(x)=\frac{1}{1+e^{-x}} と表され、値を「確率っぽく」解釈できるのが特徴です。
小さい値と大きい値を自然に分けたいときに便利、といった感じですね。

★ 実務での利用例 ★
AIでは、2値分類の出力層によく使われます。
モデルの出力を「YESである確率」のように扱えるので、判断結果を直感的に理解しやすいんですね。
Softmax Function -ソフトマックス関数
複数の値をまとめて「確率分布」に変換する関数ですね。
各成分を指数関数に通して正規化し、全体の和が1になるようにします。
数式では softmax(xi)=exijexj\mathrm{softmax}(x_i)=\frac{e^{x_i}}{\sum_j e^{x_j}}​​ と表されます。

★ 実務での利用例 ★
AIでは、多クラス分類の出力層でよく使われます。
たとえば画像が「猫・犬・鳥」のどれかを判定するとき、それぞれの確率を自然な形で出してくれるんですね。
T
Transformer – トランスフォーマー
Attention機構を中心にして、系列データ全体の関係性を一度に捉えるモデル構造ですね。
再帰や畳み込みを使わず、並列計算しやすいのが特徴で、長距離の依存関係も扱いやすいです。
内部では自己Attentionと全結合層を交互に重ねた形になっています。

★ 実務での利用例 ★
翻訳や文章生成AIの多くはTransformerをベースにしています。
文全体を見渡しながら単語の関係を判断できるので、自然で文脈に合った出力が得られるんですね。
V
Vanishing Gradient Problem – 勾配消失問題
ニューラルネットワークを深くすると、誤差を伝える勾配が層をさかのぼる途中で極端に小さくなってしまう現象ですね。
その結果、前の層ほど学習がほとんど進まず、モデル全体がうまく賢くならない状態になります。
特にシグモイド関数のような勾配が小さくなりやすい関数で起こりがちです。

★ 実務での利用例 ★
AIモデル設計では、この問題を避けるためにReLU系の関数や残差接続が使われます。
おかげで、とても深いネットワークでも安定して学習できるようになったんですね。
Vector – ベクトル
大きさと向きをあわせ持つ量で、矢印や数の並びとして表される概念ですね。
数学では v=(v1,v2,,vn)\mathbf{v}=(v_1,v_2,\dots,v_n) のように成分で扱い、足し算や内積などの演算ができるのが特徴です。

★ 実務での利用例 ★
AIでは、文章や画像を数値の並びに変換して「特徴ベクトル」として扱います。
たとえば文章の意味をベクトル化して、似ている文書を探すといった検索や推薦に使われています。