ds unstructured-data design
まず結論
形態素解析は文章を意味のある最小単位(形態素)に分解する処理、 係り受け解析は文章中の単語や文節が「どこと関係しているか」を解析する処理です。
DS検定では
形態素解析 → 単語分割
係り受け解析 → 文の構造理解
という役割の違いを理解しているかが問われることが多いです。
直感的な説明
自然言語処理では、文章をそのまま機械が理解することはできません。 そのため、まず文章を分解し、次に構造を理解します。
例えば次の文章です。
私は昨日ラーメンを食べた。
①形態素解析(単語に分ける)
文章を意味のある最小単位に分解します。
単語 品詞
私 名詞 は 助詞 昨日 名詞 ラーメン 名詞 を 助詞 食べ 動詞 た 助動詞
つまり
文章 → 単語の列
に変換する処理です。
②係り受け解析(関係を理解する)
次に、単語や文節の関係を分析します。
例
私は → 食べた 昨日 → 食べた ラーメンを → 食べた
つまり
どの言葉がどの言葉を説明しているか
を解析します。
イメージ
文章
↓
形態素解析(単語に分割)
↓
係り受け解析(文構造を理解)
定義・仕組み
形態素解析(Morphological Analysis)
文章を
意味を持つ最小単位(形態素)
に分解し、
品詞
原形
活用
などを判定する処理です。
日本語は英語と違い
単語の間にスペースがありません。
例
これは美味しいです。
形態素解析
形態素 品詞
これ 名詞 は 助詞 美味しい 形容詞 です 助動詞 。 記号
この結果は
テキストマイニング
文書分類
感情分析
検索
などの前処理として利用されます。
形態素解析から機械学習への流れ
DS検定では次の流れもよく問われます。
文章
↓
形態素解析
↓
単語リスト
↓
ベクトル化(Bag of Wordsなど)
↓
機械学習
つまり
文章 → 数値データ
に変換する最初の処理が
形態素解析です。
係り受け解析(Dependency Parsing)
係り受け解析は
文節同士の関係(依存関係)
を解析する処理です。
例
太郎は花子に本を渡した
係り受け
太郎は → 渡した 花子に → 渡した 本を → 渡した
このように
主語
目的語
修飾語
などの関係を理解できます。
どんな場面で使う?
形態素解析が使われる場面
テキストマイニング
文書分類
感情分析
検索エンジン
SNS分析
多くの場合
自然言語処理の最初のステップ
として使われます。
係り受け解析が使われる場面
文の意味理解
機械翻訳
情報抽出
質問応答システム
要約
文章の意味をより深く理解する必要がある場合に使われます。
代表的なツールと特徴
DS検定では
形態素解析ツールや係り受け解析ツールの名前
が問われることがあります。
形態素解析ツール
ツール 特徴
MeCab 最も有名。高速で多くのシステムで使用される Janome Pythonで使いやすい JUMAN 京都大学開発。精度重視
ポイント
DS検定では
MeCabが代表例として出題されやすいです。
係り受け解析ツール
ツール 特徴
KNP 京都大学開発の高精度解析 CaboCha 日本語係り受け解析で広く利用
係り受け解析は
形態素解析
文節解析
の結果を使って行われることが多いです。
よくある誤解・混同
誤解①
形態素解析=文章理解
これは誤りです。
形態素解析は
単語に分けるだけ
です。
文章の構造理解は
係り受け解析
が担当します。
DS検定では
「文章の意味を理解する処理」
と書かれていたら
係り受け解析を選びます。
誤解②
形態素解析と係り受け解析は同じ処理
これは誤りです。
処理 役割
形態素解析 単語に分解 係り受け解析 文構造理解
DS検定では
この違いを問う問題が非常に多いです。
誤解③
英語と同じ処理でよい
英語
I eat ramen
日本語
私はラーメンを食べた
日本語はスペースがないため
形態素解析が特に重要になります。
まとめ(試験直前用)
形態素解析 → 文章を意味のある最小単位に分解する
係り受け解析 → 文節同士の関係を解析する
覚え方
形態素解析 → 単語分割
係り受け解析 → 文構造解析
DS検定では
形態素解析と係り受け解析の役割の違い
を理解していれば選択肢を切れます。
対応スキル項目(AI利活用スキルシート)
スキルカテゴリ名 AIによるデータ活用
サブカテゴリ名 自然言語処理
★ 形態素解析や係り受け解析の概念を説明できる
🔗 関連記事
- アクセス制御リスト(ACL)とは?ファイル権限の基本を整理【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アジャイル開発とは?ウォーターフォール開発との違いを整理【DS検定】
- 分析アプローチ設計とは?(分析プロジェクトを成功させる設計プロセス)【DS検定】
- 必要なデータ・分析手法・可視化を適切に選択する力とは?【DS検定】