Abstract
企業活動で蓄積される大量のデータは,大規模データセットとして整理・活用されることで,ユーザの行動やニーズの推測に役立ち,ビジネスの貴重な情報源となる.
データ分析には特性や構造を考慮し,適切な技術を選択することが不可欠だが,知識のないユーザは適切な手法を選定できず,既存の支援システムも新規データや多様な目的に対応しづらい.
そこで,新規データにも柔軟に適用可能な技術推薦手法が求められる.
本研究では,データ活用事例において,データ特性(e.g., レビューデータ),分析技術(e.g., BERT),得られる結果(e.g., 評価値推定)の三者関係に着目し,「データx技術x結果」の形式で整理・分類することで,新規データセットに適用可能な技術を推薦する手法を提案する.
この形式を採用することで,データ・技術・結果のうち二つの情報から欠けた要素を推定し,未知データの利活用を支援する.
例えば,未知データセットが既存の活用事例と類似する場合,その「技術」と「結果」を推薦し,ユーザが適切な技術を選定できるようにする.
これにより,レビュー文の特性からBERTの適用可能性を示し,技術に不慣れなユーザでもデータ特性に基づいた適切な技術選定が可能となる.
提案手法では,「類似する特性を持つデータには同じ技術が適用可能である」という仮説の下,カラムの形式と性質の類似性に基づくデータセット間の類似性を評価する.
データセットに形式や性質を表すラベルとしてメタデータを付与し,類似度を算出する手法を提案する.
本研究では,どのような特性を持つデータセットが活用事例で使用された分析技術に適用可能であるかを推測し,その特性を持つデータセット同士は類似していると定義する.
例えば,レビュー文と評価値をBERTで分析して,未知のレビューデータに対して評価値を推測するといった事例では,BERTを実行するために必要なデータの特性として,ユーザが「評価する」といった性質を持つテキストデータと,レビューデータから評価値を予測するための正解データとして実際にユーザが付与したカテゴリである評価値のデータが必要と考えられる.
この手法により,類似したデータを特定し,既存の活用事例をもとに未知のデータに適用可能な技術を推定する.
上記の議論を踏まえ,各データカラムに設定するメタデータを形式に関する観点(e.g., 「テキスト」や「数値」),内容に関する観点(e.g., 「説明」や「定性」),の2つの観点で整理した.
提案手法により類似していると判断されたデータを使って,既存の活用事例の「データセット」の部分におけるモデルの精度を評価した.
既存の活用事例である論文は,レビューテキストからBERTを用いてレーティング(星の数)を予測したものである.
この論文では楽天市場データセットの「評価ポイント」と「レビュー内容」のデータカラムを使用しており,類似しているデータカラムとして,楽天トラベルデータセットの「ユーザ評価の評価7(総合)」や「ユーザ投稿本文」などが抽出できた.
対象とした論文では,評価指標として二乗平均平方根誤差(RMSE)と平均絶対値誤差(MAE)を用いていた.
そのため,本研究でもこれに倣い同様の評価指標を用いた結果,既存の活用事例の結果と遜色ない結果となったため,メタデータにより推定した類似データカラムであれば,代替可能である可能性が示唆された.
Information
Book title
2024年度関西大学大学院総合情報学研究科修士論文
Date of issue
2025/02/17
Date of presentation
2025/02/18
Citation
林 沙也加. データセットの内容的特徴に基づくデータ利活用の支援に関する研究, 2024年度関西大学大学院総合情報学研究科修士論文, 2025.