学位論文

記事の意味的構造に着目した こたつ記事の類型化に関する研究

Abstract

現在ではニュースを見る際,ウェブメディアを用いて情報を集めることが一般的である. ウェブメディアは誰でも即時的に情報を発信できる一方で,情報の正確性が担保されず,ページビューに基づいて収益が発生するため,新規の情報のない記事が大量に出回る可能性がある. これらの特徴を持つ記事として,こたつ記事が問題視されている. こたつ記事とは記者が現地調査や直接取材をせずインターネットやテレビ番組などの他媒体で知り得た情報のみをもとに作成される記事のことである. こたつ記事はSNSなどの過激な内容を引用し,目を引く記事が作られることによって,誹謗中傷を産むことを助長し,特定の情報や意見だけを強調する内容の記事になってしまう可能性がある. こたつ記事には信頼性の高い情報と低い情報が混在しているため,信頼性の低い情報を除去することで,信頼性の高い情報の収集に寄与すると考えられる. こたつ記事は早く執筆することが目的のため,類型が存在している. 類型を機械的に判別できれば,こたつ記事の特徴を捉えやすくなり検出が容易になる. こたつ記事にはネット上の意見や感想が多く散見され,新聞記事は最も重要な情報から詳細な情報を書く形が多いため,こたつ記事と新聞記事では意味的構造に違いが見られると考えられる. 以上より,本研究では各文の意味的構造を予測し,その記事の意味的構造からこたつ記事の類型を導出する. 新聞記事の各文に対して「事実」「推定」「感想」の3種類のラベルに分類するアノテーションを実施し,文末表現,前後のラベルを特徴量として用いたCRFによってこたつ記事の各文を3種類に分類した. CRFを用いた意味的構造ラベルの付与精度は約80%と高精度であり,文頭の2文字,文頭の3文字,文末の2文字,文末の3文字,最初の助詞,前後の文の意味的構造ラベルによって文の意味的構造を推定可能であることが示唆された. 次に,新聞記事とこたつ記事を統合してクラスタリングを行い,こたつ記事の割合が低いクラスタと,こたつ記事の割合が高いクラスタを分析した. こたつ記事と新聞記事の意味的構造ラベル割合に大きな差は見られず,新聞と同様に事実も存在し,こたつ記事のすべてが不必要な情報ではないということが明らかになった. 各クラスタの助動詞と終助詞の重要度をTF-IDFを用いて算出した結果,こたつ記事の割合が低いクラスタでは推量を意味する「だろ」は新聞記事よりこたつ記事のほうが多く存在し,情報の正確性がなく,また煽動的な情報を掲示することが多いため,推量表現が多くなる可能性が示唆された. また,ネット上での声を意味する表現が含まれている文章の意味的構造ラベルを確認した結果,感想ラベルはほとんど見られず,SNSの引用文が文脈や論拠とともに記述していると捉えていることが示唆された.

Information

Book title

2025年9月期関西大学大学院総合情報学研究科修士論文

Date of issue

2025/07/21

Date of presentation

2025/07/21

Citation

杉原 昂紀. 記事の意味的構造に着目した こたつ記事の類型化に関する研究, 2025年9月期関西大学大学院総合情報学研究科修士論文, 2025.