見出し画像

ヤフトピ掲載に傾向はあるか? 定量データと編集部の声から考える

Yahoo! トピックス(以下、ヤフトピ)は、日本国内で幅広い読者層に情報を提供する重要なニュースプラットフォームです。多様なメディアから集められた記事が掲載され、日々の出来事を網羅しています。

一方で、多くのメディアやPRパーソンにとっては、ヤフトピに取り上げられるか否かはきわめて重要な問題です。掲載されれば、それだけで多くの読者獲得につながるからです。

では、ヤフトピに掲載されるために有効な方法はあるのでしょうか? 過去にヤフトピの編集者が受けたインタビュー記事によると、公益性と社会的関心といった重視するポイントが指摘されているものの、明確な基準があるわけではなさそうです。そこで本記事では、実際にヤフトピに掲載された記事を分析することで、エディトリアルの選択に影響を与える要素を探ります。(インターン・増山)

なお、今回の分析は限られたデータによるものであり、偏りがあります。統計的に有意なものではありませんが、ひとつの参考としてお読みいただけたらと思います。

取得するデータ

2023年6月から10月にかけて、Yahooトピックスの「経済」ページから記事の見出し、タイトル、URL、発信元、掲載・取得日時を朝、昼、晩の3つの時間帯に収集しました。このデータ収集は、市場や社会の動きに即応するニュースの流れを捉えるためです。

収集したデータをもとに、Google Colaboratoryで開発した自然言語処理プログラムを使用して分析を行いました。このプログラムでは、テキストデータからの情報抽出、キーワードの頻度分析、トレンドの同定など複数の分析手法を組み合わせています。

ワードクラウドによる記事タイトルの分析

ワードクラウドは、テキストデータ内の単語の出現頻度を視覚的に表現する方法です。テキスト内でよく使われる単語ほど大きく、頻度の低い単語は小さく表示されます。この方法は、文章やドキュメントの主要なテーマやキーワードを一目で把握するのに有効で、データのパターンや傾向を迅速に理解するためによく用いられます。

今回の記事タイトルから作成したワードクラウドが以下です。

大手ニュースメディア以外の記事タイトルのワードクラウド(左)
すべての記事タイトルのワードクラウド(右)

右の図は記事タイトルのワードクラウドです。このうち、大手ニュースメディア以外の記事(フリーランスの記者による記事や、ニュース以外のメディア記事)に絞ると左のようになります。

大手ニュースメディア以外による記事タイトルにおいては、「AI」や「インボイス」のような専門性の高い語彙や「爆売れ」「急成長」といったビジネス関連のフレーズが目立ちます。これは大手メディアが取り上げる一般的なトピックではなく、ビジネスや技術の特定のニッチな分野に焦点を当てることの有効性を示唆していると言えるのではないでしょうか。たとえば、ビジネスとテクノロジーの交差点にある特定のサブトピック(フィンテック、サイバーセキュリティなど)や、特定の経済データに関する深い分析を提供することは、ヤフトピ掲載にあたって効果的かもしれません。

TD-IDF

TF-IDF(Term Frequency-Inverse Document Frequency)は、テキストデータ内の単語の重要性を評価するための統計的な手法です。

TF(Term Frequency)は、ある単語がドキュメント内にどれだけ頻繁に出現するかを示し、IDF(Inverse Document Frequency)はその単語がドキュメント全体でどれだけ珍しいかを示します。TF-IDFは、一般的な単語よりも特定のドキュメントに特有の単語を高く評価します。

取得した記事タイトルのデータをTF-IDF分析にかけた結果が以下です。

TF-DFによる単語の重要度ランキング

「速報」の最高スコアは、Yahooトピックスにおいて時事性の高いトピックが特に重要視される傾向を示しています。緊急性とタイムリーな情報の提供は、読者の関心を惹きつける鍵となっているようです。

また、「ANN」や「ビジネスオンライン」などのメディア名が高いスコアを獲得していることは、特定のメディア源が頻繁に引用され、影響力を持つことを示唆しています。

さらに、「144円台」や「ディズニー1日券」のような経済指標や商品名が重要なキーワードとして挙げられていることは、経済的事象がYahooトピックスの注目領域であることを強調しています。

トピックモデリング(LDA)

トピックモデリングは、文書集合から隠れたトピック(話題)を発見するための統計的モデルです。Latent Dirichlet Allocation (LDA)とは、トピックモデリングの最も一般的な手法の一つで、各文書が複数のトピックから成り立っていると仮定し、それぞれの単語が特定のトピックに割り当てられる確率的プロセスを通じて、文書集合内のトピックを発見します。

LDAによって抽出された主要な5つのトピックと、それぞれのトピックに関連する上位10の単語は次のようになりました。

特に「ANN」、「ビジネスオンライン」、「産経新聞」といったメディア名が、多岐にわたるトピックで頻繁に登場しており、これらのメディアが広範な分野で大きな影響を及ぼしていることが示唆されています。ヤフトピにおいて、TD-IDFの分析でもみたように、権威のあるメディアや専門媒体は重要な役割を果たしていると言えそうです。

また、経済指標や時事ネタがトピック分析で重要な役割を果たしていることから、「144円台」や「8月に500円値上げ」といった数字や指標が重要なトピックであることがわかりました。具体的にデータを出すことができる場合、それを見出しにいれることを検討してみるとよいのではないでしょうか。

さらに、ビジネス関連のトピックでは、商品価格の動向(例:ディズニー1日券の価格、食品の値上げ)、企業戦略(例:拡大を続けるドンキホーテの戦略、革新的な事業展開)、緊急ニュースといった多様なトピックが取り上げられています。特に商品価格の動向や企業戦略は、ビジネスパーソンだけではなく、一般消費者であっても興味を惹かれる話題だと考えられます。

テキスト分析

ここでは言語と表現について見てみます。Yahoo!トピックの見出しの長さの平均は約15.5文字、最小14文字、最大16文字。このYahoo!トピックの見出しはYahoo!ニュース トピックス編集部がつけるものです。

ヤフトピの見出しの長さ

これに対して、元となる記事タイトルの長さは平均文字数が42.47文字、標準偏差が10.17文字でした。標準偏差が10文字程度であることから、タイトルの長さは一定の範囲内で変動していることが示されています。つまり、掲載される記事には40字程度のタイトルがつけられている記事が多いと言えます。各媒体においては、このくらいの字数を意識するとよいかもしれません。

ヤフトピ編集部自身が語る選定方法

Yahoo! ニュースのオウンドメディアである「newsHACK」の記事によると、ヤフトピの選定基準は次のようなものとされています。まず、公共性(政治、経済、防災など社会全体に影響を与えるニュース)と、社会的関心(スポーツ、エンタメなど多くの人が関心を持つであろうトピック)。くわえて、速報性、真実性、新奇性、公益性、認知度、表現力、品位。これらの基準を組み合わせ、総合的に評価されているようです。

さらに編集部の体制は、【朝番】 7時00分~15時45分(※【スーパー朝番】6時00分~14時45分)、【通常】10時00分~18時45分、【昼番】14時15分~23時00分、【夜勤】22時30分~7時15分といったように4交代制で運営されており、最新のニュースを常に網羅しているようです。特に早朝はユーザーアクセスが増加しているため、この時間帯に合わせたニュースや記事が効果的かもしれません。

また、編集部のメンバーには新聞社や他のメディアからの出向者も含まれており、取り上げる記事を多角的な視点で検討している様子が伺えます。

結論

今回の分析とnewsHACKの記事を踏まえると、読者の関心を引き、ヤフトピに掲載されるための鍵として、次のようなポイントがあげられます。

時事性の高いトピック、具体的なデータや事例を提示する内容、信頼できる情報源からの引用、特定のニッチな分野への深い洞察、40字前後の記事タイトル。そして、信頼できる情報源からのデータを用いて、記事に信頼性と権威を持たせる……。こうした工夫が、ヤフトピ掲載に向けたチェック項目として検討しうるのではないでしょうか。

今後はより広範な期間、例えば1年間にわたるデータ収集を行うことで、季節性や長期的なトレンドを把握し、より包括的な分析に取り組んでみたいと思います。

この記事が参加している募集

仕事について話そう

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!