Googleニュースが直接ネタを読み出せるソースで取得できなくなりました
2023-12-01 記載
概要 : phpで読み解けなくなったGoogleニュース
Keyword : Googleニュース
Googleニュースで関心ごとのキーワードで直近一週間のニュースを抽出して、メールで自分に送らせていたのですが、ここ数日のあいだに、Googleニュースサイトのレスポンスの返し方が大きく変わって、ニュースを拾い出すことができなくなりました。
技術的にどういうことか簡単に説明しますと、phpのcurlでは半角英数ばかりのscriptコードが返ってきて、これを人が読めるテキストにするにはjavascriptコードを実行させる必要があるのです。
phpはレンタルサーバで走らせることができますが、javascriptはブラウザ上でないと難しいです。家のパソコンの電源をいれっぱなしにするなら簡単ですが。
まぁニュースサイトからしてみたら、ニュースを読みにきてくれた人に広告をみてもらってナンボの商売ですから、スクリプトで記事だけを読み出されたら、なにか対策を考えないといかんかな、となりますか。
こちらの対策として思いつくのは
・Selenumで在宅時に読み出す
・ソースが読める別のニュースサイトを探す
・サーバ内に仮想ブラウザを実現させる手法をあたる
・Google News Rss(API) がなにかを調べる
といったところでしょうか。
今後このようなサイトが増えてくると思います。
また後日考えたいと思います。
2024-02-03 追記
Google News Rssから取得するphp-botを作成しました。
PHPで作成:Googleニュースをrssで読みだして毎週自分宛にメールする