「日本のブログの4割はスパム」ニフティのスパムブログの判別技術開発で判明

2008年03月27日 19:40

【ニフティ(3828)】は3月26日、同社研究機関「ニフティ研究所」でインターネット上のさまざまなスパムブログを自動判別できるフィルタリング技術を開発したと発表した。またその技術を用いて昨年10月から今年2月までの間日本国内のブログについて、ブログ評判サービス【BuzzPulse(バズパルス)】の分析対象となったブログを調査したところ、平均で約4割のブログが「スパムブログ」と判別されたことを明らかにした。自動生成などによるスパムブログが多発しているのは周知の事実だが、特定の技術のもとにその割合が特定されたことは珍しく、また現状を再認識させられる結果ともいえる(【発表リリース】)。

スポンサードリンク

スパムブログとは「広告収入や特定サイト(大抵は商材購入の窓口)への誘導などを目的として大量に生成されるブログ」。「スパム」は元々加工肉(ランチョンミート)の缶詰めを意味するが、主に米軍内で食事として何度無く出されたこと、さらにモンティ・パイソンの作品で連呼されたこと(寸劇で、バイキングたちがスパムのことを何度も何度も残響音のように「スパムスパムスパム」と繰り返し叫び、周囲の人たちの会話をかき消してしまった)から「連続して提供されるもの」(どちらかといえばネガティブな意味で)の総称となった。スパムメールやスパムトラックバックなど、デジタル系の造語でよく使われる。

今回ニフティが開発したし「スパムブログ自動判別フィルタ技術」は、現存する主流スパムブログをいくつかにパターン化し、それぞれのパターンにあわせたフィルタや、複数のパターンを組み合わせたフィルタもできるようにした。利用者にとってこれらのスパムブログの存在は単に無意味で時間の無駄となるだけでなく、リソース面で負荷をかけたり、検索結果の精度を悪化させるなど迷惑になる場合もあるからだ。なおニフティはスパム関係については経験・技術豊富なようで、同社のスパムメールフィルタの精度はきわめて高いことでも知られている。

同社では「主に」スパムブログについて次のような分類・定義をしている。

■自動生成系
・引用スパム
他ブログやニュース記事、検索されやすいワードの検索結果スニペット(検索対象の言葉を含む周囲の文章)などの引用を自動的に取得して、記事を生成している。
・アフィリエイトスパム
商品写真とそのアフィリエイトリンクを大量に自動で掲載しているブログ。内容がほとんどない。
・ワードサラダ
文章をフレーズ単位で機械的に組み合わせて生成しているブログ。一見、人間が書いているように見えて、良く見ると文章の意味が通じていない(参照:【「ワードサラダ」とRSS取得による自動生成ページ&トラバなスパムたち】)。
・自動マルチポスト
同一記事を複数のブログに機械的に大量に投稿する。

■アダルト系
・わいせつ記事
わいせつな文章や画像、動画などが掲載されているブログ。
・出会い系
出会い系サイトを運営しているブログや、その入口となっているブログ。
・ワンクリック詐欺
ワンクリック詐欺を運営しているブログや、ワンクリック詐欺に誘導するための入口となっているブログ。


なお今回発表された分類のうち、アダルト系の「わいせつ記事」「出会い系」は厳密にはスパムという定義からは外れる(「スパム」そのものの定義参照)。「フィルタすべき対象」という広義においては該当するとニフティ側で判断したのだろう。

むしろ問題なのは「自動生成系」。共通しているのは多かれ少なかれ「自動化されている」ということ。これらのスパムブログが日に日に増加しているのは、ひとえに「スパムブログを自動生成して収益を上げようと甘い言葉で勧誘し、高値で生成プログラムを売りつける情報商材」などがネット上にはびこり、またそれを購入してせっせと日々スパムブログをアップロードしている購入者が多数いるから。自前でプログラムを作っている人も中にはいるが、少数派に過ぎない。

これらのスパムブログの特徴はいくつもあるが、その一つはその多くが(費用を少しでも削るために)無料ブログサービス上にあること。本来プロバイダやポータルサイトが多くの人に役立ってもらうように(+SEOや広告収入、話題性etc.)半ば善意で提供しているサービスを、いわば「悪用」していることになる。

またこれらの「スパムブログ」の自動生成プログラムでは、生成したキーワードに関連する他のブログに対し、自動的にトラックバックを放ち集客誘導を図るものもある。存在だけでも問題なのに、次から次へとスパム的なトラックバックを向けてくるなど「二度美味しい」ならぬ「二度タチが悪い」的存在といえる。

今回ニフティがこのフィルタ技術を用いて、国内のブログの約9割強を把握しているブログ評判分析サービスBuzzPulse(バズパルス)上のデータで検証したところ、

2007年10月: 39.3%
2007年11月: 40.1%
2007年12月: 39.7%
2008年 1月: 39.9%
2008年 2月: 40.5%


ブログが10個あれば
そのうち4つは
スパムブログ

と平均で約4割のブログがスパムブログと判定された。10個のブログを検索対象としてリストアップすれば、そのうち4本は何の意味もないどころか害すら招きかねないスパムブログだったわけだ。

特に自動生成型スパムブログは、ブログを運営する企業にとってもマイナスになるどころか利用規定上作ってはいけないことになっている場合が多い。独自ドメインを用いている場合は手のうち方が難しいが、ブログサービス上のものなら企業側に「連絡」を入れることで大体は対処してくれる。「該当ブログの通報」「削除」「別ブログの立ち上げ」「通報」「削除」といたちごっこになる場合もあるが、同一人物のものと思われるブログ複数をまとめて削除依頼をすれば、当人自身のアカウントが削除され、ひとまず収まることもある。

「引用スパム」や「アフィリエイトスパム」などに使われる自動生成プログラムは、その考え方と仕組み、使い方次第では利用者に非常に有益な情報を提供してくれるコンテンツとなる可能性を秘めている。それを悪用され、多くの人に迷惑をかけている現状は極めて残念でならない。


■関連記事:
【10通メールが来たら5通以上はスパムメール。迷惑メール事情】
【短縮URLは「警戒すべきもの」】

(最終更新:2013/08/09)

Related Posts Plugin for WordPress, Blogger...

スポンサードリンク



 


 
(C)JGNN||このサイトについて|サイトマップ|お問い合わせ