このページは移転しました。
はてなブックマークのカテゴリー分けが適当すぎる!
記事の内容とは全く関係ないカテゴリーに分類されることってありますよね。
サイコロを振ってランダムに決めてるんじゃないかってくらい適当なので
どういう法則でカテゴリーが決まるのか検証してみました。
検証の結果、
半分はランダム、半分はタイトルに依存していることが判明。
記事の本文は一切関係ないっぽい。
詳しくは続きをどうぞ。
カテゴリーのランダム性をチェック
普通は、記事のタイトルや本文に出てくる単語の出現頻度によってカテゴリー分けすると思うんですよ。
でも、はてなブックマークのカテゴリー分けって本当にトンチンカンで全くあてにならない。
もしかすると、マジで記事の内容を見ずにランダムにカテゴリー分けしている可能性すらある。
そこで実験。
まったく同じタイトル、まったく同じ本文で記事を10回投稿してみます。
10回同じカテゴリーに分類されれば何らかのルールに従い仕分けをしている。
そうでなければ、ランダムにカテゴリー分けをしているということになります。
ちなみに、新しくサブアカウントを使って実験しました。
同じ内容の記事を連投するとスパムっぽくなるので。
実験1: 政治学入門
青空文庫という著作権フリーの文章を置いてあるサイトがあります。
ここから『政治学入門』という文章の1節を拝借。
以下のようなタイトルと本文で10回投稿をしてみました。
タイトル:
政治学入門
本文:
入門書が要求されているということで、本書ができたのであるが、しかし「政治学入門」とはそもそもどう理解されたらよいものであろうか。それは政治学の方法論を説き、政治学の諸文献を解説したようなものなのであろうか。それとも対立しているいろいろの学説を並べ、著者の主張はなるべく出さないように書いたもののことであろうか。それともまた政治学の全領域を簡単に平易に圧縮したもののことであろうか。 これらのいろいろの解釈が可能であると思われるが、著者は本書ではそれを、政治現象の基本的な諸問題に一通りの究明を試み、より詳くわしい研究への示唆しさを与えるものと解釈した。その結果既に著者が『政治学』(勁草書房)で取扱っている基本的な部分を、多少順序を変えたり、加除したり、わかり易やすくして、繰返すような形にならざるを得なかったのである。より詳細な論述や文献については、右の書物について見て頂きたい。 いずれにしても入門書の最大の使命は、その学問への興味をそそることであろう。従って本書が政治学への興味を、一般の人々に抱かせることに失敗していたら、入門書としての価値はない。著者の恐れるのはそのことである。
自分で投稿して、自分でブックマークしてみると
1回目は「学び」というカテゴリーに分類されました。
続いて、2~10回目も投稿。
すると、「学び」以外にも「暮らし」や「世の中」というカテゴリーに分類されるパターンも出てきました。
10回の投稿が終わって改めてブックマークページを見てみると異変が発生。
カテゴリーが「政治と経済」に変わっている!
ブックマークした瞬間は「学び」、「暮らし」、「世の中」の3種類しか出てこなかったのに。
さらに、はてなブックマークの検索ページを「政治学入門」で検索してみます。
10記事を並べて見てみると
なんと10記事全部のカテゴリーが「政治と経済」に変わっている!
どうやら、いったん「学び」、「暮らし」、「世の中」の3つのカテゴリーに分類しておいて
後から記事の内容に応じたカテゴリーに再分類しているらしい。
1人目がブックマークをした瞬間って記事タイトルが表示されるべき部分が
「ttps://jikkenexp.hatenablog.com/entry/xxxxx」のようにURLで表示されるんですよね。
この時点ではシステム的には記事の中身を見ていないってことだと思います。
さて、10記事全部が同じ「政治と経済」に分類されたところを見ると
記事の内容により一定のルールに従って分類しているということが分かります。
実験2: アイヌ語のおもしろさ
今のところ以下の4つを仮説としてあげておきます。
- 暫定カテゴリーは「学び」、「暮らし」、「世の中」の3パターン?
- 暫定的なカテゴリー分けはランダム。
- 記事の内容によって後からカテゴリーが変更される。
- 後から変更されるカテゴリーにランダム性は無い(なんらかのルールに従って1つに決まる)
仮説の裏付けを取るために、記事の内容を変更してもう少し検証してみましょう。
今度は、青空文庫から『アイヌ語のおもしろさ』という文章の1節を拝借。
以下のようなタイトルと本文で10回投稿を行いました。
タイトル:
アイヌ語のおもしろさ
本文:
アイヌ語やアイヌ文学を扱っていると、われわれの予想もしなかったような考え方にぶつかって戸惑いするのは毎度のことである。 例えば氷をアイヌ語では「ル※(半濁点付き小書き片仮名フ、1-6-88)」(ru-p)と言う。「とける・もの」ということである。日本語の「コオリ」という語は「氷るもの」という意味であったと思われるから、さし示す対象は同じでも、ことばの裏の考え方には根本的なくいちがいがある。 アイヌ語に、「エネア・レカ・イ カ イサム」(ene a-reka-ika isam)という表現がある。直訳すれば、「どう われら・褒め・よう も ない」ということで、「褒めようもない」から「くさす」という意味にもなりかねない。しかしこのアイヌ語の真意は、「それ以上ほめようとしても、ほめるキッカケがない」ということで、完全無欠を意味する慣用句なのである。 また「ミナ・コヤイクス」(mina-koyaykus)という表現がある。直訳すれば「笑うことが・できない」ということである。「笑うことができない」ならば、「笑わないでムッツリとしている」のかと思えば、事実は「腹を抱えて笑う」ことである。「これ以上笑いたくても笑えない」というのが、このアイヌ語の真意である。 古くアイヌは、自分たちをとりまく森羅万象を、自分たちと同様の生き物と考えていた。例えば風であるが、それはわれわれにとってこそ単なる空気の動きにすぎないのであるが、彼らにとってはそれは一個のれっきといた[#「れっきといた」はママ]生き物であった。またある地方では、風が吹き荒れると、戸外に草刈鎌を立てて、「風の神よ、あんまり暴れると、あんたの奥さんのズロースが切れますぜ」などと唱えた。風が女房を連れて暴れまわっているという考え方なのである。風が終日吹き荒れていたのが、夕方になってハタと吹きとだえることがある。そういう夕なぎのことを、「レラ オヌマン イペ」(風が夕方に食事する)という。風も人間同様に夕食をとり帰宅するという考え方である。 アイヌに古くから伝承されているユーカラ(詞曲)の中に大風が吹きすさぶ場面がよく出てくる。例えば、烈しい風が森を襲うと、大地は轟々と鳴りわたり、森の木々はヒュウヒュウと鳴り続ける、そして折れやすい木は幹のまん中からポッキポッキと折れくだけ、折れにくい木はしなやかな小枝のように撓み伏し、また弾きかえす、風が野原に吹いてくると、忽ちそこに生えている青草を根こそぎ吹き上げて、宙にまきちらしてしまう。――というような場面であるが、それを原語の気持を生かして訳出してみると、怒れる風が森を襲って木々を投擲する、すると、木々が悲鳴を挙げて泣き叫ぶ、そして木々のうち、烈しい責め折檻にたえかねて折れたくなった者は自分の意志で幹のなかばから折れていき、あくまでも折れるものかと思う者は、風が襲いかかると見れば大地に身を伏せてそれをやりすごし、風が行きすぎるとまた立ちあがる、というのである。それに続く文章も従来は風が野原へ吹いてくると、「たちまち生えたる青草を根こそぎに大風が吹き上げて、まっ黒な雲となりて大空へ吹き上りたり」などと訳されたのであるが、「生えたる青草」とあるのは「座っている草」とするのが正しく、木々は立っているから立木なのだが、草は野原いちめんにあぐらをかいて座っている、そこへ怒れる風が襲いかかり、「あぐらをかいて座っている草たちの股ぐらに手をかけて持ち上げ、真黒な雲となって大空へ上って行った」というのであって、そこでは風も、木も、草ももはや単なる非情ではなく、人間と同様の感情をもち人間と同様に行動する動物である。嵐の場面はそれらの動物の間に繰りかえされる死闘として描かれているのである。 川などもやはり動物である。動物であるから、それは肉体をもち、例えば上流を「川の頭」、中流を「川の胸」、曲り角を「川の肘」、川の流れが幾重にも屈曲して流れている部分を「川の小腸」などと呼ぶのである。また、われわれの考え方からすれば、川は山から発して海に入るものであるが、アイヌの古い考え方に従えば、それは海から上陸して山へ登って行く動物である。われわれが川の出発点と考えて「みなもと」(水源)と呼んでいるものを、アイヌは川の帰着点と考えて「ペテトコ」(川の行先)と名づけ、またわれわれが川の合流点と考えて「落合」と呼んでいるものを、アイヌは「ペテウコピ」(川の別れあう所)などと名づけているのは、そういう考え方の現れである。 このように、物の考え方に大きな食いちがいがあって、それがアイヌ語やアイヌ文学の理解をよほど困難にしているのであるが、皮肉なことには、われわれがこの言語を学ぶ意義と興味の一つは、また実にそこにあるのである。
『政治学入門』の実験では後からカテゴリーが書き換えられるとは思っていなかったので
ブックマークした瞬間の詳細な履歴を取っていませんでした。
『アイヌ語のおもしろさ』は、10回の投稿についてどのカテゴリーになったか細かく記録しました。
- 世の中
- 学び
- 世の中
- 暮らし
- 暮らし
- 暮らし
- 学び
- 暮らし
- 世の中
- 世の中
「世の中」が4回、「暮らし」が4回、「学び」が2回出てきました。
「世の中」、「暮らし」、「学び」の3パターンというのは『政治学入門』、『アイヌ語のおもしろさ』で共通です。
さて、後から書き換えられたほうのカテゴリーはどうなっているでしょう。
はてなブックマークを「アイヌ語のおもしろさ」で検索した結果が以下の画像です。
(新しいものが上、古いものが下に並んでいます)
なんと、カテゴリーの書き換えが起こらない。
ブックマークした瞬間に分類されたカテゴリーがそのまま採用されています。
『アイヌ語のおもしろさ』というタイトルだから「おもしろ」カテゴリーに分類されるのを期待したんですが。
しばらく時間をおいてから確認してもダメでした。
まったく同じタイトル、まったく同じ文面なのにランダムにカテゴリー分けされることもあり得るようです。
タイトルと本文の影響力
2つの実験を踏まえて以下の仮説を立てました。
- 「世の中」、「暮らし」、「学び」の3つからランダムにカテゴリーが選ばれる
- 記事に特定のキーワードを含んでいた場合のみカテゴリーの再分類が行われる
1つ目の実験(政治学入門)では、記事の中に「政治」というキーワードを含んでいたから「政治と経済」のカテゴリーに再分類されたのではないかと考えました。
2つ目の実験(アイヌ語のおもしろさ)では、記事の中に「はてな」のシステム的にひっかかるキーワードがなかった。
その結果、「その他」的な扱いになり、カテゴリーの再分類は行われなかった。
そう考えました。
そこで、タイトルだけ『政治学入門』で、本文を『アイヌ語のおもしろさ』にしてみたらどうなるのか。
また、タイトルだけ『アイヌ語のおもしろさ』で、本文を『政治学入門』にしてみたらどうなるのか。
タイトルと本文の組み合わせを変えて追加で実験をしてみましょう。
実験3: タイトル=政治 本文=アイヌ
以下のようなタイトルと本文で5回記事を投稿しました。
タイトル:
政治学入門
本文:
アイヌ語やアイヌ文学を扱っていると、われわれの予想もしなかったような考え方にぶつかって戸惑いするのは毎度のことである。 例えば氷をアイヌ語では「ル※(半濁点付き小書き片仮名フ、1-6-88)」(ru-p)と言う。「とける・もの」ということである。日本語の「コオリ」という語は「氷るもの」という意味であったと思われるから、さし示す対象は同じでも、ことばの裏の考え方には根本的なくいちがいがある。 アイヌ語に、「エネア・レカ・イ カ イサム」(ene a-reka-ika isam)という表現がある。直訳すれば、「どう われら・褒め・よう も ない」ということで、「褒めようもない」から「くさす」という意味にもなりかねない。しかしこのアイヌ語の真意は、「それ以上ほめようとしても、ほめるキッカケがない」ということで、完全無欠を意味する慣用句なのである。 また「ミナ・コヤイクス」(mina-koyaykus)という表現がある。直訳すれば「笑うことが・できない」ということである。「笑うことができない」ならば、「笑わないでムッツリとしている」のかと思えば、事実は「腹を抱えて笑う」ことである。「これ以上笑いたくても笑えない」というのが、このアイヌ語の真意である。 古くアイヌは、自分たちをとりまく森羅万象を、自分たちと同様の生き物と考えていた。例えば風であるが、それはわれわれにとってこそ単なる空気の動きにすぎないのであるが、彼らにとってはそれは一個のれっきといた[#「れっきといた」はママ]生き物であった。またある地方では、風が吹き荒れると、戸外に草刈鎌を立てて、「風の神よ、あんまり暴れると、あんたの奥さんのズロースが切れますぜ」などと唱えた。風が女房を連れて暴れまわっているという考え方なのである。風が終日吹き荒れていたのが、夕方になってハタと吹きとだえることがある。そういう夕なぎのことを、「レラ オヌマン イペ」(風が夕方に食事する)という。風も人間同様に夕食をとり帰宅するという考え方である。 アイヌに古くから伝承されているユーカラ(詞曲)の中に大風が吹きすさぶ場面がよく出てくる。例えば、烈しい風が森を襲うと、大地は轟々と鳴りわたり、森の木々はヒュウヒュウと鳴り続ける、そして折れやすい木は幹のまん中からポッキポッキと折れくだけ、折れにくい木はしなやかな小枝のように撓み伏し、また弾きかえす、風が野原に吹いてくると、忽ちそこに生えている青草を根こそぎ吹き上げて、宙にまきちらしてしまう。――というような場面であるが、それを原語の気持を生かして訳出してみると、怒れる風が森を襲って木々を投擲する、すると、木々が悲鳴を挙げて泣き叫ぶ、そして木々のうち、烈しい責め折檻にたえかねて折れたくなった者は自分の意志で幹のなかばから折れていき、あくまでも折れるものかと思う者は、風が襲いかかると見れば大地に身を伏せてそれをやりすごし、風が行きすぎるとまた立ちあがる、というのである。それに続く文章も従来は風が野原へ吹いてくると、「たちまち生えたる青草を根こそぎに大風が吹き上げて、まっ黒な雲となりて大空へ吹き上りたり」などと訳されたのであるが、「生えたる青草」とあるのは「座っている草」とするのが正しく、木々は立っているから立木なのだが、草は野原いちめんにあぐらをかいて座っている、そこへ怒れる風が襲いかかり、「あぐらをかいて座っている草たちの股ぐらに手をかけて持ち上げ、真黒な雲となって大空へ上って行った」というのであって、そこでは風も、木も、草ももはや単なる非情ではなく、人間と同様の感情をもち人間と同様に行動する動物である。嵐の場面はそれらの動物の間に繰りかえされる死闘として描かれているのである。 川などもやはり動物である。動物であるから、それは肉体をもち、例えば上流を「川の頭」、中流を「川の胸」、曲り角を「川の肘」、川の流れが幾重にも屈曲して流れている部分を「川の小腸」などと呼ぶのである。また、われわれの考え方からすれば、川は山から発して海に入るものであるが、アイヌの古い考え方に従えば、それは海から上陸して山へ登って行く動物である。われわれが川の出発点と考えて「みなもと」(水源)と呼んでいるものを、アイヌは川の帰着点と考えて「ペテトコ」(川の行先)と名づけ、またわれわれが川の合流点と考えて「落合」と呼んでいるものを、アイヌは「ペテウコピ」(川の別れあう所)などと名づけているのは、そういう考え方の現れである。 このように、物の考え方に大きな食いちがいがあって、それがアイヌ語やアイヌ文学の理解をよほど困難にしているのであるが、皮肉なことには、われわれがこの言語を学ぶ意義と興味の一つは、また実にそこにあるのである。
ブックマークした瞬間は以下のようにカテゴリー分けされました。
- 学び
- 暮らし
- 暮らし
- 世の中
- 暮らし
やはり、最初は「学び」、「暮らし」、「世の中」の3パターンからカテゴリーが選ばれています。
それでは、はてなブックマークで「政治学入門」と検索してみると結果はどうなるでしょうか。
なんと、5記事とも「政治と経済」にカテゴリーが書き換えられています。
実験2と実験3では本文は全く同じ、タイトルだけが違います。
実験3では本文は丸ごとアイヌの話なのに、タイトルの『政治学入門』という5文字に影響されてカテゴリーが「政治と経済」に書き換えられるとは。
そうなると、はてなのシステムは記事のタイトルだけを見てカテゴリーの再分類をしている、
本文は全く見ていないという可能性が浮上します。
ちなみに、「世の中」などのカテゴリーに分類されてから「政治と経済」に再分類されるまで時間はかからないようです。
ブックマークをしてからすぐにブックマークコメントが読めるページにアクセスすると即「政治と経済」に変わっていました。
実験4: タイトル=アイヌ 本文=政治
お次は、入れ替え逆パターンの実験です。
タイトルを『アイヌ語のおもしろさ』にして、本文は『政治学入門』から拝借した文章を使用します。
これを5回繰り返し投稿してみます。
タイトル:
アイヌ語のおもしろさ
本文:
入門書が要求されているということで、本書ができたのであるが、しかし「政治学入門」とはそもそもどう理解されたらよいものであろうか。それは政治学の方法論を説き、政治学の諸文献を解説したようなものなのであろうか。それとも対立しているいろいろの学説を並べ、著者の主張はなるべく出さないように書いたもののことであろうか。それともまた政治学の全領域を簡単に平易に圧縮したもののことであろうか。 これらのいろいろの解釈が可能であると思われるが、著者は本書ではそれを、政治現象の基本的な諸問題に一通りの究明を試み、より詳くわしい研究への示唆しさを与えるものと解釈した。その結果既に著者が『政治学』(勁草書房)で取扱っている基本的な部分を、多少順序を変えたり、加除したり、わかり易やすくして、繰返すような形にならざるを得なかったのである。より詳細な論述や文献については、右の書物について見て頂きたい。 いずれにしても入門書の最大の使命は、その学問への興味をそそることであろう。従って本書が政治学への興味を、一般の人々に抱かせることに失敗していたら、入門書としての価値はない。著者の恐れるのはそのことである。
ブックマークした瞬間は以下のようなカテゴリーに分類されました。
- 学び
- 学び
- 暮らし
- 世の中
- 世の中
さて、今回は再分類によるカテゴリーの書き換えは起こるでしょうか?
5記事のブックマークを並べて見るために
はてなブックマークを『アイヌ語のおもしろさ』で検索してみましょう。
カテゴリーの再分類は起こっていませんでした。
ブックマークした瞬間に分類されたのとまったく変わっていないですね。
(検索結果は上のほうが新しい記事、下の方が古い記事です)
本文中に「政治」という単語が何度も出てくるにもかかわらず、
「政治と経済」のカテゴリーにはなりませんでした。
やはり本文はカテゴリーに影響しないようです。
実験後の後片付け
実験用に30回(10回+10回+5回+5回)記事を投稿しました。
内容的には全く同じものを何回も投稿しているので事情を知らない人が見るとスパムだと思うでしょう。
そのため、『政治学入門』と『アイヌ語のおもしろさ』の記事とブックマークは実験後にほとんど削除しました。
同じタイトル、同じ本文なのにカテゴリーが違う事例として、一部だけ残しているので興味がある人は検索してみて下さい。
(後日、全部消す可能性もあります)
ブログ名も影響する
今回の実験範囲には含めていないんですが、ブログ名もカテゴリー分けに影響するはず。
このブログの現在のブログ名は「初心者ブロガー養成講座」なんですが
前は「TOEIC満点ニートのブログ」ってブログ名だったんですよ。
雑記帳にするつもりだからタイトルを適当に決めたんですよね。
「TOEIC満点ニートのブログ」というブログ名のときは、
はてなブックマークの新着エントリーや人気エントリーに掲載されると
「特集」の「英語」っていう部分にもよく表示されていました。
毎回、英語と全く関係ない記事なのにブログ名の「TOEIC」って単語に引っ張られて特集の「英語」欄に掲載されていたんですよ。
そのときのカテゴリーはいつも「学び」でした。
英語の記事について全然書いていなかったので
その後、ブログ名を現在の「初心者ブロガー養成講座」に変えました。
すると、それまで「学び」に分類されることがほとんどだったのに、
「世の中」や「暮らし」のカテゴリーになることが多くなりました。
だから、ほぼ100%ブログ名はカテゴリーを決めるときに影響しているはず。
はてなブックマークの個別ページを見ると「記事タイトル」のうしろに「ブログ名」が表示されています。
恐らく、「記事タイトル - ブログ名」の部分がカテゴリーを再分類するときに影響しているのではないかと考えています。
まとめ
今回の検証結果で「はてなブックマーク」のカテゴリーについて以下のことが判明しました。
- 「世の中」、「暮らし」、「学び」の3つからランダムにカテゴリーが選ばれる
- タイトルに特定のキーワードを含んでいると、キーワードに応じたカテゴリーに再分類される
- 本文の内容はカテゴリー分けに全く影響しない
- ブログ自体のタイトルも影響する
サンプル数が少ないので
・ 最初の分類が「世の中」、「暮らし」、「学び」以外のパターンもあるのか?
・ 本文の影響は小さいだけなのか、まったく影響がないのか?
という部分の精度は気になります。
今回の実験では本文に見出し(h2タグ、h3タグ)を使っていません。
もしかすると、見出しはカテゴリーに影響するかも?
もう少し検証したいのですが、同じ文面を5回も10回も投稿しまくるとスパム認定されそうで怖い。
したがって、今回の検証はここまでにしておきます。
反響が大きければもう少し要件を固めてから追加の検証をするかも。
お知らせ
最後までお読みいただきありがとうございます。
この記事は参考になりましたか?
役に立ったという方はブックマークをお願いします。
読者登録は以下のボタンから
Twitterでこの記事を書いた人をフォローする場合はこちら
Follow @toeicmantenblog
この記事をツイートする場合はこちらからお願いします。
Tweet
ブロガーさんには以下のシリーズ記事もおすすめです。