關於論壇猜馬甲的理論探討 |
送交者: 紫荊棘鳥 2014年08月26日14:38:54 於 [五 味 齋] 發送悄悄話 |
標題出現了“理論”一詞,毫無疑問顯得非常做作。但自從半年前被擔任八婆黨骨幹以來,我還沒有發表過一篇八婆文章。形勢逼人,是到了碼一小段八婆文章的時候了,否則我的江湖地位不保。
這裡八婆一下如何猜論壇里的馬甲。大家記得,前不久論壇突然冒出一個技驚四座的ID“小陳”,大家交頭接耳並議論紛紛,其中一些沉不住氣的八婆黨開始八卦小陳的主ID到底是胡,其中我的猜測是,小陳是某位藍同學的馬甲(所以不會是點擊率)。不料這個猜測剛出爐,就招致好玩和小夢等同學的批評。現在想來,當初的猜測十有八九是不靠譜的,基本上猜錯了,八得不對。 為啥八得不對?很顯然有兩方面的因素:涉及如何八的計算水平,以及涉及如何八的算法。前者屬於個人能耐範疇(例如對candidates熟悉與否,等),不太俱備共性,這裡不多說。我們重點討論後者:如何八的方法,或曰關於如何去八的algorithms。這裡我提出兩個algorithms,意在拋磚引玉,割腋贊裘,供大家批評,參考,補充。 方法一:封閉型八法。 這種八法的要訣在於,在具體開八前先固定所疑馬甲的對象,然後從中選擇那個可能性最大的ID。這裡“所疑馬甲的對象”這個集合是具體開八前就固定的,所以這種八法稱為“封閉型八法”。顯然這種算法能保證選出一位 ID (當然可能並列)。 舉例:假設小陳可能是{風麗,小夢,djl,box,王福貴,貧嘴張大民},那麼剩下的工作就是從中選擇那個經計算後最可能的ID,並將他/她咬定為小陳。 方法二:開放型八法。 這種八法的要訣在於,在具體開八前先選定所疑馬甲的對象並不是固定的,任何ID都可以參與八卦計算,但在具體計算前我們需要選定個馬甲相似度的閾值H,例如 H=0.6。八卦算法如下: 任意選定一個ID,如果此ID和馬甲的相似度至少是閾值H,那麼一口咬定此ID就是這個馬甲,計算完畢;否則考察下一個ID。顯然,如果閾值H設得過高(例如 0.95),那麼開放型八法可能鎖定不了馬甲到底是誰。 舉例:猜小陳,設定閾值H=0。6 考慮ID風麗,相似度=10%,小於閾值H,捨去; 考慮ID小夢,相似度=42%,小於閾值H,捨去; 考慮ID djl,相似度=35%,小於閾值H,捨去; 考慮ID box,相似度=17%,小於閾值H,捨去; 考慮ID王福貴,相似度=9%,小於閾值H,捨去; 考慮ID貧嘴張大民,相似度=15%,小於閾值H,捨去。。。 在實戰中,小夢採用的應該是封閉型八法,並將ID鎖定為點擊率;我用的應該是閾值為50%的開放型八法,經過十來輪計算後,沒有鎖定任何一個ID。 |
|
|
|
實用資訊 | |
|
|
一周點擊熱帖 | 更多>> |
|
|
一周回復熱帖 |
|
|
歷史上的今天:回復熱帖 |
2013: | 素食的一個巨大害處,男人一定要看 | |
2013: | 我認為人類的教育已經異化,很難培養出 | |
2012: | 有了古狗維基,很容易知道八國聯軍在北 | |
2012: | 隨便的詩。最後一句有點湊 | |
2011: | 珍曼: 寫在颶風"愛暈"來臨之 | |
2011: | 北邊的幾位哥們兒,鑰匙3級颱風正面騷 | |
2010: | 這個真不錯,就是底足太黃太猛。 | |
2010: | ||
2009: | 一休:大仲馬,JULIA和劉能媳婦 | |
2009: | 大陸咋越混越不和諧,北韓崩了,緬甸不和 | |