研究動機
在現代媒體中,「新聞標題」是吸引讀者的關鍵工具,其中「誘餌標題」(Clickbait)常以誇張或挑釁方式設計,目的在引發好奇心並增加點擊。然而,這種標題是否有效,以及對新聞信任度和閱讀體驗的影響,仍是重要議題。
隨著數位媒體依賴點擊量衡量內容表現,誘餌標題的使用漸增。雖能短期提升流量,卻可能損害媒體的長期信譽,導致讀者不信任其內容。
本研究探討誘餌標題與新聞內容的關聯,並利用近1300篇包含誘餌標題的新聞進行分析,將其分類為「人、事、時、地、物、其他」6類,以訓練AI模型。目的是幫助讀者快速辨識真正感興趣的內容,節省時間並減少接觸無關資訊的機率。
資料處理及資料範例
我們以人工方式資料分為以下(人、事、時、地、物、其他)6種關鍵內容主題,來使機器判讀更加容易及準確。下面為各項分類的粗略定義及該分類中我們標記的資料範例:
A.人:
與人物相關的資訊。包括人物的基本資料、背景、角色、身份等。例如名人、專家、政治人物、受訪者等。
資料範例:標題中的「2大幕後推手」為誘餌。
-
新聞標題:賴清德「Lofi on賴」音樂頻道獲好評 2大幕後推手首度曝光
-
內容關鍵字:#音樂, #fi, #lo, #賴清德, #台灣
B.事:
涉及事件或活動的描述。這類信息通常關注事件的經過、起因、發展或結果。可以是某一特定的新聞事件、社會活動、科學發現或任何具有影響力的事件。
資料範例:標題中「被追問反應」為誘餌。
-
新聞標題: 藍白合卡關變「柯霞配」?賴佩霞被追問反應曝光
-
內容關鍵字: #賴佩霞, #柯文哲, #媒體, #郭台銘, #回應
C.時:
指涉時間或時間相關的元素。它包括事件發生的具體日期、時間範圍或時間表。或某些時間是理解其背景及意義主要因素的事件。
資料範例:標題中「檢測時間」為誘餌。
-
新聞標題: 福源花生醬超標? 港消委公布檢測時間
-
內容關鍵字:#香港, #花生醬, #樣本, #消委會, #業者
D.地:
牽涉與地點有關的信息,例如具體的地理位置、活動場地、事件發生的環境或背景等,有助於讀者理解事件的空間背景及其可能影響的區域。
資料範例: 標題中「西法醫院地底通哈馬斯地道?」問號為不確定因素的誘餌。
-
新聞標題:西法醫院地底通哈馬斯地道? 哈瑪斯控:以軍用計栽贓
-
內容關鍵字:#醫院, #以色列, #哈瑪斯, #無法, #地道
E.物:
內容關注具體的物品、工具、設備或材料。可以是與事件相關的物理物品,或是影響事件發展的重要元素,如某個實驗裝置、重要證據、物資等。
資料範例: 標題中「薑絲還蟑螂腳?」問號為不確定因素的誘餌。
-
新聞標題:這薑絲還蟑螂腳?男控豬心冬粉有小強 業者駁:注重衛生
-
內容關鍵字:#蟑螂, #當事, #業者, #豬心, #中藥
F.(O)其他:
涉及額外的背景資料、附帶信息或無法簡單歸納的內容。例如與文化、價值觀、倫理爭議或技術細節有關的說明。
資料範例:標題中「假訊息!」為誘餌。
-
新聞標題:未入綠營安全名單改挺侯友宜? 藥師公會澄清:假訊息!
-
內容關鍵字:#公會, #藥師, #名單, #聯會, #政黨
資料處理結果
我們的總資料筆數為1269筆,分為2組,每組兩人來做標記的對照,前620筆資料兩人標記不同的筆數為44筆,誤差大約為7%;後649筆兩人標記不同的筆數為26筆,誤差大約為4%。
左圖為前620筆資料的相異資料,共44筆。
左圖為後649筆資料的相異資料,共26筆。
透過以上資料可看出易混淆的資料最多的為牽涉到「人、物」,次多的為「人、事、物」,以下為幾個容易混淆的原因:
-
物品與人物的互動:
物品與人物角色的關聯可能導致分類模糊,例如政治人物的名片或實驗設備,既可歸為「物」,也可能視為人物身份的一部分。此外,「互動」也可能被視為一件「事」,增加判斷難度。 -
物品的象徵意義:
某些物品具有象徵性或與人物緊密聯繫,例如政黨(物)與政治人物(人)、藝術家的代表作品,可能讓物品被誤判為人物。 -
人物與物品在事件中的共同作用:
當人與物共同參與事件,例如運動員(人)使用運動器材(物)比賽(事),可能難以明確判斷新聞是描述人、物,還是事件。
而以下是針對標記狀況得出的數個對應方法 :
-
語境區分:
依上下文判斷:強調行為與角色的標記為「人」,提及具體工具或裝置的為「物」,如事件本身影響力更大,則標記為「事」。 -
功能與身份明確區分:
若人與物同時出現,根據內容重點區分:聚焦功能性標記為「物」,強調行為或決策標記為「人」。 -
細分分類:
在條件允許下,設立更細分類,例如「人所擁有的物品」(E-A)或「人物專屬物品」(A-E),以提升分類準確度,但需注意避免過度分散或與「其他」分類衝突。
透過以上這些方法有助於精確區分「人、物、事」的標記,提升資料處理的準確性。
結論
研究內容聚焦於誘餌標題(Clickbait),並以AI技術分析誘餌標題與內容的相關性,開發工具協助讀者辨識並提升閱讀效率。在資料處理上,我們採用人工分類,將新聞標題及內容分為「人、事、時、地、物、其他」六大類別,以提升模型訓練的準確度,最後得到大約7%的標記誤差範圍。在分類的過程中,我們發現人與物交互、物品人格化、以及多重關聯事件是分類時的主要問題,得出藉由語境分析與功能區分等方式來解決分類混淆的問題。
在研究中也開發了一套高效率的搜尋系統,運用N-Gram分詞技術與前向最大匹配算法,建立了穩定的分詞表與索引結構。系統在效能設計上,採取「以空間換取時間」的策略,通過適度增加資料冗餘性顯著提升搜尋速度,成功應用於大規模數據檢索。
我們的研究範圍不僅包含誘餌標題的探討與尋找對應解決方法,也一併展示了資料處理與搜尋技術在解決實際問題上的靈活度與可行性。
透過分類模型的準確度訓練與高效搜尋功能的開發,我們期望能減少讀者受誘餌標題影響的可能,提升其接收資訊的真實性與效率,同時為後續相關研究提供可行的技術框架與方法論參考。