當模型遇上稀有事件，90%的數據分析師都在做白工，直到他們學會這件事

有一種分析師，讓我每次看到都很想搖他的肩膀

在數據分析圈，有一種人很常見。

他們每次開口就是：「這個交給模型跑就好」、「資料夠多，模型自然會找到答案」、「欄位上百個也沒差，演算法能處理」。

聽起來很合理，對吧？

模型確實強大，它能同時處理人腦根本讀不完的龐大變數，找出肉眼看不見的模式。這是事實，沒什麼好爭論的。

這類數據分析師技術沒問題，態度認真，但有一個核心能力，他根本沒意識到自己缺少，就是在模型碰壁的時候，還能有繼續解決問題的能力。

而其中有一種情境，模型會讓你吃閉門羹的，就是稀有事件。

稀有事件是什麼？就是那種「資料有，但少到要命」的問題

讓我先把稀有事件定義一下，因為這個詞聽起來很學術，但實際上離你很近。

稀有事件，指的是在整體資料中佔比低於1%的目標行為。有些場景更極端，低到0.1%甚至更少。

聽起來好像很罕見？來盤點一下你可能會碰到的場景：

某家金融機構要預測高資產客戶轉移資產的風險，但這種行為一年可能只有幾十筆。某電商平台要找出「沉睡很久但還能被喚醒」的VIP客戶，但這種人在百萬名單裡只有幾千個。某製造業要預測設備在接下來三個月內故障的機率，但樣本裡絕大多數設備根本沒壞過。

看完這些，你還覺得稀有事件離你很遠嗎？

這些問題每天都在某個公司的某個分析師電腦螢幕前發生，而那個分析師，很可能正在用同一套方法一遍又一遍地試圖解決它。

「再調一次參數」，聽起來很勤勞但走錯方向的選擇

我要說一個不太好聽但很真實的事情。

當你遇到稀有事件，用盡各種技術手段，oversampling、SMOTE，模型從從logistic regression換到random forest，再換XGBoost，然後發現跑出來的評分名單少得可憐，AUC看起來還行，但真正能用的名單，可能只有微微的一小撮。

你不是不夠努力，你只是鑽進了一個框框裡，忘記跳出來。

技術操作沒有錯，這些方法都是對的工具，在對的場景很有用。

但稀有事件的核心困境，從來都不只是技術問題。它更深層的挑戰是：資料的先天侷限，加上對「這個問題我們到底在解什麼」的理解不足。

只靠模型，你解決的是怎麼讓數字好看。

但主管要的一直都是：可以去跟誰說什麼，然後帶回什麼結果。

這兩件事，中間差了一整個分析師的判斷力。

真正的轉折：把眼睛從螢幕上移開，去問幾個問題

我記得有個分析師，叫做Rex。

他接到一個任務：找出某投資商品的潛在購買客群。這個商品賣了兩年，申購率不到0.3%。他跑了兩週的模型，名單出來了，但數量少、品質不確定、前線看了之後說「感覺怪怪的」。

他有些厭世地來找我交換意見。

我問他：「你有沒有去問過PM，這次行銷活動主要想打哪種客群？」

他游移的說「沒有…」

「前線有沒有說過，他們覺得這個商品什麼樣的人比較會買？」

「他們說感覺怪，但沒有更多。」

「那你有沒有去想：這個商品適合有一定資產、對長期穩定有需求的人，這群人在你的資料庫裡有哪些特徵可以先抓出來？」

他沉默了一下，然後說：「我以為這些是業務的事。」

就是這句話，這就是問題所在。

這個產品或服務，市場上到底適合哪些人？
這問題，資料欄位裡通常沒有直接答案，模型也沒辦法憑空生出來。它需要你去想、去判斷，去結合商業邏輯。

為什麼許多數據分析師沒這樣做？

說實話，我覺得有兩個原因。

第一個原因：習慣站在技術後面

模型跑完，數字交出去，後續怎麼用是PM和業務的事。這樣最安全也最省力，但這種心態，讓你永遠只是數據工具人，而不是真正有影響力的分析師。

第二個原因：不知道自己可以越界

很多剛進入數據分析的人，以為分析師的工作就是把資料跑出結果。至於商業邏輯、市場判斷、客群策略，那是PM和業務的事，跟我無關。 這個邊界，其實是你給自己畫的。

跨出那條你自己畫的邊界線

很多人在進入數據分析工作的時候，腦中有一條隱形的邊界線。

邊界線這邊是：資料清洗、模型建立、評分輸出

邊界線那邊是：商業目標、客群策略、執行規劃

問題是，這條線是你畫的，沒有人規定它必須存在。

當你遇到稀有事件這種模型力有未逮的場景，這條線不跨，你的分析就永遠停在「有跑完模型」這個階段。它能不能被用、能不能帶來改變、能不能讓你在組織裡有影響力，通通跟你沒關係。

Rex最後重新做了這個案子，他去找了PM，問清楚這次主攻哪個年齡層、什麼樣的財務背景、優先觸達新客還是既有客。他去找了業務，問了他們實際經營的感覺，哪種客戶一問就有興趣。然後他設定了幾個基本篩選條件：45歲以上有家庭、近六個月有往來、做了某些投資交易、數位通路使用頻率中等以上、帳戶有一定資產水準。

最後，他把這些條件跟模型名單做交集，產出了一份有層次的名單規劃。

這份名單，業務看完說：「這個感覺對了，我可以去試。」

那個「感覺怪怪的」消失了。

名單策略地圖：讓你的分析從「有完成」變成「能落地」

Rex做的這件事，其實能整理為一個可複製的架構，叫做「名單策略地圖」。

它的邏輯很直接，分三層：

第1層：基本資格條件。 根據這個產品或服務的性質，設定最基本的進場門檻。近期有往來嗎？有沒有達到一定的交易活躍度？數位化程度夠嗎？這層的目的是把明顯不符合的人先篩掉，讓後面的資源聚焦在真正有可能的TA上。

第2層：業務與策略方向。 這次要攻哪個客群？PM希望先鎖定哪個年齡層或消費習慣？業務覺得哪種背景的人更容易轉換？把這些判斷轉化成篩選邏輯，放進來。這一層，是純模型做不到的，因為它需要你跟人對話、理解脈絡。

第3層：模型評分排序。 在前兩層篩出的範圍內，用模型評分做優先排序。評分高的先打，資源有限時集中在頂端名單。模型在這裡扮演最後一道精準度的角色，而不是唯一的依據。

把這三層疊在一起，你產出的名單，會有一個清楚的邏輯脈絡：這群人是誰、為什麼選他們、按什麼順序去觸達、預期效果大概是什麼。

主管看到這份東西，不會問「然後呢」，他會說「好，下週開始執行」。

為什麼這件事讓你的職涯走向截然不同的地方

我想說一個有點嚴肅的事。

在AI工具越來越強的時代，「把資料丟進模型、跑出評分」這件事的技術門檻，每年都在下降。今天需要一個熟練的數據分析師、資料科學家花幾天做的事，明天可能一個工具就能半自動完成。

這不是悲觀，這是趨勢。

但有一件事，目前沒有任何工具可以取代：在數據碰壁的時候，去理解商業脈絡、整合多方判斷、產出一套真正可執行的解法。

這件事需要你去和人對話，需要你理解業務，需要你在模型給不了答案的時候，還能往前走。

這才是數據分析師真正的核心競爭力。

稀有事件，每次出現都是在問你同一個問題：你只會跑模型，還是真的會解題？

給還在猶豫要不要跨出那條線的你

如果你是剛進入數據分析工作的人，我想跟你說一件事：

技術能力很重要，這是底盤，一定要打紮實。但技術只是你的起點，不是你的天花板。

從進入這個領域的第一天開始，就養成一個習慣：每次接到分析任務，先停一秒，問自己「這件事要解決什麼商業問題」、「誰需要用這個結果」、「他們拿到結果之後，要做什麼決策」。

帶著這些問題去做分析，你的產出會和只是執行技術任務的人，有根本性的差別。

如果你是在職場遲遲無法發揮影響力的分析師，我也想直接問你一個問題：你上一次主動去跟PM或業務對話，是什麼時候？

不是被動接需求，是主動去問「我能幫你解決什麼問題」。

影響力，很少是從螢幕後面發出去的，它是從對話開始。

結語：模型是工具，商業思維才是你破局的武器

只靠模型，在大部分場景夠用。在稀有事件面前，不夠用。

但更重要的是：就算資料充足、模型表現良好，如果分析結果沒有和商業目標對齊、沒有辦法被執行、沒有人知道拿到這份名單要幹嘛，那這個分析，也只是讓電腦多跑了幾個小時而已。

從今天開始，每次遇到難解的分析問題，先問自己一句話：

「我有沒有試過把視野拉高一層？」

如果有，你已經走在大多數人前面了。