有一種分析師,讓我每次看到都很想搖他的肩膀
在數據分析圈,有一種人很常見。
他們每次開口就是:「這個交給模型跑就好」、「資料夠多,模型自然會找到答案」、「欄位上百個也沒差,演算法能處理」。
聽起來很合理,對吧?

模型確實強大,它能同時處理人腦根本讀不完的龐大變數,找出肉眼看不見的模式。這是事實,沒什麼好爭論的。
這類數據分析師技術沒問題,態度認真,但有一個核心能力,他根本沒意識到自己缺少,就是在模型碰壁的時候,還能有繼續解決問題的能力。
而其中有一種情境,模型會讓你吃閉門羹的,就是稀有事件。
稀有事件是什麼?就是那種「資料有,但少到要命」的問題
讓我先把稀有事件定義一下,因為這個詞聽起來很學術,但實際上離你很近。
稀有事件,指的是在整體資料中佔比低於1%的目標行為。有些場景更極端,低到0.1%甚至更少。
聽起來好像很罕見?來盤點一下你可能會碰到的場景:
某家金融機構要預測高資產客戶轉移資產的風險,但這種行為一年可能只有幾十筆。某電商平台要找出「沉睡很久但還能被喚醒」的VIP客戶,但這種人在百萬名單裡只有幾千個。某製造業要預測設備在接下來三個月內故障的機率,但樣本裡絕大多數設備根本沒壞過。
看完這些,你還覺得稀有事件離你很遠嗎?
這些問題每天都在某個公司的某個分析師電腦螢幕前發生,而那個分析師,很可能正在用同一套方法一遍又一遍地試圖解決它。
「再調一次參數」,聽起來很勤勞但走錯方向的選擇
我要說一個不太好聽但很真實的事情。
當你遇到稀有事件,用盡各種技術手段,oversampling、SMOTE,模型從從logistic regression換到random forest,再換XGBoost,然後發現跑出來的評分名單少得可憐,AUC看起來還行,但真正能用的名單,可能只有微微的一小撮。
你不是不夠努力,你只是鑽進了一個框框裡,忘記跳出來。
技術操作沒有錯,這些方法都是對的工具,在對的場景很有用。
但稀有事件的核心困境,從來都不只是技術問題。它更深層的挑戰是:資料的先天侷限,加上對「這個問題我們到底在解什麼」的理解不足。
只靠模型,你解決的是怎麼讓數字好看。
但主管要的一直都是:可以去跟誰說什麼,然後帶回什麼結果。
這兩件事,中間差了一整個分析師的判斷力。
真正的轉折:把眼睛從螢幕上移開,去問幾個問題
我記得有個分析師,叫做Rex。
他接到一個任務:找出某投資商品的潛在購買客群。這個商品賣了兩年,申購率不到0.3%。他跑了兩週的模型,名單出來了,但數量少、品質不確定、前線看了之後說「感覺怪怪的」。
他有些厭世地來找我交換意見。
我問他:「你有沒有去問過PM,這次行銷活動主要想打哪種客群?」
他游移的說「沒有…」
「前線有沒有說過,他們覺得這個商品什麼樣的人比較會買?」
「他們說感覺怪,但沒有更多。」
「那你有沒有去想:這個商品適合有一定資產、對長期穩定有需求的人,這群人在你的資料庫裡有哪些特徵可以先抓出來?」
他沉默了一下,然後說:「我以為這些是業務的事。」
就是這句話,這就是問題所在。
這個產品或服務,市場上到底適合哪些人?
這問題,資料欄位裡通常沒有直接答案,模型也沒辦法憑空生出來。它需要你去想、去判斷,去結合商業邏輯。
為什麼許多數據分析師沒這樣做?
說實話,我覺得有兩個原因。
第一個原因:習慣站在技術後面
模型跑完,數字交出去,後續怎麼用是PM和業務的事。這樣最安全也最省力,但這種心態,讓你永遠只是數據工具人,而不是真正有影響力的分析師。
第二個原因:不知道自己可以越界
很多剛進入數據分析的人,以為分析師的工作就是把資料跑出結果。至於商業邏輯、市場判斷、客群策略,那是PM和業務的事,跟我無關。 這個邊界,其實是你給自己畫的。

跨出那條你自己畫的邊界線
很多人在進入數據分析工作的時候,腦中有一條隱形的邊界線。
邊界線這邊是:資料清洗、模型建立、評分輸出
邊界線那邊是:商業目標、客群策略、執行規劃
問題是,這條線是你畫的,沒有人規定它必須存在。
當你遇到稀有事件這種模型力有未逮的場景,這條線不跨,你的分析就永遠停在「有跑完模型」這個階段。它能不能被用、能不能帶來改變、能不能讓你在組織裡有影響力,通通跟你沒關係。
Rex最後重新做了這個案子,他去找了PM,問清楚這次主攻哪個年齡層、什麼樣的財務背景、優先觸達新客還是既有客。他去找了業務,問了他們實際經營的感覺,哪種客戶一問就有興趣。然後他設定了幾個基本篩選條件:45歲以上有家庭、近六個月有往來、做了某些投資交易、數位通路使用頻率中等以上、帳戶有一定資產水準。
最後,他把這些條件跟模型名單做交集,產出了一份有層次的名單規劃。
這份名單,業務看完說:「這個感覺對了,我可以去試。」
那個「感覺怪怪的」消失了。
名單策略地圖:讓你的分析從「有完成」變成「能落地」
Rex做的這件事,其實能整理為一個可複製的架構,叫做「名單策略地圖」。
它的邏輯很直接,分三層:
第1層:基本資格條件。 根據這個產品或服務的性質,設定最基本的進場門檻。近期有往來嗎?有沒有達到一定的交易活躍度?數位化程度夠嗎?這層的目的是把明顯不符合的人先篩掉,讓後面的資源聚焦在真正有可能的TA上。
第2層:業務與策略方向。 這次要攻哪個客群?PM希望先鎖定哪個年齡層或消費習慣?業務覺得哪種背景的人更容易轉換?把這些判斷轉化成篩選邏輯,放進來。這一層,是純模型做不到的,因為它需要你跟人對話、理解脈絡。
第3層:模型評分排序。 在前兩層篩出的範圍內,用模型評分做優先排序。評分高的先打,資源有限時集中在頂端名單。模型在這裡扮演最後一道精準度的角色,而不是唯一的依據。
把這三層疊在一起,你產出的名單,會有一個清楚的邏輯脈絡:這群人是誰、為什麼選他們、按什麼順序去觸達、預期效果大概是什麼。
主管看到這份東西,不會問「然後呢」,他會說「好,下週開始執行」。
為什麼這件事讓你的職涯走向截然不同的地方
我想說一個有點嚴肅的事。
在AI工具越來越強的時代,「把資料丟進模型、跑出評分」這件事的技術門檻,每年都在下降。今天需要一個熟練的數據分析師、資料科學家花幾天做的事,明天可能一個工具就能半自動完成。
這不是悲觀,這是趨勢。
但有一件事,目前沒有任何工具可以取代:在數據碰壁的時候,去理解商業脈絡、整合多方判斷、產出一套真正可執行的解法。
這件事需要你去和人對話,需要你理解業務,需要你在模型給不了答案的時候,還能往前走。
這才是數據分析師真正的核心競爭力。
稀有事件,每次出現都是在問你同一個問題:你只會跑模型,還是真的會解題?
給還在猶豫要不要跨出那條線的你
如果你是剛進入數據分析工作的人,我想跟你說一件事:
技術能力很重要,這是底盤,一定要打紮實。但技術只是你的起點,不是你的天花板。
從進入這個領域的第一天開始,就養成一個習慣:每次接到分析任務,先停一秒,問自己「這件事要解決什麼商業問題」、「誰需要用這個結果」、「他們拿到結果之後,要做什麼決策」。
帶著這些問題去做分析,你的產出會和只是執行技術任務的人,有根本性的差別。
如果你是在職場遲遲無法發揮影響力的分析師,我也想直接問你一個問題:你上一次主動去跟PM或業務對話,是什麼時候?
不是被動接需求,是主動去問「我能幫你解決什麼問題」。
影響力,很少是從螢幕後面發出去的,它是從對話開始。
結語:模型是工具,商業思維才是你破局的武器
只靠模型,在大部分場景夠用。在稀有事件面前,不夠用。
但更重要的是:就算資料充足、模型表現良好,如果分析結果沒有和商業目標對齊、沒有辦法被執行、沒有人知道拿到這份名單要幹嘛,那這個分析,也只是讓電腦多跑了幾個小時而已。
從今天開始,每次遇到難解的分析問題,先問自己一句話:
「我有沒有試過把視野拉高一層?」
如果有,你已經走在大多數人前面了。