Cau hoi phong van Data Science nam 2026: SQL, ML va Case Study

ok vậy là quầy bếp nhà Dev. 11 giờ đêm. thứ ba. pad thai rỉ mỡ xuống mặt bàn, cái quán trên mission street ấy, khăn giấy thì nhiều quá như mọi khi. Dev bảo "giải thích Type I vs Type II errors trong bối cảnh A/B test đi." trống rỗng. miệng tôi mở ra mà chẳng có gì đi ra cả.

tôi học hẳn một bằng master's về stats. hai năm trời với đống này. và giờ tôi đứng trong bếp nhà cậu ấy mà không nói nổi một câu về Type I errors lol. công thức thì được. từ ngữ tiếng anh thì không. Dev ngả người ra sau và chờ. ba giây mà dài như một năm. cái khoảnh khắc ở quầy bếp đó là lý do tôi viết bài này, vì hai tuần sau một VP of product ở một công ty fintech hỏi tôi đúng kiểu câu đó ở round ba của một onsite và não tôi lặp lại y chang.

sau bốn tiếng đồng hồ. round một là SQL window functions. round hai là bị hỏi stats liên tục. round ba là pitch churn prediction. rồi người đàn ông này muốn tôi justify sample sizes cho một A/B test và tôi chẳng có gì. bằng master's không cứu được tôi. Dev đã cảnh báo rồi. cậu ấy là data scientist ở Spotify, làm ở đó ba năm rồi, đến giờ tôi nợ cậu ấy chín cốc bia.

cậu ấy từng nói với tôi ở một quán bar rằng "DS interviews là bốn cuộc phỏng vấn giả vờ làm một" còn tôi thì đang nhìn điện thoại nên chẳng nghe. lol

Dev nói một câu đêm đó mà tôi ghét. dựa vào tủ lạnh, tay cầm bia, quá đáng thật. "nếu cậu không giải thích được một khái niệm cho một PM trong hai câu thì nghĩa là cậu chưa hiểu nó đủ để đi phỏng vấn." rồi cái gã điên này bắt tôi giải thích Bayesian updating cho bạn gái cậu ấy là Lena.

Ready to ace your next interview?

InterviewMan gives you real-time AI answers during live interviews — undetectable on Zoom, Meet, and Teams.

Try InterviewMan Free

cô giáo mẫu giáo. không có tí nền tảng stats nào. cô ấy ngồi đó ăn trail mix và nheo mắt nhìn tôi trong lúc tôi lảm nhảm, còn tôi thì không biến confidence intervals thành lời bình thường nổi. bốn lần thử. BỐN. mặt tôi đỏ thấy rõ. lần thứ ba tôi gần như muốn bỏ cuộc mà cô ấy vẫn cứ nheo mắt và ăn trail mix.

lần thứ tư cô ấy gật đầu và có cái gì đó bật ra trong não tôi. tôi nghĩ về cái mặt nheo mắt của Lena mỗi khi ai đó bảo tôi giải thích p-values mà không dùng từ probability, hay khi nào dùng t-test vs chi-squared, hay đi qua phần toán sample size của A/B test. những câu hỏi xuất hiện ở mọi DS loop mà tôi từng nghe từ bất kỳ ai.

cùng năm khái niệm đó, chỉ thay logo công ty. cuốn textbook một trăm bốn mươi đô dạy tôi ít hơn cả cô nàng trail mix

còn phone screen DS của Meta thì, cuối năm 2025, Dev đã trải qua nó. gần như toàn bộ là SQL, và là SQL nặng. window functions. CTEs. self-joins. date math. câu hỏi của cậu ấy là tìm users từ một bảng logins mà tần suất login giảm hơn năm mươi phần trăm theo từng tháng trong ba tháng liên tiếp.

LAG, window functions, grouping theo ngày tháng, hai mươi phút, editor chia sẻ, bắt đầu. hai người khác tôi biết cũng xác nhận Meta DS là như vậy. SQL là cái cổng, viết từ đầu không cần cứu trợ, không thì phone screen xong luôn. phần coding của Google DS nhẹ hơn SWE nhưng họ muốn Python thật, cụ thể là Pandas, đưa cho bạn dữ liệu lộn xộn, làm sạch nó, tính metrics, rồi interviewer nheo mắt nhìn bạn và bảo "điều này nói gì cho chúng ta." lol.

có người viết được code chạy rồi mà vẫn không thể nói bằng tiếng người output của chính họ nghĩa là gì. dead air. tôi đã từng là người đó. ngồi nhìn một dataframe. quên luôn các con số hoạt động ra sao

Dev xem tôi làm một vòng mock Google qua FaceTime rồi mute chính mình vì không muốn tôi nghe tiếng cậu ấy cười. xong buổi cậu nhắn đúng một câu: "bro cậu viết pandas đúng rồi mà im luôn bốn mươi giây." tôi đọc xong mà chỉ muốn úp mặt xuống bàn. chính cái bốn mươi giây đó mới giết bạn ở các vòng ML. họ đâu có bắt bạn derive backpropagation cho vui.

còn round Amazon ML deep-dive mới là chỗ Dev gần chết. bạn chọn một project trong resume rồi họ khoan vào nó suốt ba mươi phút. model gì. tại sao. features nào. evaluation ra sao. sẽ thay đổi gì. interviewer này dành hẳn MƯỜI LĂM phút cho feature engineering của một rec system Dev xây ở Spotify. mười lăm phút.

cho một project. tôi prep cho cậu ấy bằng cách tra khảo cậu ấy về project đó suốt một tiếng ở quầy bếp, và đến phút thứ hai mươi cậu ấy bắt đầu vấp ở những lựa chọn mình đã làm tám tháng trước. tối đó cậu ấy viết lại toàn bộ ghi chú. toàn bộ. Google thì thiên về lý thuyết hơn, bias-variance tradeoff, model complexity, regularization.

"ok nhưng TẠI SAO L1 lại tạo ra sparse weights." bạn nói diamond constraint region rồi câu follow-up là điều đó nghĩa là gì về mặt hình học và vì sao nó quan trọng cho feature selection trong prod. Lena chắc sẽ nheo mắt dữ lắm với câu đó lol. trực giác luôn quan trọng hơn chứng minh

case studies mới là chỗ Dev làm tôi thật sự ấn tượng. "metrics tuần trước giảm mười hai phần trăm, chuyện gì đã xảy ra." bạn phải xây cả một hướng điều tra trực tiếp trong khi interviewer đóng vai PM chỉ trả lời mơ hồ mọi thứ. case study ở Meta của cậu ấy là "Instagram Reels daily active users giảm tám phần trăm ở Brazil, hãy đi qua cách bạn xử lý." năm phút hỏi làm rõ trước khi cậu ấy đề xuất bất cứ thứ gì.

tất cả users hay chỉ một segment. thời điểm app update. pattern theo mùa ở Brazil cụ thể ra sao. năm phút làm rõ đó gây ấn tượng với interviewer còn hơn cả framework phân tích phía sau. tôi thì chắc sẽ nhảy thẳng vào giả thuyết và bị trừ điểm mất. đúng y chang vấn đề của bốn mươi giây im lặng kiểu pandas kia lol.

não tôi luôn muốn trả lời trước khi muốn hỏi. các vòng behavioral thì dùng phương pháp STAR, "hãy kể về một lần phân tích của bạn làm thay đổi một quyết định kinh doanh." phân tích cụ thể nào, stakeholder nào, quyết định nào thay đổi, outcome đo được là gì. "tôi làm một ít phân tích rồi nó giúp ích" là câu trả lời no-hire.

take-home vẫn có ở vài công ty, dataset, prompt, bốn mươi tám đến bảy mươi hai giờ, nộp một notebook. Dev từng review take-home của một người bạn. model XGBoost được tune hoàn hảo, không hề có giải thích nào về lý do bất kỳ quyết định feature engineering nào được đưa ra. không có lấy một câu về việc vì sao cô ấy chọn những features đó.

cô ấy không đi tiếp. Dev nhìn nó rồi bảo "đây là một kaggle dump chứ không phải memo." hãy viết như thể bạn đang cố thuyết phục một VP chi tiền. tất cả những người tôi nói chuyện từng có offer đều viết kiểu đó. liệu bạn có thể qua chỉ với một notebook gọn gàng kiểu kaggle không? có thể. nhưng tôi sẽ không cược vào điều đó sau khi thấy bài nộp kia bị loại

Ready to ace your next interview?

InterviewMan gives you real-time AI answers during live interviews — undetectable on Zoom, Meet, and Teams.

Try InterviewMan Free

nếu bạn muốn thì đây là format từng công ty, vì Dev cũng quiz tôi mấy thứ này lol. Meta DS là SQL phone screen rồi onsite với product sense cộng case study cộng technical deep-dive cộng behavioral, trong đó product sense là vòng riêng kiểu Meta nơi bạn suy luận về metrics cho app của họ và là vòng mà Dev nói là cảm giác giống nhất với việc bị một PM ghét bạn lôi ra nướng.

Google DS là phone screen với coding và stats rồi onsite với coding và các khái niệm ML và case study và vòng Googleyness, tức là phiên bản của họ cho câu hỏi "bạn có phải kiểu người mà chúng tôi muốn ngồi ăn trưa cùng không." Amazon DS bắt đầu bằng OA cho SQL và stats cơ bản rồi virtual loop với coding, ML deep-dive về công việc cũ, case study, behavioral với leadership principles, và nếu bạn chưa học thuộc mười bốn leadership principles thì chúc may mắn.

DS loops trộn coding với nói chuyện, đó là lý do nó làm người ta khớp. các vòng SQL và Python giống như coding interviews, nơi trợ giúp live bắt được những lúc bạn blank cú pháp hoặc nhắc bạn về một window function mà não vừa làm rơi mất (não tôi làm rơi LAG ngay trong screen Meta, trong tất cả mọi thứ thì lại là cái đó lol).

các vòng stats và case study thì mang tính trò chuyện hơn, một cú đẩy nhẹ ở một bước trong framework là đủ để bạn không spiral

quay lại cái buổi mock đó một chút. Dev nhận câu "khi nào bạn chọn gradient boosting thay vì random forest" ở Amazon. còn tôi nhận "imbalanced classes what do you do" ở đúng cái quầy bếp đó, đúng cái vệt mỡ pad thai vì cậu ấy chẳng bao giờ lau. tôi đứng hình, nhớ được mỗi SMOTE rồi đầu óc tắt luôn.

Dev phải lôi nốt class weights, threshold tuning, precision-recall thay cho accuracy, rồi cả chuyện false positives với false negatives đốt tiền business khác nhau thế nào. cậu ấy nhìn tôi đúng kiểu Lena nhìn túi trail mix. năm thứ. tôi có hai, nhiều lắm là hai rưỡi. nghe phát là biết chưa đủ.

tôi dùng InterviewMan trong vòng ứng tuyển thứ hai. ở round SQL, nó flag việc tôi đang viết correlated subquery trong khi window function sẽ gọn hơn. tôi BIẾT window functions chứ. áp lực khiến tôi chộp lấy cái mình học đầu tiên, đúng kiểu sai lầm ngu nhất. ở round case study, nó hiện ra consider seasonality, product changes, data pipeline issues khi tôi gặp câu hỏi metrics drop, về cơ bản là đúng cái bài Brazil Reels Dev từng gặp nhưng áp vào một công ty payments.

chính xác là thứ Dev đã nhồi vào đầu tôi ở cái quầy bếp dính mỡ pad thai đó. run quá làm sạch trơn mọi thứ. mấy buổi mock với nó thật lòng còn dạy tôi nhiều hơn cả live rounds vì tôi thấy chính xác chỗ nào giải thích của mình biến thành hand-waving và không có áp lực nên tôi có thể sửa thật.

mười hai đô một tháng, không cap session, mà sau hai năm học master's rồi còn bị cô nàng trail mix quật cho tơi tả thì tôi đâu còn định tiết kiệm ở khoản này nữa lol. đến một lúc nào đó tôi còn bắt đầu mong chờ các buổi mock, chuyện chưa từng xảy ra trong đời tôi. tôi cũng đi tìm thứ khác trước nhưng cái nào cũng chỉ coding hoặc chỉ stats, không có cái nào đụng được toàn bộ DS loop. stats và case study và behavioral và SQL trong cùng một tool. mọi thứ khác chỉ là nửa cái tool

đây là nước đi ngu nhất của tôi. tôi học SQL một tuần. tuần tiếp theo học stats. sau đó học ML. từng cái xô nhỏ riêng biệt như thể đó là những môn học khác nhau. rồi tôi bước vào onsite và họ ném tất cả vào tôi trong một buổi chiều, bốn tiếng, mọi thứ cùng lúc, y như cái ông VP fintech muốn toán A/B test sau ba vòng đủ thứ kia.

Dev đã nói là chuyện đó sẽ xảy ra, ở quán bar, ở quầy bếp nhà cậu ấy, chắc cả trong một tin nhắn mà tôi lờ đi khi đang ăn pad thai. chín cốc bia. tôi nợ cậu ấy chín cốc bia và có lẽ còn nợ Lena một lời xin lỗi vì đã butcher Bayesian updating trong bếp nhà cô ấy trong lúc cô ấy chỉ đang cố ăn trail mix. đến giờ cô ấy vẫn còn nheo mắt nhìn tôi mỗi lần tôi qua chơi lol

Ready to Ace Your Next Interview?

Join 57,000+ professionals using InterviewMan to get real-time AI assistance during their interviews.

Get Started Free View Pricing

ShareTwitter LinkedIn

Guides

Cau hoi phong van Data Science nam 2026: SQL, ML va Case Study

Ready to Ace Your Next Interview?

Related Articles

Cau hoi phong van Product Design nam 2026: Phan tich thiet ke, Whiteboard va Portfolio

Cau hoi phong van Sales nam 2026: Tu cold call den chot deal

Tro ly phong van AI: huong dan 2026