Data Science Fundamentals

Data exploration, cleaning, and preparation.

Handling noise, inconsistencies, and formatting issues – garbage in, garbage out is the first law of ML.

Train/validation/test splits, stratification, and handling class imbalance – the foundation of honest evaluation.

Numerical, categorical, ordinal, text, time series – understanding your data’s nature determines every downstream decision.

One-hot, label, target, and embedding-based encoding – translating categories into numbers without introducing false relationships.

Visualizing distributions, correlations, and anomalies before modeling – the most undervalued step in the ML pipeline.

Standardization, min-max scaling, and robust scaling – ensuring features contribute equally regardless of their original units.

Deletion, imputation, and model-based approaches – the strategy depends on why data is missing, not just how much.