Une fois que vous avez choisi l`outil de modélisation approprié, dans de nombreuses situations, vous pouvez demander combien de paramètres vous devez inclure dans le modèle. Plus le nombre de paramètres que vous incluez est élevé, mieux l`ajustement du modèle aux données (c.-à-d. la baisse des valeurs résiduelles qui implique une statistique R ² plus élevée). Le nombre de paramètres dans le modèle devrait-il être maximisé de manière à ce que les résidus soient extrêmement réduits au minimum? Pas vraiment. Un modèle qui correspond trop aux données sera trop représentatif de l`échantillon particulier qui est utilisé, et la généralisation à l`ensemble de la population sera moins exacte. Voici quelques hauteurs imaginaires et les poids d`un échantillon d`adultes. Dès que vous tracez des données comme celles-ci, vous voulez tracer une ligne droite à travers eux. La ligne droite est le modèle. Vous décidez que vous voulez en dessiner un, et le programme stats fait le reste. Il trouve l`équation de la ligne droite qui correspond le mieux aux données. Il produit également un coefficient de corrélation, qui est une mesure de la façon dont la ligne s`adapte (ou, même chose, comment fermer la relation entre la hauteur et le poids vient d`être une ligne droite). Et, dans la mesure où les données sont un échantillon, le programme produit même des limites de confiance pour la ligne, ou une valeur p pour un test de s`il y a une ligne dans la population à tous.
En fait, la modélisation statistique et les tests statistiques signifient la même chose. Les hypothèses incorporées dans un modèle statistique décrivent un ensemble de distributions de probabilité, dont certaines sont supposées suffisamment approximatives de la distribution à partir de laquelle un ensemble de données particulier est échantillonné. Les distributions de probabilité inhérentes aux modèles statistiques sont ce qui distingue les modèles statistiques des autres modèles mathématiques non statistiques. L`auteur présente 10 techniques statistiques qu`un chercheur de données doit maîtriser. Construisez votre boîte à outils de l`outil de science des données en regardant ce grand poteau d`aperçu. Tout en ayant une forte capacité de codage est important, la science des données n`est pas tout au sujet de l`ingénierie logicielle (en fait, avoir une bonne familiarité avec Python et vous êtes bon pour aller). Les scientifiques de données vivent à l`intersection du codage, des statistiques et de la pensée critique. Comme Josh Wills l`a mis, “Data Scientist est une personne qui est mieux à la statistique que n`importe quel programmeur et mieux à la programmation que n`importe quel statisticien.” Personnellement, je connais trop d`ingénieurs logiciels qui cherchent à passer en Data Scientist et à utiliser aveuglément des frameworks de machine learning tels que TensorFlow ou Apache Spark à leurs données sans une compréhension approfondie des théories statistiques derrière eux. Ainsi vient l`étude de l`apprentissage statistique, un cadre théorique pour l`apprentissage automatique en puisant dans les domaines de la statistique et de l`analyse fonctionnelle. Selon que vous collectez vos propres données ou faites des analyses de données secondaires, vous avez besoin d`une idée claire de la conception. Les problèmes de conception sont la randomisation et l`échantillonnage: nos modèles de données sont suffisamment compétents pour être appliqués aux types de données expérimentales, sociales, financières, industrielles et géographiques.