Peut-on devenir un architecte de Big Data à succès sans apprendre la science des données? Quelle est la différence entre l'architecte Big Data et le Data Scientist?


Réponse 1:

Merci pour les multiples A2A! :)

Ceci est mes mains sur l'expérience personnelle en la matière.

Chez Miniclip, nous avons une équipe de science des données et une équipe d'ingénierie des données. L'équipe d'ingénierie des données gère toutes les données volumineuses. Avec du travail, l'équipe de science des données pourrait le faire, mais nous le ferions pire et plus lentement ... nous ne voulons pas ça! :)

L'équipe d'ingénierie des données n'a pas vraiment besoin d'entrer dans les spécificités des connaissances de domaine comme le fait l'équipe de science des données. Cependant, ils connaissent un peu l'apprentissage automatique et dans les grands projets de données automatisés, nous travaillons ensemble.

Donc, à mon avis, vous pouvez devenir un architecte / ingénieur de Big Data prospère sans science des données, c'est-à-dire sans la connaissance du domaine / algorithmique que les entreprises dépendent des scientifiques des données. Cependant, vous serez un meilleur ingénieur de données si vous y mettez la main.


Réponse 2:

D'accord avec Marcin. Les scientifiques des données peuvent exploiter l'infrastructure Big Data par un architecte Big Data. OMI, certaines des considérations clés qu'un architecte Big Data devrait connaître sont les suivantes, dont l'analyse des données / la science fait partie (point 3 ci-dessous):

1) Ingestion de données - batch et streaming

2) Stockage de données - Stockage distribué, NoSQL

3) Traitement et analyse ** - Traitement par lots, traitement de flux, analyses. Ici, l'architecte Big Data doit au moins connaître les outils / API d'analyse disponibles pour pouvoir les recommander et les inclure dans l'infrastructure Big Data (en fonction du cas d'utilisation et des préférences des scientifiques des données). Peu de facteurs à prendre en compte dans un outil permettant à un scientifique des données pourraient être - les types d'algorithmes disponibles, la prise en charge de la langue maternelle, la connectivité avec l'environnement Big Data, les capacités d'analyse des données, le profilage des données, etc.

4) Consommation - consommation par lots ou flux

5) Besoins matériels pour divers composants de l'environnement distribué Big Data

6) Besoins opérationnels de l'environnement Big data


Réponse 3:

D'accord avec Marcin. Les scientifiques des données peuvent exploiter l'infrastructure Big Data par un architecte Big Data. OMI, certaines des considérations clés qu'un architecte Big Data devrait connaître sont les suivantes, dont l'analyse des données / la science fait partie (point 3 ci-dessous):

1) Ingestion de données - batch et streaming

2) Stockage de données - Stockage distribué, NoSQL

3) Traitement et analyse ** - Traitement par lots, traitement de flux, analyses. Ici, l'architecte Big Data doit au moins connaître les outils / API d'analyse disponibles pour pouvoir les recommander et les inclure dans l'infrastructure Big Data (en fonction du cas d'utilisation et des préférences des scientifiques des données). Peu de facteurs à prendre en compte dans un outil permettant à un scientifique des données pourraient être - les types d'algorithmes disponibles, la prise en charge de la langue maternelle, la connectivité avec l'environnement Big Data, les capacités d'analyse des données, le profilage des données, etc.

4) Consommation - consommation par lots ou flux

5) Besoins matériels pour divers composants de l'environnement distribué Big Data

6) Besoins opérationnels de l'environnement Big data