Informatique, high tech et internet

L’espionnage et l’art caché de la gestion des entrepôts de données

0

Je ne sais pas comment fonctionne le monde des agents secrets du renseignement, mais je sais comment fonctionnent les entrepôts de données, et je sais comment fonctionnent les agents secrets dans les films. Alors voyons ce qui se passe si je fais les « connexions logiques »

Je suis un agent secret fictif qui travaille pour le MI6. Je viens d’entendre un agent étranger parler d’un événement à venir sous le nom d' »Opération Grand Chelem ». Je sais que le mot « Opération » était devant, donc nous ne parlons pas d’un « Grand Chelem » au baseball, au tennis, ou même d’un menu de Denny’s. Nous parlons d’une action secrète qui va se dérouler dans un futur proche, et des vies peuvent être en danger ! Si vous connaissez vos films, vous savez que l’intrigue impliquera le sort de tout l’or de Fort Knox et d’une arme très destructrice (je n’essaie pas de gâcher un film vieux de 52 ans aujourd’hui – je dirai simplement que le climax est choquant, ce à quoi je tire mon chapeau).

Porter cela à l’époque moderne afin que nous puissions ajouter les connaissances en matière d’entrepôt de données pour aider. Vous tapez ce terme sur Google, et vous trouvez immédiatement la référence du film. The End. Ou est-ce le cas ? Non, le nom caché sera quelque chose de différent aujourd’hui, quelque chose qui échoue sur une recherche Google. Heureusement, vous avez accès au centre de données de l’Utah, le plus grand dépôt de matériel de renseignement au monde. Et le test de l’entrepôt de données est ce dont vous aurez besoin pour résoudre ce dilemme. Mais vous ne pouvez pas rechercher facilement une grande collection de fichiers audio, il doit donc y avoir un autre moyen. Un moyen plus facile d’analyser les données avant même de demander de générer un rapport à partir des données interrogées. Et laissez-moi vous dire ce que c’est.

L’ancienne façon de construire un entrepôt de données était d’utiliser l’ETL. Le E et le L ne sont pas particulièrement excitants ici – ils déplacent simplement les données d’un endroit à un autre sous la même forme. Mais le T, c’est excitant. C’est là que la magie opère. T signifie Transformer. Et c’est ce qui permet de trouver cette phrase facilement. Un jour, j’ai discuté avec un chasseur de têtes – je veux dire un spécialiste du placement professionnel – qui m’a dit que mon CV serait scanné pour en extraire du texte, de sorte que les fichiers.doc ou.docx ne seraient pas pertinents. Une partie de la Transform ici impliquera un processus similaire, un processus visant à extraire du texte plat d’un fichier dans un format différent – dans ce cas, un fichier audio, de la même manière que Siri peut tirer de vrais mots de l’audio aujourd’hui.

gestion des entrepôts de données

Pour obtenir les détails du contenu parlé réel d’un appel téléphonique, vous devez faire l’une des 2 choses suivantes : exploiter la ligne (si vous utilisez POTS), ou copier les paquets assemblés (si vous utilisez VOIP). Les lignes terrestres POTS disparaissent rapidement, ce qui limite la nécessité de recourir à la bonne vieille écoute téléphonique. Pour obtenir les métadonnées, il suffit que l’opérateur soit tenu par la loide pousser les données d’appel vers votre centre d’agrégation, afin d’aider à étiqueter vos fichiers audio de collecte de paquets vocaux. L’agrégateur nettoie ensuite les données par le biais de cette procédure de transformation dont nous venons de parler, de sorte que nous disposions d’un fichier texte plat à analyser. Nous pourrions encore vouloir conserver le fichier audio original pour le lire ultérieurement, afin de pouvoir dire : « C’est la voix de la personne que nous recherchons.  »

Peut-être que le gouvernement exige également des poussées de données provenant d’autres méthodes de communication VOIP ou textuelle, comme Skype ou FaceTime ou gotomeeting ou IM ou email (les pulls causeraient trop de latence dans le système de communication, et nous ne pouvons pas couper la communication sans que quelqu’un devienne suspect). Je dis peut-être – je n’ai aucune connaissance officielle ici de ce à quoi le gouvernement a accès. Je dis seulement ce que je ferais si j’avais le contrôle ultime et si je voulais cet objectif final de collecte de données de communication. Et si vous me connaissez, vous savez à quel point j’aimerais avoir le contrôle ultime. Ou peut-être que mon chapeau à ailettes me pince trop le cerveau et nécessite un ajustement.

Le fait est que nous savons ce que nous avons à faire. Nous avons collecté et stocké beaucoup d’informations. Nous filtrons, si nécessaire, en utilisant un Transform pour qu’elle se présente sous forme de texte plat, bien conçu pour être interrogé ultérieurement. Nous nous donnons la possibilité d’interroger une phrase à partir de notre texte plat collecté. Nous l’utilisons pour générer un rapport de toutes les correspondances de texte pour les choses qui contiennent la phrase de danger que nous recherchons. Le rapport contient des liens vers les fichiers audio originaux ou le script audio de la conversation, pour une analyse plus subtile. Nous trions notre rapport par date, afin de pouvoir retracer la genèse du sujet et parcourir les conversations ultérieures. Tout est bien ficelé, n’est-ce pas ? Tout ce qu’il nous reste à faire maintenant, c’est d’envoyer les meilleurs agents pour appréhender les fraudeurs, maintenant que nous avons découvert leur infâme complot. Et nous devons remercier les renseignements recueillis par notre gigantesque entrepôt de données. Bien joué tout le monde, bon spectacle ! A votre prochaine mission…

Tirez-vous le meilleur parti de vos commentaires d’utilisateurs ?

Previous article

12 façons de réduire vos factures de chauffage et d’économiser de l’argent

Next article

You may also like

Comments

Leave a reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *