L'enrichissement des données corporatives, à l'aide des données disponibles sur le Web, est un domaine de recherche appliquée qui peut améliorer grandement les décisions d'entreprises et donner un avantage stratégique considérable. Les techniques d'analyses de contenu de sites Web, de documents, de vidéos et de Wikis nécessitent l'utilisation d'infrastructures Big-Data et la maîtrise de techniques du domaine du linked-data. Voici les projets sur lesquels nous avons actuellement des travaux en cours:
Ce projet a été proposé par Revelate qui est une startup Montréalaise spécialisée en Big Data dans le domaine financier. Les clients typiques de Revelate sont des bourses, des places de marché alternatifs (ATS) et des groupes de trading dans les institutions financières. La plateforme peut également être utilisée par des départements de conformité et des régulateurs.
DÉFI
Cette figure présente la première version du prorotype. Cette première preuve de concept, de génération de formules statistiques a implanté un parser, à l'aide de «scala.util.parser.combinator», qui crée une grammaire mathématique et permet d'exprimer syntaxiquement les éléments des formules statistiques. Il sera donc possible d'utiliser ce parser, à l'aide d'une interface utilisateur, pour qu'un utilisateur construise ou adapte une formule lui même. Dans la seconde itération, nous avons développé le code Scala et les RDDs pour effectuer quatres formules (Volume, VWAP, VWAS et GK) et nous les avons expérimenté, à grande échelle, sur une grappe Amazon. Finalement, lors de a troisième itération, nous avons générer du code Latex, à partir de chaines de caractéres Java (qui contiens une formule), et nous la représentons graphiquement de manière à ce que les utilisateurs puissent les valider visuellement (voir figure ci-dessous):
Exemple de l'étude de la seconde itération des différentes configurations sur Amazon Exemple de l'étude de l'efficacité de la parallélisation des tâches Spark sur Amazon
ÉQUIPE D'ÉTUDIANTS Philippe Grenier-Vallée et Luiz Fernando Santos Pereira
TECHNOLOGIES Spark 2.0, Scala, Java, Scala Parser Combinators, JLatexmath, JSON, AWS EMR, Maven, BitBucket
Ce projet est réalisé sur
Analyse de texte d'un Wiki (projet en science ouverte) Le processus de publication d'article est long, couteûx et souvent les résultats sont privés. Le mouvement open data, récemment appuyé par l'Union Européenne, vise à libéraliser ce processus. Le projet vise à permettre l'évolution d'un artcile existant en ouvrant son contenu aux commentaires et changements de la communauté d'intérêt et résultant ainsi en une oeuvre collective.
CE QUE NOUS AVONS FAIT
L'équipe du GRISOU a offert un WiKi (adaptation de MediaWiki) adapté à cette situation qui sera expérimenté, par l'IEEE Computer Society, lors d'un essai comportant 4 articles déjà publiés dans la revue IEEE Software. L'objectif de cet essai est de voir comment adresser les défis et expérimenter cette nouvelle approche de publication collaborative. Suite a cet essai, une publication spéciale de ce magazine fera état des résultats obtenus lors de cette expérimentation. Faites l'essai en utilisant le Wiki pour mettre à jour ou commenter une publication existante.
Amélioration de la précision des requêtes
Ce projet, vise l'amélioration de la précision des requêtes en ajoutant des techniques avancées de recherche de documents. Google est le leader mondial du domaine avec son brevet de Machine Translation for Query Expansion et ses techniques de snippets et de Statistical Machine Translation. Continuez le bon travail effectué par M'hammed Oulaidi qui consistait à insérer un thésaurus multilingue, à l'aide de Ginco, qui améliore la qualité des requêtes.
TECHNOLOGIES Mallet, TextBlob, CouchDB, Google Translate API, WordNet, NLTK, Stanford NLP parser, Solr
Conversion vers les logiciels libres
Le passage au logiciel libre, pas si facile que ça mais c'est possible. Suivez la dicussion sur le blogue de l'ÉTS. L'entreprise devrait-elle renouveller ses licences Microsoft ou adopter Linux et ses logiciels de bureautique OpenOffice? Quelle est la faisabilité et les coûts de migration autre que les seuls coûts des licences? Les projets de recherche en logiciel libre visent à trouver le meilleur logiciel corresponsant au besoin et d'en étudier le projet de conversion. (vue d'ensemble de la problématique) Guides de conversion vers le libre: Projet d'identification et de choix d'un logiciel libre de remplacement, de la réalisation d'une analyse d'impact pour la migration, suivi de la réalisation d'un guide d'aide à la conversion - Exemple d'étude d'identification; - Étude des logiciels libres actuels pour supporter le développement logiciel