Portfólio de projetos pessoais e postagens diversas sobre a área
Profissional da área de dados atuando há mais de 6 anos no segmento financeiro com conhecimentos em Python, SQL, machine learning e analytics.
Tags
dvc (1) eda (1) ferramentas (1) google cloud (1) kaggle (1) livro (1) machine learning (2) nlp (3) produtividade (1) python (4)
Postagens recentes
Publicado em:
No contexto de análise de dados é bastante comum o uso dos joins no SQL e do df.merge() no Pandas quando queremos obter correspondências exatas entre dois registros, mas qual seria a alternativa quando queremos encontrar strings que são diferentes, mas semelhantes? É para isso que serve a técnica de fuzzy matching e da biblioteca […]
Publicado em:
A Olist é uma empresa brasileira de tecnologia fundada em 2015 que oferece como serviço para o varejo soluções de gestão de e-commerce e a disponibilização de produtos de lojistas em diferentes marketplaces. Em 2018, a Olist disponibilizou no Kaggle uma base de dados anonimizada de uma amostra das vendas ocorridas desde o final de 2016 até agosto de 2018, possibilitando diversos tipos de análises.
Publicado em:
Cientistas de dados e empresas criam modelos de machine learning a todo momento para os mais diversos tipos de tarefas e especificidades, então é bem capaz de ao se deparar com a necessidade de ter que usar um modelo para classificação de textos ou geração de imagens, por exemplo, você já possa começar de um […]
Publicado em:
Com a crescente complexidade das análises e dos projetos de dados envolvendo diversos datasets diferentes, o versionamento dos dados usados (e gerados) se torna muito importante para se manter a reprodutibilidade e a transparência dos resultados. O Data Version Control (DVC) surge como uma boa opção de ferramenta para gerenciar e versionar datasets, permitindo que […]
Publicado em:
Essencialismo é dedicar-se a fazer menos, porém melhor. Somente ao focar apenas no que é realmente importante, em vez de tentar abarcar tudo, é que podemos oferecer nossa máxima contribuição.