Faisal Malik Widya Prasetya
Verified Expert in Engineering
数据工程师和开发人员
Faisal是一名数据工程师,专门研究谷歌和AWS等云数据技术以及端到端数据工程流程. 从设计体系结构和构建基础设施到开发管道操作, 他对新的云计算适应能力很强, open source, 或SaaS技术. Faisal拥有丰富的经验,通过直接构建端到端数据管道或在其专业领域提供咨询服务,为早期创业公司做出贡献.
Portfolio
Experience
Availability
首选的环境
Visual Studio Code (VS Code), Conda, Linux, Docker, Docker Compose, 谷歌云平台, 亚马逊网络服务(AWS), Jira
The most amazing...
...我做过的一个项目是在客户数据仓库上实现成本优化策略, 将BI使用成本降低100倍.
Work Experience
网页抓取专家
Burak Karakaya
- 开发了一个实时网页抓取器,从各种来源抓取数据, such as Twitter, 币安期货排行榜, etc.,向客户的交易机器人提供数据. scraper可以在tweet发布后的200毫秒内获取tweet.
- 在AWS上提供基础设施,以实现高性能网络,使刮刀能够实时工作. 我设置了IP旋转,这样scraper就不会因为绕过新闻来源的IP速率限制而被阻止.
- 为非技术用户提供管理和操作刮刀的方便界面. 我使用Streamlit和FastAPI来开发这些接口.
- 利用Redis和C等高性能Python扩展来提高scraper的存储和运行时性能.
Data Engineer
XpressLane, Inc.
- 开发抓取工具,从各个网站抓取数据并推送到BigQuery.
- 创建开发和操作文档,以便客户可以维护解决方案,并可以在将来开发更多功能.
- 从抓取的数据向客户交付报告和仪表板,以帮助客户更好地为M做出决策&A use cases.
高级数据工程师
Toptal
- 设计并实现了一个强大的数据管道,从多个营销工具和api(如谷歌Ads)中提取数据, Facebook Ads, and Twitter Ads, 并使用基于Luigi的内部数据管道工具将其转移到BigQuery.
- 创建数据管道解决方案,有效地从各种学习平台(如Polly)提取数据, Udemy, 和Lessonly,并利用Composer与BigQuery合并, 由GCP提供的托管Apache气流服务.
- 参与数据工程团队拆分头脑风暴会议,提出将团队拆分为数据平台团队和分析工程团队的想法. 分析工程团队专注于ETL逻辑, 而数据平台团队维护基础设施.
Data Engineer
QuantumBlack
- 开发了内部数据分析工具,可以简化客户端站点上的部署. 我构建的功能是从各种来源摄取数据,并将它们增量地存储在Snowflake上.
- 处理客户端请求,构建数据分析管道和api.
- 与客户的分析团队和领导层密切合作,收集分析需求,并从架构设计中仔细规划, 执行和交付.
高级数据工程师
Flip
- 使用本地谷歌云平台技术构建数据分析生态系统, such as Datastream, 谷歌云存储, Pub/Sub, Dataflow, and BigQuery.
- 将分析等待时间从最坏情况下的3小时缩短到一个大报告的30秒.
- 维护MySQL和服务器上的cron作业上的数据分析遗留技术,在一个繁重但经常使用的查询上创建计划作业. 繁重的查询可以在不到30分钟的时间内访问,并且具有每日数据的新鲜度.
- 在遗留的基础上构建数据工程团队和团队成员, current, 以及未来的实施.
Data Engineer
Pintu
- 在Amazon EC2上开发ELT数据管道. 它由AWS Lambda打开和关闭, 通过使用CloudWatch调度程序从各种数据源(MySQL, PostgreSQL, MongoDB, Google Sheets, 加密交换api)到BigQuery数据仓库.
- 实现分区, clustering, 将BigQuery上的视图具体化,并将分析成本降低了100倍.
- 与财务专家合作制定最佳的做市策略. 在已发表的论文中对模型进行了实现和改进, 将自有资产的流动性和市场活跃度提高67%.
- 开发了一个欺诈检测系统,在系统安全漏洞的情况下提醒欺诈活动. 此警报通知执行团队,并在四小时内捕获欺诈者. 它获得了价值200万美元的资产.
- 培训业务用户使用Metabase和谷歌Data Studio开发自己的BI报告. 这导致70%的Metabase报告是由业务团队创建的, 而另外30%则需要复杂的查询.
- 领导数据分析团队,并通过运行冲刺计划实现敏捷文化, standup, sprint回顾会议. 它允许跟踪业务用户请求、数据管道问题和改进.
Data Engineer
Kulina
- 从应用程序数据库开发ELT流程, 第三方营销工具, 和谷歌表到BigQuery使用Stitch数据, 哪种方法减少了生产数据库上的查询冲突数量, 间接提高应用程序性能.
- 在数据仓库上开发了雪花模式, 增加业务团队之间的数据可见性.
- Deployed, maintained, 并管理了几个BI工具, such as Redash, Data Studio, and Metabase, 获得业务单位级别的数据治理,并使用适当的工具回答与数据相关的问题.
Experience
NASA API Python Wrapper
http://pypi.org/project/python-nasa/可扩展的Web Scraper
然后,对于转换,我们使用部署在Dataproc上的PySpark. 我们展示无服务器Spark Dataproc以使我们的转换管道具有成本效益. 我们使用GCS作为数据湖, 所以从网站上获取的所有数据都将驻留在GCS和转换输出中. 然后使用BigQuery加载作业将干净的数据存储在BigQuery中, 也编排在气流上. 当数据到达BigQuery时, 涉众仪表板将使用最近的数据自动更新. 我们还设置了一个旋转代理,以避免被发现是机器人.
GCP上的数据管道
Skills
Languages
Python, SQL, Snowflake, JavaScript, HTML, Python 3, t - sql (transact - sql), Stored Procedure, GraphQL, CSS, PHP, Go, R, Scala
Frameworks
Django, Swagger, Flask, Hadoop, Scrapy, Apache Spark, Spark, Flutter, CodeIgniter
Libraries/APIs
Pandas, Asyncio, Python API, REST API, NumPy, Shapely, Scikit-learn, Node.js, OpenAPI, Amazon API, PySpark, Spark ML, OpenCV, Twitter API, SciPy, TensorFlow, Interactive Brokers API, Luigi
Tools
BigQuery, Apache Airflow, GitHub, AWS Glue, Microsoft Power BI, Tableau, Amazon Elastic MapReduce (EMR), Amazon QuickSight, AWS步骤函数, MySQL性能调优, 亚马逊ElastiCache, AWS简单通知服务(SNS), Git, Jupyter, Pytest, Kibana, Cloud Dataflow, Apache Beam, Celery, RabbitMQ, Amazon Simple Queue Service (SQS), Docker Compose, Redash, Amazon CloudWatch, Terraform, Amazon Athena, Redshift Spectrum, Looker, Amazon EKS, Google Analytics, Amazon Cognito, GIS, GRASS GIS, PhpStorm, Navicat, MongoDB Atlas, Stitch Data, Jira, Domo, 谷歌云数据
Paradigms
商业智能(BI), ETL, MapReduce, Stress Testing, REST, 数据驱动的设计, Design Patterns, Microservices, Microservices架构, Database Design, Kanban, 敏捷项目管理, Data Science, DevOps, Agile, 面向对象设计(OOD), 面向对象编程(OOP), 分布式计算, 维度建模
Platforms
Visual Studio Code (VS Code), Linux, 谷歌云平台, 亚马逊网络服务(AWS), AWS Lambda, AWS Elastic Beanstalk, SharePoint, Jupyter Notebook, Docker, Amazon EC2, Oracle Database, Azure, Apache Kafka, Oracle, Databricks, Firebase, Kubernetes
Storage
MySQL, PostgreSQL, Microsoft SQL Server, NoSQL, Data Lakes, 数据库迁移, Amazon Aurora, Data Pipelines, Elasticsearch, Databases, Amazon DynamoDB, Database Modeling, Data Integration, PL/SQL, Amazon S3 (AWS S3), MongoDB, 数据库管理(DBA), Redshift, Neo4j, Dynamic SQL, Alibaba Cloud, Google Cloud, 谷歌云存储, IIS SQL Server, Redis
Other
Conda, Machine Learning, Google BigQuery, Data Engineering, Data Modeling, Data Migration, ETL Tools, Data Analytics, Data Analysis, Data Architecture, Data Management, Amazon RDS, CDC, 数据构建工具(dbt), Cloud Migration, ELT, 大数据架构, Architecture, Big Data, Project Planning, Web Scraping, Scraping, Data Wrangling, APIs, Excel 365, Dashboards, Data Manipulation, Shell Scripting, Benchmarking, Performance, 性能测试, Caching, Data Reporting, 软件架构, Back-end, 人工智能(AI), Data Scraping, PDF Scraping, Scalability, Algorithms, Data Structures, 软件开发, Optimization, Cloud, eCommerce, Excel Macros, 自动交易软件, SaaS, GeoPandas, API Integration, 自然语言处理(NLP), Serverless, Lint, 包装消费品, 后端开发, FastAPI, Extensions, Data, Streaming Data, Data Governance, Orchestration, 解决方案架构, 技术架构, Monitoring, Multithreading, 实体关系, Software Design, Workflow, API Design, AWS云架构, 性能调优, 亚马逊API网关, Cryptography, Research, Data Warehousing, 数据可视化, Metabase, 谷歌数据工作室, CI/CD Pipelines, GitHub Actions, 脚本语言, 数据驱动的仪表盘, Azure数据工厂, 技术项目管理, Azure Data Lake, Azure Databricks, Business Analysis, Tesseract, QGIS, OpenAI GPT-3 API, Neural Networks, Azure Synapse, eCommerce APIs, GPT, LangChain, SharePoint Online, Data Auditing, Azure SQL数据仓库(SQL DW), 业务体系结构, 企业架构, Mathematics, Kedro, Amazon Neptune, Snowpark, Dataproc, Credit Modeling
Education
计算机科学学士学位
Gadjah Mada大学-日惹,印度尼西亚
Certifications
基础设施自动化与Terraform云
Udemy
谷歌云专业数据工程师
Udemy