网站首页 > 开源技术 正文
今天我们介绍了如何使用pipeline在 Apache Beam 中的文件中读取、写入数据,其中“Employees.csv”文件被读取/过滤/写入新文件。
介绍
本文通过适当的pipeline示例解释了如何在Apache Beam中读取和写入文件中的数据。从文件中读取数据是通过“ReadFromText”转换完成的,写入新文件是通过“WriteToText”转换完成的。开始我们解释了如何从文件中读取数据以及如何写入文件,在、后半部通过创建一个pipeline,其中读取“Employees.csv”文件,根据年龄过滤,提取员工的名字,姓氏和年龄pipeline入新文件。总体而言,pipeline如下所示:
从文件中读取
在本文中,我们使用来自数据源的文件,我们下载了一个 100 条记录文件并将其命名为“Employees.csv”,通过“ReadFromText”将从磁盘读取文件。下面的代码展示了相同的内容:
输出
写入文件
“WriteToText”转换用于将数据写入文件,下面的程序从文件中读取数据并写入“out.csv”文件。
输出
pipeline
pipeline代码包含两个函数,一个用于过滤员工年龄大于 40 的行,第二个用于仅映射员工的名字、姓氏和年龄。
在这两个函数中,我们都基于索引访问记录。完整的流程代码如下:
生成文件的内容
概括
在文章中,我们探讨了如何从文件中读取、写入数据,我们还解释了执行过滤、映射数据并将其写入新文件的完整pipeline代码。
猜你喜欢
- 2024-10-26 系统设计理念:健壮的流式数据处理
- 2024-10-26 每日 GitHub 探索 | 轻量级虚拟化、跨平台桌面应用、游戏开发利器
- 2024-10-26 谷歌发布tf.Transform:一个数据预处理库
- 2024-10-26 Apache Beam 大数据处理一站式分析
- 2024-10-26 谷歌布局大数据:开源平台 Apache Beam 正式发布
- 2024-10-26 Apache Beam 2.23.0 发布,大数据批处理和流处理标准
- 2024-07-19 微信红包架构、支付宝五福红包背后的网关系统,不可错过的150+研发案例
- 2024-07-19 SpringBoot3.0 + RocketMq 构建企业级数据中台完结
- 2024-07-19 为什么MapReduce会被硅谷一线公司淘汰?
- 2024-07-19 奋战一年,LangChain首个稳定版本发布,LangGraph把智能体构建为图
你 发表评论:
欢迎- 最近发表
-
- 后端服务太慢?试试这 7 招(后端 服务端 区别)
- 做一个适合二次开发的低代码平台,把程序员从curd中解脱出来-1
- Caffeine缓存 最快缓存 内存缓存(caffeine缓存使用)
- Java性能优化的10大策略(java性能调优从哪几个方面入手)
- New Balance M576PGT 全新配色设计
- x-cmd pkg | qrencode - 二维码生成工具
- 平和精英抽奖概率是多少 平和精英抽奖物品一览
- x-cmd pkg | tmux - 开源终端多路复用器(terminal multiplexer)
- 漫威官方App中文版上线:全站漫画限时免费
- macOS Monterey 12.7.4 (21H1123) 正式版发布,ISO、IPSW、PKG 下载
- 标签列表
-
- jdk (81)
- putty (66)
- rufus (78)
- 内网穿透 (89)
- okhttp (70)
- powertoys (74)
- windowsterminal (81)
- netcat (65)
- ghostscript (65)
- veracrypt (65)
- asp.netcore (70)
- wrk (67)
- aspose.words (80)
- itk (80)
- ajaxfileupload.js (66)
- sqlhelper (67)
- express.js (67)
- phpmailer (67)
- xjar (70)
- redisclient (78)
- wakeonlan (66)
- tinygo (85)
- startbbs (72)
- webftp (82)
- vsvim (79)
本文暂时没有评论,来添加一个吧(●'◡'●)