在一个日益水平化的世界里,评(Goodreads、TripAdvisor),我们都是作家、摄影师、设计师、传播者或数字创作者,不断地将数百万内容倒入互联网这个巨大的垃圾填埋场。另一方面,人工智能并没有停止向我们学习。正如埃里克·萨丁(Éric Sadin)在《世界的硅化》中所说。数字自由主义不可抗拒的扩张1:“行为的产业解读成为数字经济的主要支点。” 算法已经可以非常精确地翻译和生成音乐或图像,这些音乐或图像可以输入到电影或视频游戏以及 Spotify 或 YouTube 中。只有人类掌握的语言越来越少。
其中之一就是文学艺术但文学也受到
了数字化、序列化的逻辑影响,通过人智能的精 捷克共和国 WhatsApp 号码列表 益求精只是时间问题。这是由数据和存储和分析文本的策略提供的,20 年来一直没有停止出现。2001年1月15日,维基百科诞生。Google Print 于 2004 年在法兰克福书展上亮相,后来更名为 Google Books(配备 Elphel 323 相机,以每小时 1,000 页的速度进行拍摄,这一姿势普遍预示着电影《短路》中的机器人)1986 年,他在以每小时 1000 英里的速度读完一本百科全书后大喊:“数据,我想要更多数据!”)。最终,谷歌学术搜索(Google Scholar)或谷歌数据集搜索(Google Dataset Search)到来,它可以索引和控制学术文献的生成,而谷歌数据集搜索包含超过 2500 万个数据集,使其成为机器学习的理想选择。
目前,有数以百万计的数字化和
处理过的文件,其中包括诗歌、小说类型、新闻、戏剧、电影剧 电话线索 本或漫画或播客、社交网络、垃圾邮件、歌曲、电视竞赛的问题和答案、评论(亚马逊评论、烂番茄)评论)、博客文章(Blogger Corpus)或书籍(古腾堡计划)。gpt -3 使用“Common Crawl”进行训练,该语料库包含从互联网提取的约一万亿个单词、45 TB 的压缩文本,经过过滤和处理,直至减少到 570 GB。美国艺术家兼程序员迈克尔·曼迪伯格在纸上出版了维基百科2015年英文版:7,413册,700页。来自约 3500 万页的 10 TB 文本信息。现在他们的数量约为 5500 万。