Paul Ingram - Calling Distributed Python from Inside SQL
PyData Dallas 2015
"We set out to build a fully scalable distributed SQL platform but quickly realized that use cases at that scale were much more complex that simply joining data and easy to digest select statements. To support our data science team and our users, we implemented a distributed python layer that allows our programmers to quickly construct distributed functions that enhance SQL’s native capabilities, including implementing statistical and machine learning algorithms for use across massively parallel data sets. Our talk will cover the motivation behind implementing the python layer as well as the technical challenges we ran into while extending the language and enabling it to run in a truly parallelized fashion. Abstract : The SQL language allows many data scientists to quickly manipulate raw data into data sets useful for analysis. However, SQL has a number of restrictions that make simple tasks such as efficiently parsing rows of data difficult to do without writing custom procedures. Couple that with the increasingly varied data types and data sets, and SQL is quickly eschewed as the language of choice for complex, big data manipulation. Enter Python — a language perfectly suited to the task. Marrying python and SQL has allowed our data science teams to pick the language that best fits their specific needs and construct functions that allow us to implement repeatable processes at scale and make complex calls accessible to clients and team members who are only familiar with SQL. We will introduce 3 key paradigms for parallelizing python and building the SQL integration and discuss the technical thought process behind each : 1. Implementing a master-worker communication paradigm for Python 2. Developing a custom distributed data structure 3. Distributed package access At the conclusion of the talk, we will walk through a basic use case and demonstrate how the interplay between SQL and python is made real time. " 00:00 Welcome!
00:10 Help us add time stamps or captions to this video! See the description for details.
Want to help add timestamps to our YouTube videos to help with discoverability? Find out more here: https://github.com/numfocus/YouTubeVideoTimestamps
Что делает видео по-настоящему запоминающимся? Наверное, та самая атмосфера, которая заставляет забыть о времени. Когда вы заходите на RUVIDEO, чтобы посмотреть онлайн «Paul Ingram - Calling Distributed Python from Inside SQL», вы рассчитываете на нечто большее, чем просто загрузку плеера. И мы это понимаем. Контент такого уровня заслуживает того, чтобы его смотрели в HD 1080, без дрожания картинки и бесконечного буферизации.
Честно говоря, Rutube сегодня — это кладезь уникальных находок, которые часто теряются в общем шуме. Мы же вытаскиваем на поверхность самое интересное. Будь то динамичный экшн, глубокий разбор темы от любимого автора или просто уютное видео для настроения — всё это доступно здесь бесплатно и без лишних формальностей. Никаких «заполните анкету, чтобы продолжить». Только вы, ваш экран и качественный поток.
Если вас зацепило это видео, не забудьте взглянуть на похожие материалы в блоке справа. Мы откалибровали наши алгоритмы так, чтобы они подбирали контент не просто «по тегам», а по настроению и смыслу. Ведь в конечном итоге, онлайн-кинотеатр — это не склад файлов, а место, где каждый вечер можно найти свою историю. Приятного вам отдыха на RUVIDEO!
Видео взято из открытых источников Rutube. Если вы правообладатель, обратитесь к первоисточнику.