Efficient Query Processing Using Machine Learning
Given the rise of deep neural networks (DNNs), unstructured data is becoming increasingly feasible to query by using these DNNs to extract structured data from this unstructured data. For example, an object detection DNN can extract object types and positions from images and BERT DNNs can extract relations from text. Unfortunately, these DNNs can be extremely expensive for many applications, costing up to hundreds of thousands of dollars for naive methods of analysis.
In this talk, I’ll describe the TASTI system from the Stanford DAWN lab, which we have developed to reduce the cost of queries over unstructured data. We’ll first describe how to use proxy scores, which are cheap approximations of expensive DNNs, to accelerate a range of queries (including aggregation, selection, and limit queries, which we explored in the BlazeIt and SUPG systems). We’ll then describe how to generate these scores by clustering unstructured data records in a theoretical principled manner. Combined, our techniques can accelerate queries over unstructured data over 100x compared to naive methods of executing queries.
We’ll also describe our ongoing work to apply TASTI to real world applications, including ecological analysis in collaboration with Stanford biologists and detecting wildfires.
This work is based on four publications at VLDB (BlazeIt, SUPG, Smol, TASTI) joint with Professors Peter Bailis and Matei Zaharia. Our code is open-sourced.
About:
Databricks provides a unified data analytics platform, powered by Apache Spark™, that accelerates innovation by unifying data science, engineering and business.
Read more here: https://databricks.com/product/unified-data-analytics-platform
See all the previous Summit sessions: https://databricks.com/sparkaisummit/north-america/sessions
Connect with us:
Website: https://databricks.com
Facebook: https://www.facebook.com/databricksinc
Twitter: https://twitter.com/databricks
LinkedIn: https://www.linkedin.com/company/databricks/
Instagram: https://www.instagram.com/databricksinc/ Databricks is proud to announce that Gartner has named us a Leader in both the 2021 Magic Quadrant for Cloud Database Management Systems and the 2021 Magic Quadrant for Data Science and Machine Learning Platforms. Download the reports here. https://databricks.com/databricks-named-leader-by-gartner
Что делает видео по-настоящему запоминающимся? Наверное, та самая атмосфера, которая заставляет забыть о времени. Когда вы заходите на RUVIDEO, чтобы посмотреть онлайн «Efficient Query Processing Using Machine Learning», вы рассчитываете на нечто большее, чем просто загрузку плеера. И мы это понимаем. Контент такого уровня заслуживает того, чтобы его смотрели в HD 1080, без дрожания картинки и бесконечного буферизации.
Честно говоря, Rutube сегодня — это кладезь уникальных находок, которые часто теряются в общем шуме. Мы же вытаскиваем на поверхность самое интересное. Будь то динамичный экшн, глубокий разбор темы от любимого автора или просто уютное видео для настроения — всё это доступно здесь бесплатно и без лишних формальностей. Никаких «заполните анкету, чтобы продолжить». Только вы, ваш экран и качественный поток.
Если вас зацепило это видео, не забудьте взглянуть на похожие материалы в блоке справа. Мы откалибровали наши алгоритмы так, чтобы они подбирали контент не просто «по тегам», а по настроению и смыслу. Ведь в конечном итоге, онлайн-кинотеатр — это не склад файлов, а место, где каждый вечер можно найти свою историю. Приятного вам отдыха на RUVIDEO!
Видео взято из открытых источников Rutube. Если вы правообладатель, обратитесь к первоисточнику.